Upload
pscheir
View
1.093
Download
1
Embed Size (px)
DESCRIPTION
Citation preview
http://kmi.tugraz.at http://www.know-center.atThis work is licensed under the Creative Commons Attribution 2.0 Austria License. To view a copy of this license, visit http://creativecommons.org/licenses/by/2.0/at/.
Wissenstechnologie VUSPARQL, Triple Stores, Suche im Semantic Web, Microformats und RDFa
Peter Scheir
TU Graz & Know-Center
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
2
Inhalt
SPARQL
Triple Stores
Suche im Semantic Web
Microformats und RDFa
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
3
Semantic Web Stack
SPARQL
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
4
SPARQL
SPARQL Query Language for RDF
Abfragesprache für RDF Graphen
Ähnlich zu SQL
Kein INSERT, UPDATE, DELETE
Entwicklung durch die RDF Data Access Working Group
Derzeit Proposed Recommendation (12 November 2007)
http://www.w3.org/TR/rdf-sparql-query/
http://thefigtrees.net/lee/sw/sparql-faq
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
5
SPARQL - Beispiel
Daten:
http://example.org/book/book1http://purl.org/dc/elements/1.1/title"SPARQL Tutorial" .
Abfrage:
SELECT ?title WHERE { <http://example.org/book/book1> <http://purl.org/dc/elements/1.1/title> ?title . }
Ergebnis:
title "SPARQL Tutorial"
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
6
SPARQL - Beispiel
Daten:
@prefix foaf: <http://xmlns.com/foaf/0.1/> ._:a foaf:name "Johnny Lee Outlaw" ._:a foaf:mbox <mailto:[email protected]> ._:b foaf:name "Peter Goodguy" ._:b foaf:mbox <mailto:[email protected]> .
Abfrage:
PREFIX foaf: http://xmlns.com/foaf/0.1/SELECT ?name ?mboxWHERE { ?x foaf:name ?name .?x foaf:mbox ?mbox}
Ergebnis:
name mbox"Johnny Lee Outlaw" mailto:[email protected]"Peter Goodguy" <mailto:[email protected]>
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
7
SPARQL
Abfrage:
PREFIX foaf: http://xmlns.com/foaf/0.1/SELECT ?name ?mboxWHERE { ?x foaf:name ?name .?x foaf:mbox ?mbox}
Variablen durch ? gekennzeichnet
Alle Statements werden zurückgegeben die auf Muster in WHERE passen
Prefix um kürzere Queries schreiben zu können
WHERE optional
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
8
SPARQL
Abfrage:
PREFIX abc: http://example.com/exampleOntologie#SELECT ?capital ?countryWHERE {?x abc:cityname ?capital.?y abc:countryname ?country.?x abc:isCapitalOf ?y.?y abc:isInContinent abc:europe.}
Beispiel von: http://de.wikipedia.org/wiki/SPARQL
Einfach Joins zu beschreiben (im Vergleich zu SQL)
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
9
Was ist mit XPath?
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
10
Inhalt
SPARQL
Triple Stores
Suche im Semantic Web
Microformats und RDFa
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
11
Überblick Triple Stores
RDF-Graph (S,P,O)
http://book.at/isbn123 http://fussball.de/G. Müllerauthor
€15 Ein Leben für die Tore Gerd Müller
price title name
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
12
Überblick Triple Stores
http://book.at/isbn123 http://fussball.de/G. Müllerauthor
€15 Ein Leben für die Tore Gerd Müller
price title
name
Gerd MüllerNamehttp://fussball.de/G. Müller
Ein Leben für die ToreTitlehttp://book.at/isbn123
€15pricehttp://book.at/isbn123
http://fussball.de/G. Müllerauthorhttp://book.at/isbn123
ObjektPrädikatSubjekt
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
13
Überblick Triple Stores
Abfrage: Titel der Bücher von Gerd Müller?
Gerd MüllerNamehttp://fussball.de/G. Müller
Ein Leben für die ToreTitlehttp://book.at/isbn123
€15pricehttp://book.at/isbn123
http://fussball.de/G. Müllerauthorhttp://book.at/isbn123
ObjektPrädikatSubjekt
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
14
Abbildung in relationalen Datenbanken
Abbildung in Form von ein bis 6 Tabellen
Darstellung in Form eines linearisierten Graphs
Zentrale Tabelle: S,P,O Tabelle
Verschiedene Indizes für Zugriff
Mapping von SPARQL Anfragen auf eine Menge von SQL Anfragen
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
15
Abbildung in relationalen Datenbanken
Beispiel Sesame
871
541
321
objectpredicatesubject
Ein Leben für die Tore8
Titel7
€155
price4
http://fussball.de/G. Müller3
author2
http://book.at/isbn1231
valueId
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
16
Abbildung in relationalen Datenbanken
Einfache Repräsentation im RDBMS
Unabhängig vom Schema
Flexibilität
Keine schemaspezifischen Anpassungen des DBMS
Im Allgemeinen Generik vs. Leistungsfähigkeit
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
17
Erhöhung der Leistungsfähigkeit
Mapping des Schemas auf eine relationale Struktur
15
Preis
http://book.at/isbn123
Buch_ID
Ein Leben für die Tore
Titel
http://fussball.de/G. Müller
Autor_ID
Gerd Müller
Name
http://book.at/isbn123http://fussball.de/G. Müller
Buch_IDAutor_ID
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
18
Erhöhung der Leistungsfähigkeit
Subject Property Materialized Views (Oracle)
http://fussball.de/G. Müller
Autor
http://book.at/isbn123
Buch_ID
Ein Leben für die Tore
Titel
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
19
Erhöhung der Leistungsfähigkeit
„Echte“ native RDF Triple Stores
Optimierung durch Verwendung spezialisierter Indizes (Self-Joint Optimierung)
Indizierung verschiedener Kombinationen von S,P,O
P,S,O
O,P,S
O,S,P
S,O,P
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
20
Tripel Stores Implementierungen
Jena/Jena 2
Hewlett Packard
Java Open Source
Anbindung an gängige RDBMS
SPARQL als Abfragesprache
RDF/RDFS/OWL
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
21
Tripel Stores Implementierungen
Sesame
Aduna Technologies
Java Open Source
Anbindung an gängige RDBMS
Eigener native Store
RDQL als Abfragesprache
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
22
Tripel Stores Implementierungen
Kowari
Tucana Technologies
„Native“ Triple Store
RDQL als Abfragesprache
Volltextsuche integriert
Integrierbar mit Jena
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
23
Tripel Stores Implementierungen
3Store
University of Southhampton
C Library kombiniert mit MySQL
RDQL als Abfragesprache
Anwendung in unterschiedlichen EU Projekten und kommerziellen Projekten
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
24
Tripel Stores Implementierungen
Oracle 10g
Oracle
Ergänzung der Oracle DB um „native“ Triple Store
Kombination Triple Store Query mit SQL (teilw. SPARQL kompatibel)
Kombinierbar mit anderen Oracle Modulen
Erster Triple Store eines großen kommerziellen Anbieters
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
25
Leistungsfähigkeit Open Source
Portwin & Parvatikar (2006) Scaling Jena in a Commercial Environment: The Ingenta MetaStore Project
Standardtestdatensatz Domäne Universitäten
~200 Millionen Triples (RDF), 11 Millionen Triples (OWL), 4.3 Millionen Dokumente
Kowari: 1 Milliarde Triple
Unoptimiert, 7 Millionen Triples
Einfache Queries im Millisekundenbereich
Inferenzen (RDFS/OWL) je nach Komplexität Sekunden bis Minutenbereich
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
26
Leistungsfähigkeit Oracle
BioMed Literatur Datenbank (UniProt Datensatz)
80 Millionen Triple
~5 GB RDF/XML Daten (~2,5 GB Triple; 1,7 GB Mapping; 4,8 GB Indizes)
Queries im Millisekunden/Sekundenbereich
Optimierungspotential Subject Property MaterializedView ~30%
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
27
Leistungsfähigkeit Zusammenfassung
Trade-off Generik vs. Leistung/Skalierbarkeit
Hohes Optimierungspotential:Optimierte Strukturen einfach aus generischer Struktur erzeugbar
Hoher Einfluss des Schemas resp. der Domäne
Nicht skalierbar auf Größe des Internets, jedoch skalierbar auf Unternehmensgröße
Intelligente Kombination von Retrieval/Inferenz notwendig
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
28
Inhalt
SPARQL
Triple Stores
Suche im Semantic Web
Microformats und RDFa
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
29
Suche im Web derzeit
Suche nach Dokumenten
Information Retrieval
Z.B. Suchmaschinen
Dokumente und Anfrage werden auf Basis eines Modells repräsentiert und verglichen
Unterschiedliche Modelle
Bsp.: Vektorraummodell
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
30
Vektorraummodell
Repräsentation der Dokumente als Vektoren
Vektor hat so viele Dimensionen wie Terme (Wörter) im System
Wenn Wort in Dokument vorkommt ist Komponente in Vektor 1, sonst 0 (vereinfacht!)
Anfrage wird ebenfalls als Vektor repräsentiert
Winkel zwischen Vektoren sagt über deren Ähnlichkeit aus
Ähnlichstes Dokument zu Anfrage wird als höchstes gereiht
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
31
Vektorraummodell
[Granitzer 2006]
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
32
Vektorraummodell
Repräsentation der Dokumente als Vektoren
Komponente in Termvektor = Anzahl des Wortes in Dokument
Auch reelle Gewichtung der Terme in Vektoren
Termfrequenz (term frequency, tf)
Inverse Dokumentenhäufigkeit (inverse documentfrequency, idf)
tfidf (tf*idf, tf/idf, tf-idf)
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
33
Vektorraummodell
Anfragevektor
Dokumentvektor
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
34
Vektorraummodell
Skalarprodukt
Kosinusmaß
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
35
Vektorraummodell
Kosinusmaß
Normalisierung durch L2-Norm (Länge der Vektoren)
Keine Bevorteilung von langem Dokument in denen viele, unterschiedliche Worte vorkommen
Variationen dieser Maße mit verschiedenen Normalisierungen
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
36
Vergleich mit Suche in wissensbasierten Systemen
Vorweg: Es existieren Ausnahmen und Mischformen
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
37
Art von Wiedergewonnenem
Information Retrieval
Unsicherheit, Vagheit
Wissensbasierte Systeme
Modelliertes Wissen ist wahr
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
38
Speicherort
Information Retrieval
Datenbanken
Dokumente auf File-Servern
jetzt Web
Wissensbasierte Systeme
Wissensbasen (Datenbanken),
Zukunft: Verteilte Wissensbasen im Web
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
39
Abfragen
Information Retrieval
Oft eingeben von Suchtermen
Meist Laien
Wissensbasierte Systeme
Formulierung von komplexeren Anfragen
Meist Experten
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
40
Ergebnisse
Information Retrieval
Gereiht nach der vermuteten Relevanz
für den Suchenden
Wissensbasierte Systeme
Alle Ergebnisse sind Relevant
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
41
Repräsentation
Information Retrieval
Unterschiedliche Modelle
Dokumente und Anfrage werden auf Basis des Modells repräsentiert und verglichen
Bsp.: Vektorraummodell
Wissensbasierte Systeme
Unterschiedliche Repräsentationsformen von Wissen
Formulierung von Anfragen für Repräsentationsform
Bsp.: RDF, OWL und SPARQL
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
42
Weiter Punkte?
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
43
Inhalt
SPARQL
Triple Stores
Suche im Semantic Web
Microformats und RDFa
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
44
Microformats
Einbetten von semantischer Zusatzinformation inXHTML Seiten
Lowercase semantic web
add semantics to today's web
rather than create a future web
http://www.tantek.com/presentations/2004etech/realworldsemanticspres.html
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
45
Microformats - Nutzen
Extrahieren von Daten aus menschenlesbaren Webseiten durch Programme (smart scraping)
http://microformats.org/wiki/what-can-you-do-with-microformats
Um z.B.:
Adressen aus Webseite in Adressbuch zu übertragen
Termin aus Webseite in Kalender zu übertragen
Rezensionen aus unterschiedlichen Quellen zu aggregieren
Verteiltes soziales Netzwerk aufzubauen
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
46
Microformats - Beispiel
Kontaktdaten:Peter ScheirTU [email protected] 21aGraz , 8010 AUSTRIA
In HTML:
<div>Peter Scheir</div><div>TU Graz</div><div><a href="mailto:[email protected]">[email protected]</a></div><div>Inffeldgasse 21a</div><div>Graz, 8010 AUSTRIA</div>
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
47
Microformats - Beispiel
Kontaktdaten:Peter ScheirTU [email protected] 21aGraz , 8010 AUSTRIA
Als Microformat (hcard):
<div id="hcard-Peter-Scheir" class="vcard"><div class="fn">Peter Scheir</div><div class="org">TU Graz</div><div><a class="email" href="mailto:[email protected]">[email protected]</a></div> <div class="adr"><div class="street-address">Inffeldgasse 21a</div><span class="locality">Graz</span>,<span class="postal-code">8010</span><span class="country-name">AUSTRIA</span></div></div>
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
48
Microformats
Verschiedene Microformats für verschieden Zwecke
hCard: Kontaktdaten von Personen und Organisationen
hCalendar: Kalendereinträge
hReview: Bewertung
XFN: Sozial Netzwerke
rel-license: Lizenzen
rel-tag: Tags, Schlüsselwörter, Kategorien
…
http://microformats.org/wiki/Main_Page
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
49
Microformats
the microformats principles
solve a specific problem
start as simple as possible
design for humans first, machines second
reuse building blocks from widely adopted standards
modularity / embeddability
enable and encourage decentralized development, content, services
http://microformats.org/about/
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
50
Microformats - Anwendungen
Microformat Suche mit Technorati
http://kitchen.technorati.com/
Operator Firefox Add-On
https://addons.mozilla.org/en-US/firefox/addon/4106
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
51
RDFa
Einbetten von semantischer Zusatzinformation in XHTML Seiten
Einbetten von RDF in XHTML Seiten
Reuse von RDF (Schema), OWL Vokabularien
RDFa Primer
W3C Working Draft 26 October 2007
http://www.w3.org/TR/xhtml-rdfa-primer/
RDFa in XHTML: Syntax and Processing
Working Draft 18 October 2007
http://www.w3.org/TR/rdfa-syntax/
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
52
RDFa - Beispiel
Kontaktdaten:Peter ScheirTU [email protected] 21aGraz , 8010 AUSTRIA
In RDFa:
<div xmlns:contact="http://www.w3.org/2001/vcard-rdf/3.0#" about="http://www.kmi.tugraz.at/staff/peter"><div property="contact:fn">Peter Scheir</div><div property="contact:org">TU Graz</div><div><a rel="contact:email" href="mailto:[email protected]">[email protected]</a></div><div property="contact:adr"><div property="contact:Street">Inffeldgasse 21a</div><span property="contact:Locality">Graz</span>,<span property="contact:Pcode">8010</span><span property="contact:Country">AUSTRIA</span></div></div>
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
53
RDFa
Verwendung von Namespaces
Reuse von RDF (Schema), OWL Vokabularien
Verwendete XHTML Attribute:
@rel – Verbindung zwischen zwei Ressourcen (Prädikat)
@rev – Umgekehrte Verbindung zwischen zwei Ressourcen (Prädikat)
@href – Ziel Ressource einer Verbindung (Objekt)
@src - Ziel Ressource einer Verbindung mit eingebetteter Ressource (Objekt)
Zusätzliche XHTML Attribute von RDFa:
@about – Die Ressource über die etwas ausgesagt wird (Subjekt)
@property – Verbindung zwischen Subjekt und einem Literal (Prädikat)
@resource – Ziel Ressource einer Verbindung – nicht klickbar (Objekt)
@datatype – Datentyp eines Literals
@content – maschinenlesbarer Inhalt eines Literals
@instanceof – Ressource ist Instanz von Klasse (Subjekt)
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
54
Ende
Danke für die Aufmerksamkeit
Fragen / Kommentare?
November 2007
http://kmi.tugraz.at
Wissenstechnologie @ kmi.tugraz.at
55
License
This work is licensed under the Creative Commons Attribution 2.0 Austria License. To view a copy of this license, visit http://creativecommons.org/licenses/by/2.0/at/.
Contributors:
Michael Granitzer
Peter Scheir
Klaus Tochtermann