55
http://kmi.tugraz.at http://www.know-center.at This work is licensed under the Creative Commons Attribution 2.0 Austria License. To view a copy of this license, visit http://creativecommons.org/licenses/by/2.0/at/ . Wissenstechnologie VU SPARQL, Triple Stores, Suche im Semantic Web, Microformats und RDFa Peter Scheir TU Graz & Know-Center

Wissenstechnologie 2007 - VI

  • Upload
    pscheir

  • View
    1.093

  • Download
    1

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Wissenstechnologie 2007 - VI

http://kmi.tugraz.at http://www.know-center.atThis work is licensed under the Creative Commons Attribution 2.0 Austria License. To view a copy of this license, visit http://creativecommons.org/licenses/by/2.0/at/.

Wissenstechnologie VUSPARQL, Triple Stores, Suche im Semantic Web, Microformats und RDFa

Peter Scheir

TU Graz & Know-Center

Page 2: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

2

Inhalt

SPARQL

Triple Stores

Suche im Semantic Web

Microformats und RDFa

Page 3: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

3

Semantic Web Stack

SPARQL

Page 4: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

4

SPARQL

SPARQL Query Language for RDF

Abfragesprache für RDF Graphen

Ähnlich zu SQL

Kein INSERT, UPDATE, DELETE

Entwicklung durch die RDF Data Access Working Group

Derzeit Proposed Recommendation (12 November 2007)

http://www.w3.org/TR/rdf-sparql-query/

http://thefigtrees.net/lee/sw/sparql-faq

Page 5: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

5

SPARQL - Beispiel

Daten:

http://example.org/book/book1http://purl.org/dc/elements/1.1/title"SPARQL Tutorial" .

Abfrage:

SELECT ?title WHERE { <http://example.org/book/book1> <http://purl.org/dc/elements/1.1/title> ?title . }

Ergebnis:

title "SPARQL Tutorial"

Page 6: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

6

SPARQL - Beispiel

Daten:

@prefix foaf: <http://xmlns.com/foaf/0.1/> ._:a foaf:name "Johnny Lee Outlaw" ._:a foaf:mbox <mailto:[email protected]> ._:b foaf:name "Peter Goodguy" ._:b foaf:mbox <mailto:[email protected]> .

Abfrage:

PREFIX foaf: http://xmlns.com/foaf/0.1/SELECT ?name ?mboxWHERE { ?x foaf:name ?name .?x foaf:mbox ?mbox}

Ergebnis:

name mbox"Johnny Lee Outlaw" mailto:[email protected]"Peter Goodguy" <mailto:[email protected]>

Page 7: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

7

SPARQL

Abfrage:

PREFIX foaf: http://xmlns.com/foaf/0.1/SELECT ?name ?mboxWHERE { ?x foaf:name ?name .?x foaf:mbox ?mbox}

Variablen durch ? gekennzeichnet

Alle Statements werden zurückgegeben die auf Muster in WHERE passen

Prefix um kürzere Queries schreiben zu können

WHERE optional

Page 8: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

8

SPARQL

Abfrage:

PREFIX abc: http://example.com/exampleOntologie#SELECT ?capital ?countryWHERE {?x abc:cityname ?capital.?y abc:countryname ?country.?x abc:isCapitalOf ?y.?y abc:isInContinent abc:europe.}

Beispiel von: http://de.wikipedia.org/wiki/SPARQL

Einfach Joins zu beschreiben (im Vergleich zu SQL)

Page 9: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

9

Was ist mit XPath?

Page 10: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

10

Inhalt

SPARQL

Triple Stores

Suche im Semantic Web

Microformats und RDFa

Page 11: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

11

Überblick Triple Stores

RDF-Graph (S,P,O)

http://book.at/isbn123 http://fussball.de/G. Müllerauthor

€15 Ein Leben für die Tore Gerd Müller

price title name

Page 12: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

12

Überblick Triple Stores

http://book.at/isbn123 http://fussball.de/G. Müllerauthor

€15 Ein Leben für die Tore Gerd Müller

price title

name

Gerd MüllerNamehttp://fussball.de/G. Müller

Ein Leben für die ToreTitlehttp://book.at/isbn123

€15pricehttp://book.at/isbn123

http://fussball.de/G. Müllerauthorhttp://book.at/isbn123

ObjektPrädikatSubjekt

Page 13: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

13

Überblick Triple Stores

Abfrage: Titel der Bücher von Gerd Müller?

Gerd MüllerNamehttp://fussball.de/G. Müller

Ein Leben für die ToreTitlehttp://book.at/isbn123

€15pricehttp://book.at/isbn123

http://fussball.de/G. Müllerauthorhttp://book.at/isbn123

ObjektPrädikatSubjekt

Page 14: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

14

Abbildung in relationalen Datenbanken

Abbildung in Form von ein bis 6 Tabellen

Darstellung in Form eines linearisierten Graphs

Zentrale Tabelle: S,P,O Tabelle

Verschiedene Indizes für Zugriff

Mapping von SPARQL Anfragen auf eine Menge von SQL Anfragen

Page 15: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

15

Abbildung in relationalen Datenbanken

Beispiel Sesame

871

541

321

objectpredicatesubject

Ein Leben für die Tore8

Titel7

€155

price4

http://fussball.de/G. Müller3

author2

http://book.at/isbn1231

valueId

Page 16: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

16

Abbildung in relationalen Datenbanken

Einfache Repräsentation im RDBMS

Unabhängig vom Schema

Flexibilität

Keine schemaspezifischen Anpassungen des DBMS

Im Allgemeinen Generik vs. Leistungsfähigkeit

Page 17: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

17

Erhöhung der Leistungsfähigkeit

Mapping des Schemas auf eine relationale Struktur

15

Preis

http://book.at/isbn123

Buch_ID

Ein Leben für die Tore

Titel

http://fussball.de/G. Müller

Autor_ID

Gerd Müller

Name

http://book.at/isbn123http://fussball.de/G. Müller

Buch_IDAutor_ID

Page 18: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

18

Erhöhung der Leistungsfähigkeit

Subject Property Materialized Views (Oracle)

http://fussball.de/G. Müller

Autor

http://book.at/isbn123

Buch_ID

Ein Leben für die Tore

Titel

Page 19: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

19

Erhöhung der Leistungsfähigkeit

„Echte“ native RDF Triple Stores

Optimierung durch Verwendung spezialisierter Indizes (Self-Joint Optimierung)

Indizierung verschiedener Kombinationen von S,P,O

P,S,O

O,P,S

O,S,P

S,O,P

Page 20: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

20

Tripel Stores Implementierungen

Jena/Jena 2

Hewlett Packard

Java Open Source

Anbindung an gängige RDBMS

SPARQL als Abfragesprache

RDF/RDFS/OWL

Page 21: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

21

Tripel Stores Implementierungen

Sesame

Aduna Technologies

Java Open Source

Anbindung an gängige RDBMS

Eigener native Store

RDQL als Abfragesprache

Page 22: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

22

Tripel Stores Implementierungen

Kowari

Tucana Technologies

„Native“ Triple Store

RDQL als Abfragesprache

Volltextsuche integriert

Integrierbar mit Jena

Page 23: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

23

Tripel Stores Implementierungen

3Store

University of Southhampton

C Library kombiniert mit MySQL

RDQL als Abfragesprache

Anwendung in unterschiedlichen EU Projekten und kommerziellen Projekten

Page 24: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

24

Tripel Stores Implementierungen

Oracle 10g

Oracle

Ergänzung der Oracle DB um „native“ Triple Store

Kombination Triple Store Query mit SQL (teilw. SPARQL kompatibel)

Kombinierbar mit anderen Oracle Modulen

Erster Triple Store eines großen kommerziellen Anbieters

Page 25: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

25

Leistungsfähigkeit Open Source

Portwin & Parvatikar (2006) Scaling Jena in a Commercial Environment: The Ingenta MetaStore Project

Standardtestdatensatz Domäne Universitäten

~200 Millionen Triples (RDF), 11 Millionen Triples (OWL), 4.3 Millionen Dokumente

Kowari: 1 Milliarde Triple

Unoptimiert, 7 Millionen Triples

Einfache Queries im Millisekundenbereich

Inferenzen (RDFS/OWL) je nach Komplexität Sekunden bis Minutenbereich

Page 26: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

26

Leistungsfähigkeit Oracle

BioMed Literatur Datenbank (UniProt Datensatz)

80 Millionen Triple

~5 GB RDF/XML Daten (~2,5 GB Triple; 1,7 GB Mapping; 4,8 GB Indizes)

Queries im Millisekunden/Sekundenbereich

Optimierungspotential Subject Property MaterializedView ~30%

Page 27: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

27

Leistungsfähigkeit Zusammenfassung

Trade-off Generik vs. Leistung/Skalierbarkeit

Hohes Optimierungspotential:Optimierte Strukturen einfach aus generischer Struktur erzeugbar

Hoher Einfluss des Schemas resp. der Domäne

Nicht skalierbar auf Größe des Internets, jedoch skalierbar auf Unternehmensgröße

Intelligente Kombination von Retrieval/Inferenz notwendig

Page 28: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

28

Inhalt

SPARQL

Triple Stores

Suche im Semantic Web

Microformats und RDFa

Page 29: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

29

Suche im Web derzeit

Suche nach Dokumenten

Information Retrieval

Z.B. Suchmaschinen

Dokumente und Anfrage werden auf Basis eines Modells repräsentiert und verglichen

Unterschiedliche Modelle

Bsp.: Vektorraummodell

Page 30: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

30

Vektorraummodell

Repräsentation der Dokumente als Vektoren

Vektor hat so viele Dimensionen wie Terme (Wörter) im System

Wenn Wort in Dokument vorkommt ist Komponente in Vektor 1, sonst 0 (vereinfacht!)

Anfrage wird ebenfalls als Vektor repräsentiert

Winkel zwischen Vektoren sagt über deren Ähnlichkeit aus

Ähnlichstes Dokument zu Anfrage wird als höchstes gereiht

Page 31: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

31

Vektorraummodell

[Granitzer 2006]

Page 32: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

32

Vektorraummodell

Repräsentation der Dokumente als Vektoren

Komponente in Termvektor = Anzahl des Wortes in Dokument

Auch reelle Gewichtung der Terme in Vektoren

Termfrequenz (term frequency, tf)

Inverse Dokumentenhäufigkeit (inverse documentfrequency, idf)

tfidf (tf*idf, tf/idf, tf-idf)

Page 33: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

33

Vektorraummodell

Anfragevektor

Dokumentvektor

Page 34: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

34

Vektorraummodell

Skalarprodukt

Kosinusmaß

Page 35: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

35

Vektorraummodell

Kosinusmaß

Normalisierung durch L2-Norm (Länge der Vektoren)

Keine Bevorteilung von langem Dokument in denen viele, unterschiedliche Worte vorkommen

Variationen dieser Maße mit verschiedenen Normalisierungen

Page 36: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

36

Vergleich mit Suche in wissensbasierten Systemen

Vorweg: Es existieren Ausnahmen und Mischformen

Page 37: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

37

Art von Wiedergewonnenem

Information Retrieval

Unsicherheit, Vagheit

Wissensbasierte Systeme

Modelliertes Wissen ist wahr

Page 38: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

38

Speicherort

Information Retrieval

Datenbanken

Dokumente auf File-Servern

jetzt Web

Wissensbasierte Systeme

Wissensbasen (Datenbanken),

Zukunft: Verteilte Wissensbasen im Web

Page 39: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

39

Abfragen

Information Retrieval

Oft eingeben von Suchtermen

Meist Laien

Wissensbasierte Systeme

Formulierung von komplexeren Anfragen

Meist Experten

Page 40: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

40

Ergebnisse

Information Retrieval

Gereiht nach der vermuteten Relevanz

für den Suchenden

Wissensbasierte Systeme

Alle Ergebnisse sind Relevant

Page 41: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

41

Repräsentation

Information Retrieval

Unterschiedliche Modelle

Dokumente und Anfrage werden auf Basis des Modells repräsentiert und verglichen

Bsp.: Vektorraummodell

Wissensbasierte Systeme

Unterschiedliche Repräsentationsformen von Wissen

Formulierung von Anfragen für Repräsentationsform

Bsp.: RDF, OWL und SPARQL

Page 42: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

42

Weiter Punkte?

Page 43: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

43

Inhalt

SPARQL

Triple Stores

Suche im Semantic Web

Microformats und RDFa

Page 44: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

44

Microformats

Einbetten von semantischer Zusatzinformation inXHTML Seiten

Lowercase semantic web

add semantics to today's web

rather than create a future web

http://www.tantek.com/presentations/2004etech/realworldsemanticspres.html

Page 45: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

45

Microformats - Nutzen

Extrahieren von Daten aus menschenlesbaren Webseiten durch Programme (smart scraping)

http://microformats.org/wiki/what-can-you-do-with-microformats

Um z.B.:

Adressen aus Webseite in Adressbuch zu übertragen

Termin aus Webseite in Kalender zu übertragen

Rezensionen aus unterschiedlichen Quellen zu aggregieren

Verteiltes soziales Netzwerk aufzubauen

Page 46: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

46

Microformats - Beispiel

Kontaktdaten:Peter ScheirTU [email protected] 21aGraz , 8010 AUSTRIA

In HTML:

<div>Peter Scheir</div><div>TU Graz</div><div><a href="mailto:[email protected]">[email protected]</a></div><div>Inffeldgasse 21a</div><div>Graz, 8010 AUSTRIA</div>

Page 47: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

47

Microformats - Beispiel

Kontaktdaten:Peter ScheirTU [email protected] 21aGraz , 8010 AUSTRIA

Als Microformat (hcard):

<div id="hcard-Peter-Scheir" class="vcard"><div class="fn">Peter Scheir</div><div class="org">TU Graz</div><div><a class="email" href="mailto:[email protected]">[email protected]</a></div> <div class="adr"><div class="street-address">Inffeldgasse 21a</div><span class="locality">Graz</span>,<span class="postal-code">8010</span><span class="country-name">AUSTRIA</span></div></div>

Page 48: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

48

Microformats

Verschiedene Microformats für verschieden Zwecke

hCard: Kontaktdaten von Personen und Organisationen

hCalendar: Kalendereinträge

hReview: Bewertung

XFN: Sozial Netzwerke

rel-license: Lizenzen

rel-tag: Tags, Schlüsselwörter, Kategorien

http://microformats.org/wiki/Main_Page

Page 49: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

49

Microformats

the microformats principles

solve a specific problem

start as simple as possible

design for humans first, machines second

reuse building blocks from widely adopted standards

modularity / embeddability

enable and encourage decentralized development, content, services

http://microformats.org/about/

Page 50: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

50

Microformats - Anwendungen

Microformat Suche mit Technorati

http://kitchen.technorati.com/

Operator Firefox Add-On

https://addons.mozilla.org/en-US/firefox/addon/4106

Page 51: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

51

RDFa

Einbetten von semantischer Zusatzinformation in XHTML Seiten

Einbetten von RDF in XHTML Seiten

Reuse von RDF (Schema), OWL Vokabularien

RDFa Primer

W3C Working Draft 26 October 2007

http://www.w3.org/TR/xhtml-rdfa-primer/

RDFa in XHTML: Syntax and Processing

Working Draft 18 October 2007

http://www.w3.org/TR/rdfa-syntax/

Page 52: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

52

RDFa - Beispiel

Kontaktdaten:Peter ScheirTU [email protected] 21aGraz , 8010 AUSTRIA

In RDFa:

<div xmlns:contact="http://www.w3.org/2001/vcard-rdf/3.0#" about="http://www.kmi.tugraz.at/staff/peter"><div property="contact:fn">Peter Scheir</div><div property="contact:org">TU Graz</div><div><a rel="contact:email" href="mailto:[email protected]">[email protected]</a></div><div property="contact:adr"><div property="contact:Street">Inffeldgasse 21a</div><span property="contact:Locality">Graz</span>,<span property="contact:Pcode">8010</span><span property="contact:Country">AUSTRIA</span></div></div>

Page 53: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

53

RDFa

Verwendung von Namespaces

Reuse von RDF (Schema), OWL Vokabularien

Verwendete XHTML Attribute:

@rel – Verbindung zwischen zwei Ressourcen (Prädikat)

@rev – Umgekehrte Verbindung zwischen zwei Ressourcen (Prädikat)

@href – Ziel Ressource einer Verbindung (Objekt)

@src - Ziel Ressource einer Verbindung mit eingebetteter Ressource (Objekt)

Zusätzliche XHTML Attribute von RDFa:

@about – Die Ressource über die etwas ausgesagt wird (Subjekt)

@property – Verbindung zwischen Subjekt und einem Literal (Prädikat)

@resource – Ziel Ressource einer Verbindung – nicht klickbar (Objekt)

@datatype – Datentyp eines Literals

@content – maschinenlesbarer Inhalt eines Literals

@instanceof – Ressource ist Instanz von Klasse (Subjekt)

Page 54: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

54

Ende

Danke für die Aufmerksamkeit

Fragen / Kommentare?

[email protected]

Page 55: Wissenstechnologie 2007 - VI

November 2007

http://kmi.tugraz.at

Wissenstechnologie @ kmi.tugraz.at

55

License

This work is licensed under the Creative Commons Attribution 2.0 Austria License. To view a copy of this license, visit http://creativecommons.org/licenses/by/2.0/at/.

Contributors:

Michael Granitzer

Peter Scheir

Klaus Tochtermann