Upload
adler-leder
View
108
Download
0
Embed Size (px)
Citation preview
Informationsintegration
Das Semantic Web
16.02.2006
Felix Naumann
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 2
Quelle: Mark Butler, HP
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 3
Überblick
Motivation und Definition TXT → XML XML → RDF(S) RDF → Ontologien Ausblick / Diskussion Rückblick & Evaluation
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 4
Definitionen Fremdwörterduden “Semantik”
1. Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst
2. Bedeutung, Inhalt eines Wortes, Satzes oder Textes “The Semantic Web is an extension of the current
web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.” [BLHL01]
Das Semantische Web ist einer Erweiterung des gegenwärtigen Webs, in der Informationen wohl-definierte Bedeutungen erhalten, so dass Computer und Menschen besser kooperieren können.
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 5
Warum brauchen wir das Semantic Web? Überfluss an Daten
Stark verteilt Suche und Integration nötig Die Kosten, relevante Informationen zu finden und Wert daraus
zu schöpfen sind enorm. Kostenreduzierung
Workflows und Businessprozesse miteinander verknüpfen Data- und Service-sharing ermöglichen auch zwischen heterogenen Gruppen
eScience: Wissenschaftler, Standards-Konsortien, Bioinformatik eGovernment: u.a. Gesundheitswesen eBusiness eSociety: Blogging, Gnutella
Quelle: [DK03]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 6
Motivation Web Seiten tragen Layout-Informationen
Gut für Menschen Nicht zu interpretieren für Rechner
Informationen leben in zwei Welten Für Menschen als Konsumenten
Gedichte, Filme, Text,... Für Computer als Konsumenten
Daten, Programme,... Das Web betont den Menschen. Das Semantic Web soll dies ausgleichen.
Ease-of-Use und Wachstum des WWW soll nicht beeinträchtigt werden.
Es muss also nicht alles perfekt verstanden werden.
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 7
Motivation: (Automatische) Informationssuche im Web
Methode 1: Browsing geht nicht (Milliarden von Dokumenten)
Methode 2: Suche Suche mittels Suchmaschinen besser
Recall nicht immer perfekt (Größe der Suchmaschine). Precision nicht immer perfekt (Relevanz der Ergebnisse). Techniken des Information Retrieval
Leider wirklich nur „retrieval“ Extraktion und Interpretation der Informationen durch Nutzer
Funktioniert nur mit Menschen, nicht automatisiert
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 8
Motivation: (Automatische) Informationssuche im Web Methode 3: Informationsextraktion
Computational Linguistics Named Entity Recognition (z.B. Gene) Relationship Extraction (z.B. Firmensitze aus
Wirtschaftmeldungen extrahieren) Methode 4: Wrapper
Bsp: Shopping Agenten Generierung von Wrappern per Hand Müssen sich auf HTML Tags verlassen
Methode 5: Annotation Maschinenlesbare Annotation (z.B. XML)
Methode 6: Semantic Web Semantische Annotation (RDF & Ontologien)
Themen heute
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 9
Szenario aus [BLHL01]
leiser!
zu weit!
OK
Neuer Plan
Therapieplan
Gem
einsamer
Arztbesuch
Wer fährt?
Vorschlag
Neuer VorschlagOK
Streiche unwichtige Termine
Transportbedarf
Alice
Bob
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 10
Beispiel-Anwendungen Wissensmanagement (knowledge management, KM)
Intranet mit Millionen Dokumenten Informationsbeschaffung, -wartung und -suche Mit Ontologien
Intelligente Suche Anfragen und Sichten statt Suche
Bsp.: Liste alle Projekte aller Mitarbeiter der HU Informatik Dokumentenaustausch
Web Commerce Shopping-Agenten suchen bestes und billigstes Angebot. On-line shops präsentieren Waren sinnvoll Broker vermitteln zwischen Anbietern und Käufern (e-marketplace) Meta-Stores
E-Business Virtuelle Unternehmen Katalog-Integration und Datenaustausch
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 11
Semantic Web Prinzipien [BL]
Alles kann eine URI#xxx haben. Sage nicht „farbe“, sage
"http://www.pantomime.com/2002/std6#farbe"
Vokabulare können im Laufe der Zeit integriert und ersetzt werden.
Dokumente sind selbst-beschreibend. „Jeder kann Beliebiges über Beliebiges sagen." Kein einzelnes System weiß alles. Das Design muss minimalistisch sein.
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 12
Semantic Web Layer Cake
Quelle: [Hen02]
Basisdaten, Texte und Identifikatoren
Syntax und Struktur
Beziehungen
Bedeutung
Regeln
Nutzen
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 13
Überblick
Motivation und Definition TXT → XML XML → RDF(S) RDF → Ontologien Ausblick / Diskussion Rückblick & Evaluation
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 14
Überblick Semantic Web
Quelle: Tim Berners-Lee
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 15
TEXT XML
Reiner Text Keine Struktur (höchstens implizit) Nicht maschinenlesbar
XML Kann Text strukturieren Maschinenlesbare Struktur Implizite Semantik durch Benennung von
Struktureinheiten
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 16
Text im Web (UNICODE + URI)
So sieht ein natürlichsprachige Webseite für eine Maschine aus.
Quelle: [Hen02]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 17
XML … immerhin
XML erlaubt es, sinnvoll tags zu Texteinheiten hinzuzufügen.
CV
name
education
work
private
< >
< >
< >
< >
< > Quelle: [Hen02]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 18
XML maschinenlesbare Bedeutung
Aber: Für eine Maschine sehen die tags so aus...
< >
< >
<>
<>
<> Quelle: [Hen02]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 19
Schemata: Die richtige Richtung
Schemata helfen….
CV
name
education
work
private
< >
< >
< >
< >
< >
< >
< >
<>
<>
<>
CV
name
education
work
private
< >
< >
< >
< >
< >
< >
< >
<>
<>
<>
< > …indem sie gemeinsameAusdrücke zwischenDokumenten in Beziehung setzen.
Quelle: [Hen02]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 20
Aber: Schemata unterscheiden sich
Jemand anderes verwendet dieses Schema:
< >
<>
<>
<>
<> Quelle: [Hen02]
< >
< >
<>
<>
<>
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 21
Schemata fehlt die Bedeutung
CV
name
education
work
private
< >
< >
< >
< >
< >
< >
< >
<>
<>
<>
CV
name
education
work
private
< >
< >
< >
< >
< >
< >
< >
<>
<>
<>
< >
CV
name
education
work
private
< >
< >
< >
< >
< >
< >
< >
< >
< >Quelle: [Hen02]
Immerhin: Semi-
automatisches Schema
Matching & Mapping
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 22
Überblick
Motivation und Definition TXT → XML XML → RDF(S) RDF → Ontologien Ausblick / Diskussion Rückblick & Evaluation
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 23
Überblick Semantic Web
Quelle: Tim Berners-Lee
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 24
XML RDF
XML erlaubt beliebige Strukturen. Bedeutung „verborgen“/“vermischt“ in Struktur (durch
geeignete Tag-Namen) Fortschritt, aber Strukturen noch ohne „Bedeutung“
RDF… …kann „Bedeutung“ ausdrücken, ohne Annahmen zur
Struktur. …besteht aus Tripeln: Subjekt, Prädikat, Objekt …ist ein Datenmodell für Metadaten.
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 25
Metadaten Format: RDF
RDF (Resource Description Framework) Jenseits von Maschinenlesbarkeit:
„Maschinenverstehbarkeit“
RDF besteht aus zwei Teilen: RDF Modell (eine Menge von Tripeln) RDF Syntax (verschiedene XML-Serialisierungs Syntaxen)
RDF Schema Definition von Vokabularen (einfache Ontologien) für RDF Formuliert in RDF
Quelle: [DK03]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 26
RDF Beispiel Ausdruck
“Peter Mueller ist Autor der Ressource http://www.w3.org/home/mueller .”
<rdf:Description rdf:about=“#pers05”> <authorOf>ISBN...</authorOf></rdf:Description>
pers05 ISBN...Author-of
Quelle: [OH03]
pers05 ISBN...Author-of
MIT
ISBN...
Publ-by
Author-of Publ-
by
Struktur Ressource (Subjekt)
http://www.w3.org/home/mueller
Eigenschaft (Prädikat) http://www.schema.org/
#authorOf Wert (Objekt)
„Peter Mueller” Gerichteter Graph
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 27
Schachtelung mit RDF Jeder Ausdruck kann wiederum eine Ressource
sein: Schachtelung von Graphen – reification (“Verdinglichung”)
pers05 ISBN...AutorVon
NYT behauptet
<rdf:Description rdf:about=“#NYT”> <behauptet> <rdf:Description rdf:about=“#pers05”> <AutorVon>ISBN...</AutorVon> </rdf:Description> </behauptet></rdf:Description> Quelle: [OH03]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 28
Vorteile von RDF vs. XML „Der Autor der Seite ist Peter“
RDF: triple(author, Seite, Peter) XML:
Quelle: http://www.w3.org/DesignIssues/RDF-XML.html
<autor> <uri>Seite</uri> <name>Peter</name> </autor>
<document href=“Seite"> <autor>Peter</autor> </document>
<document> <details> <uri>href=“Seite"</uri> <autor> <name>Peter</name> </autor> </details> </document>
<document> <autor> <uri>href=“Seite"</uri> <details> <name>Peter</name> </details> </autor> </document>
<v> <x> <y> a="ppppp"</y> <z> <w>qqqqq</w> </z> </x> </v>
Anfragen nur über das Dokument, nicht über dessen Bedeutung:Ist ppppp ein y von qqqqq?Oder ist qqqqq ein z von ppppp? Aber es kann
viele verschiedene Schemata für die gleiche Bedeutung geben.
<?xml version="1.0"?> <Description xmlns="http://www.w3.org/TR/WD-rdf-syntax#" xmlns:s="http://docs.r.us.com/bibliography-info/" about="http://www.w3.org/test/seite" s:Author ="http://www.w3.org/staff/Peter" />
Nur falls Schema vorhanden, kann man sinnvolle Fragen stellen.
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 29
Überblick
Motivation und Definition TXT → XML XML → RDF(S) RDF → Ontologien Ausblick / Diskussion Rückblick & Evaluation
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 30
Semantic Web
Quelle: Tim Berners-Lee
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 31
XML / RDF Ontologien
XML und RDF Kein Standard-Vokabular um Semantik
auszudrücken Gleiche Probleme wie bisher, jedoch auf Tag-
Ebene Keine Standard-Struktur (Hierarchie) um
Semantik auszudrücken.Ontologien stellen Standard-Vokabulare bereit. stellen Standard-Struktur bereit.
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 32
Motivation für Ontologienclass-def animal % animals are a classclass-def plant % plants are a class subclass-of NOT animal % that is disjoint from animalsclass-def tree subclass-of plant % trees are a type of plantsclass-def branch slot-constraint is-part-of % branches are parts of some tree has-value tree max-cardinality 1class-def defined carnivore % carnivores are animals subclass-of animal slot-constraint eats % that eat any other animals value-type animalclass-def defined herbivore % herbivores are animals subclass-of animal, NOT carnivore % that are not carnivores, and slot-constraint eats % they eat plants or parts of plants value-type plant OR (slot-constraint is-part-of has-value plant)Quelle: [OH03]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 33
Was ist eine Ontologie?
„Eine Ontologie ist eine formale, explizite Spezifikation einer gemeinsamen Konzeptionalisierung“ – Tom Gruber ‚Konzeptionalisierung‘ (Conceptualization): Abstraktes
Modell von Phänomenen der wirklichen Welt durch Identifikation der relevanten Konzepte der Phänomene.
‘Explizit’: Verwendete Konzepte (und deren Typen und Bedingungen darauf) sind explizit definiert.
‘Formal’: Maschinenlesbar ‘Gemeinsam’: Reflektiert Wissen über das Konsens in der
Gemeinde herrscht.
Quelle: [Fen03]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 34
Was ist eine Ontologie?
Ontologien sind soziale Kontrakte: Akzeptierte, explizite Semantik Verständliche für Außenstehende (Meist) erzeugt in einem community process.
Im Gegensatz zu Datenbankschema Zielrichtung dort: Physischen
Datenunabhängigkeit Im Gegensatz zu XML-Schema Zielrichtung dort: Dokumentstruktur
Quelle: [DK03]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 35
Arten von Ontologien
Domänen-Ontologien Für eine spezielle Domäne (Elektronik, Medizin,
Datenbanken, usw.) Meta-Ontologien
Verwendbar über Domänen hinweg Stellen Vokabular zur Verfügung Beispiel: Dublin Core für Dokumente
Generische Ontologien (common sense) Vokabular über Dinge, Ereignisse, Zeit, Raum, etc. Verwendbar über Domänen hinweg Beispiel: Meter und Inch Konvertierungtabellen
Quelle: [Fen03]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 36
Ontologien: Beispiele
WordNet 100.000 Worte mit natürlichsprachlicher Bedeutung Organisiert in Synonym-Sets Kategorisierung
Substantiv, Verb, Adjektiv, Adverb, Funktionswort Zusätzliche Beziehungen
Synonym, Antonym Hyponomy (is-a Beziehungen als Hierarchie) Meronymy (part-of Beziehungen) Morphologie (für Wortformen)
Vorteile Domänenunabhängig, groß, frei verfügbar
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 37
Ontologien: Beispiele
Cyc Entstammt aus KI Forschung Versuch, Allgemeinwissen zu formalisieren 100.000de Konzepte formalisiert Millionen Axiome, Regeln, Einschränkungen Cycorp
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 38
Eine high-level Ontologie
Quelle: [HHL04]
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 39
Gene Ontologie Ziel: Kontrolliertes Vokabular (controlled vocabulary) über Organismen in
Bezug auf Gene und Proteine 16675 Ausdrücke
[Term] id: GO:0000001 name: mitochondrion inheritance namespace: process def: "The distribution of mitochondria\, including the mitochondrial genome\, into
daughter cells after mitosis or meiosis\, mediated by interactions between mitochondria and the cytoskeleton." [PMID:11389764, PMID:10873824, SGD:mcc]
is_a: GO:0048308 (-> organelle inheritance) is_a: GO:0048311 (-> mitochondrian distribution)
[Term] id: GO:0000002 name: mitochondrial genome maintenance namespace: process def: "The maintenance of the structure and integrity of the mitochondrial genome."
[GO:ai] is_a: GO:0007005
[Term] id: GO:0000003 ... http://www.geneontology.org/
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 40
Gene Ontology
Probleme in GO (aus [SKK04]) z.B. A partOf B
„A is always part of B“ „A is sometimes part of B“ „A can be part of B“ „Vocabulary A is included within vocabulary B“
Ähnliches für A isA B
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 41
Überblick
Motivation und Definition TXT → XML XML → RDF(S) RDF → Ontologien Ausblick / Diskussion Rückblick & Evaluation
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 42
Semantic Web
Quelle: Tim Berners-Lee
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 43
Killer-Application des Semantic Web?
Das Semantic Web selbst! Ähnlich wie das Web selbst Killer-App des
Internet war.Wichtige Anwendungen z.B. Online Kataloge für B2B und B2C Reiseplanung und Reisekoordination mit
Terminplaner
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 44
Die Zukunft des Semantic Web
Semantic Web in der physischen Welt URI zeigen auf physische Objekte RDF beschreibt physische Objekte Physische Objekte beschreiben ihre Fähigkeiten
und Funktionen. Home-automation Lautstärkeregelung Mikrowelle sucht nach optimalen Kochparametern auf
Iglo Webseite
Aber: Es gibt auch Kritik und viele Skeptiker!Aber: Es gibt auch Kritik und viele Skeptiker!
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 45
Überblick
Motivation und Definition TXT → XML XML → RDF(S) RDF → Ontologien Ausblick / Diskussion Rückblick & Evaluation
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 46
Integrierte Informationssysteme
Integriertes Informations-system
Oracle,DB2…
Design time
Web Service
Anwen-dung
HTML Form
IntegriertesInfo.-system
Datei-system
Anfrage
Architekturen
Anfragesprache
Schemamanagement
Wrapper
Run time
Anfrageausführung
Optimierung
Anfrageplanung
Datenfusion / ETL
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 47
Glossar aus [BLHL01] Resource: Web jargon for any entity. Includes Web pages, parts of a Web page, devices,
people and more. URL: Uniform Resource Locator. URI: Universal Resource Identifier. URLs are the most familiar type of URI. A URI defines
or specifies an entity, not necessarily by naming its location on the Web. RDF: Resource Description Framework. A scheme for defining information on the Web.
RDF provides the technology for expressing the meaning of terms and concepts in a form that computers can readily process. RDF can use XML for its syntax and URIs to specify entities, concepts, properties and relations.
Ontologies: Collections of statements written in a language such as RDF that define the relations between concepts and specify logical rules for reasoning about them. Computers will "understand" the meaning of semantic data on a Web page by following links to specified ontologies.
Agent: A piece of software that runs without direct human control or constant supervision to accomplish goals provided by a user. Agents typically collect, filter and process information found on the Web, sometimes with the help of other agents.
Service discovery: The process of locating an agent or automated Web-based service that will perform a required function. Semantics will enable agents to describe to one another precisely what function they carry out and what input data are needed.
16.02.2006 Felix Naumann, VL Informationsintegration, WS 05/06 48
Literatur [BLHL01] T. Berners-Lee, J. Hendler, O. Lassila, The Semantic Web,
Scientific American, May 2001 [DK03] Stefan Decker und Vipul Kashyap. The Semantic Web: Semantics
for Data on the Web, Tutorial at VLDB 2003 Berlin. [Fen03] Dieter Fensel. Lecture Introduction:
Semantic Web & Ontology, 2003 [OH03] Slides: Semantic Web. Jacco van Ossenbruggen, Lynda
Hardman. CWI Amsterdam 2003. [BL] Tim Berners Lee. The Semantic Web (slides).
http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/Overview.html Web sites
www.ontoknowledge.org www.ontoweb.org www.daml.org www.w3.org/2001/sw/ www.semanticweb.org