59
Informationsintegra tion Anwendungsszenarien 20.10.2004 Felix Naumann

Informationsintegration Anwendungsszenarien

Embed Size (px)

DESCRIPTION

Informationsintegration Anwendungsszenarien. 20.10.2004 Felix Naumann. Überblick. Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Potential und Probleme der Informations-integration Redundanz Komplementierung. Real-life Informationsintegration. - PowerPoint PPT Presentation

Citation preview

Page 1: Informationsintegration Anwendungsszenarien

InformationsintegrationAnwendungsszenarien

20.10.2004

Felix Naumann

Page 2: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 2

Überblick

Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken

Potential und Probleme der Informations-integration Redundanz Komplementierung

Page 3: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 3

Real-life Informationsintegration

Überblick: Zwei wesentliche Modelle Data Warehouses

Materialisierte Integration Am Beispiel Buchhändler (Folien von Prof. Leser)

Föderierte Datenbanken Virtuelle Integration Am Beispiel einer Life Sciences DB (DiscoveryLink) Weitere Beispiele

Page 4: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 4

Data Warehouse

Eine oder mehrere (ähnliche) Datenbanken mit Bücherverkaufsinformationen

Daten werden oft aktualisiert Jede Bestellung einzeln Katalog Updates täglich

Management benötigt Entscheidungshilfen (decision support)

Komplexe Anfragen

Quelle: Ulf Leser, VL Data Warehouses

Page 5: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 5

Bücher im Internet bestellen

BackupDurchsa

tzLoad-

balancing

Portfolio

UmsatzWerbun

g

Datenbank

Quelle: Ulf Leser, VL Data Warehouses

Zielkonflikt

Page 6: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 6

Die Datenbank dazu

OrderOrder_idBook_idamountsingle_price

OrdersIdDay_idCustomer_idTotal_amt

DayIddaymonth_id

MonthIdMonthyear_id

Yearidyear

Customeridname

BookidBook_group_id

Bookgroupidname

Quelle: Ulf Leser, VL Data Warehouses

Page 7: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 7

Fragen eines Marketingleiters

OrderOrder_idbook_idamountsingle_price

OrdersIdDay_idCustomer_idTotal_amt

DayIddaymonth_id

MonthIdMonthyear_id

Yearidyear

Customeridname

BookidBook_group_id

Bookgroupidname

Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen?

Quelle: Ulf Leser, VL Data Warehouses

Page 8: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 8

Technisch

OrderOrder_idBook_idamountsingle_price

OrdersIdDay_idCustomer_idTotal_amt

DayIddaymonth_id

MonthIdMonthyear_id

Yearidyear

Customeridname

BookidBook_group_id

Bookgroupidname

Quelle: Ulf Leser, VL Data Warehouses

SELECT Y.year, PG.name, count(B.id)FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BGWHERE M.year = Y.id and

M.id = D.month andO.day_id = D.id andOS.order_id = O.id andB.id = O.book_id andB.book_group_id = BG.id andday < 24 and month = 12

GROUP BY Y.year, PG.product_nameORDER BY Y.year

Page 9: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 9

Technisch

SELECT Y.year, PG.name, count(B.id)FROM year Y, month M, day D, order O, orders OS,

book B, bookgroup BGWHERE M.year = Y.id and

M.id = D.month andO.day_id = D.id andOS.order_id = O.id andB.id = O.book_id andB.book_group_id = BG.id andday < 24 and month = 12

GROUP BY Y.year, PG.product_nameORDER BY Y.year

6 Joins• Year: 10 Records• Month: 120 Records• Day: 3650 Records• Orders: 36.000.000 • Order: 72.000.000• Books: 200.000• Bookgroups:100

Problem!• Schwierig zu optimieren (Join-Reihenfolge) • Je nach Ausführungsplan riesige Zwischenergebnisse• Ähnliche Anfragen – ähnlich riesige Zwischenergebnisse

Quelle: Ulf Leser, VL Data Warehouses

Page 10: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 10

In Wahrheit ... noch schlimmer

Es gibt noch: Amazon.de Amazon.fr Amazon.it ...

Verteilte Ausführung Count über Union mehrerer gleicher Anfragen in

unterschiedlichen Datenbanken

Quelle: Ulf Leser, VL Data Warehouses

HILFE!

Page 11: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 11

In Wahrheit ...

Quelle: Ulf Leser, VL Data Warehouses

Page 12: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 12

Technisch: Eine VIEWCREATE VIEW christmas AS

SELECT Y.year, PG.name, count(B.id)FROM DE.year Y, DE.month M, DE.day D, DE.order O, ... WHERE M.year = Y.id and...GROUP BY Y.year, PG.product_nameORDER BY Y.year

UNION

SELECT Y.year, PG.name, count(B.id)FROM EN.year Y, EN.month M, EN.day D, DE.order O, ...WHERE M.year = Y.id and... SELECT year, name, count(B.id)

FROM christmasGROUP BY year, nameORDER BY year

Quelle: Ulf Leser, VL Data Warehouses

Page 13: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 13

Probleme

Count über Union über verteilte Datenbanken? Integrationsproblem

Berechnung riesiger Zwischenergebnisse bei jeder Anfrage? Datenmengenproblem

Quelle: Ulf Leser, VL Data Warehouses

Page 14: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 14

Lösung des Integrationsproblems?

Zentrale Datenbank

• Aber Probleme:– Zweigstellen schreiben übers Netz– Schlechter Durchsatz– Lange Antwortzeiten im operativen Betrieb

Quelle: Ulf Leser, VL Data Warehouses

Page 15: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 15

Lösung Datenmengenproblem?

Denormalisierte Schema

• Aber Probleme:– Jeder lesende / schreibende Zugriff erfolgt auf eine

Tabelle mit 72 Mill. Records– Lange Antwortzeiten im operativen Betrieb

Quelle: Ulf Leser, VL Data Warehouses

Page 16: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 16

Zielkonflikt

Page 17: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 17

Tatsächliche Lösung

• Redundante, transformierte Datenhaltung• Asynchrone Aktualisierung

Aufbau eines Data Warehouse

Quelle: Ulf Leser, VL Data Warehouses

Page 18: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 18

Weitere Anwendungsgebiete: Data Warehouses „Customer Relationship Management“ (CRM)

Identifikation von Premiumkunden Personalisierung / Automatische Kundenberatung Gezielte Massen-Mailings (Direktvertrieb)

Controlling / Rechnungswesen Kostenstellen Organisationseinheiten Personalmanagement

Logistik Flottenmanagement, Tracking

Gesundheitswesen Studienüberwachung, Patiententracking

Quelle: Ulf Leser, VL Data Warehouses

Page 19: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 19

Überblick

Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken

Probleme und Potential der Informationsintegration Redundanz Komplementierung

Page 20: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 20

Föderierte Datenbanken Mehrere autonome Informationsquellen Mit unterschiedlichsten Inhalten

Gene, Proteine, BLAST, etc. Und unterschiedlichsten Schnittstellen

HTML-Form, flat file, SQL, etc. Wissenschaftler (Biologe) benötigt z.B. möglichst viele

Informationen über ein bestimmtes Protein Funktion, Veröffentlichungen, verwandte Proteine usw.

Sehr komplexe Anfragen Üblicher Ansatz: Browsing, Note-Taking, Copy & Paste Föderierte Datenbanken (wie DiscoveryLink) helfen.

Page 21: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 21

Frage eines Biologen

Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems.

Quelle für das komplette Beispiel: A Practitioner’s Guide to Data Management and Data Integration in Bioinformatics, Barbara A. Eckman in

Bioinformatics by Zoe Lacroix and Terence Critchlow, 2003, Morgan Kaufmann.

Page 22: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 22

Verschiedene Informationsquellen

Beteiligte Informationsquellen Mouse Genome Database (MGD) @ Jackson Labs SwissProt @ EBI BLAST tool @ NCBI GenBank nucleotide sequence database @ NCBI

Alle Quellen sind frei verfügbar

Page 23: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 23

Herkömmlicher Ansatz: Browsing

1. Suche „channel“ Sequenzen im Gewebe des ZNS durch MGD HTML Formular

Page 24: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 24

Herkömmlicher Ansatz: Browsing

MGD Resultat 14 Gene aus 17

Experimenten

Page 25: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 25

Herkömmlicher Ansatz: Browsing

Details zu jedem der 14 Gene ansehen

Durchschnittlich fünf SwissProt Links pro Gen

Page 26: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 26

Herkömmlicher Ansatz: Browsing

Betrachten jedes SwissProt Eintrages

Durch Klick BLAST Algorithmus anwerfen

Page 27: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 27

Herkömmlicher Ansatz: Browsing

Betrachten jedes BLAST Resultats um nicht-menschliche

Treffer zu eliminieren, andere Bedingungen zu

prüfen (>60% Identität, etc.)

Page 28: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 28

Herkömmlicher Ansatz: Browsing

Für jeden verbleibenden Eintrag Komplette EST

Sequenz bei GenBank holen

Page 29: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 29

Idee der Integration

Bildung eines globalen Schemas (Schemaintegration) Gespeichert als Datenbankschema in

DiscoveryLink Generierung von Wrappern für jede

Datenquelle Softwarekomponente Mapping von lokalen Schemata auf globales

Schema Kennt Anfragefähigkeiten der Quellen

Page 30: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 30

DiscoveryLink Architektur

Page 31: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 31

Eigenschaften föderierter IS (und DiscoveryLink)

Daten bleiben vor Ort. Informationsquellen sind autonom (und wissen oft

nicht von ihrer Integration). Anfragen werden deklarativ an das globale Schema

gestellt. Anfrage wird so verteilt wie möglich ausgeführt.

Je nach Mächtigkeit der Quellen DiscoveryLink gleicht etwaige mangelnder Fähigkeiten aus.

Page 32: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 32

Föderierter DBMS Ansatz

„Einfache“ SQL-Anfrage um alle vorigen Schritte zu vereinen:SELECT g.accnum,g.sequenceFROM genbank g, blast b, swissprot s, mgd mWHERE m.exp = “CNS” AND m.defn LIKE “%channel%”AND m.spid = s.id AND s.seq = b.query AND b.hit = g.accnum AND b.percentid > 60 AND b.alignlen > 50

„Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems.“

Page 33: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 33

Föderierter DBMS Ansatz

Effiziente Ausführung durch Optimierer Herkömmliche Optimierung Wrapper helfen mit

Kostenmodell domänenspezifischen Funktionen

Sichere Ausführung Wiederholbar Transaktional

Page 34: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 34

Weitere Anwendungsgebiete: Föderierte Datenbanken Meta-Suchmaschinen Unternehmensfusionen

Kundendatenbanken Personaldatenbanken

Grid Krankenhausinformationssysteme

Röntgenbilder Krankheitsverlauf (Akte) Verwaltung Krankenkasse...

Verteiltes Arbeiten („groupware“) Peer Data Management und P2P

Page 35: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 35

Überblick

Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken

Probleme und Potential der Informationsintegration Redundanz Komplementierung

Page 36: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 36

Integrationspotential

Wann ist Informationsintegration möglich? Intensionale Redundanz

Wann ist Informationsintegration schwierig? Extensionale Redundanz

Wann ist Informationsintegration nützlich? Extensionale Komplementierung Intensionale Komplementierung

Page 37: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 37

Intension & Extension

Definition: Intension Die Intension eines Informationssystems ist die

Menge der Schemainformationen und deren Semantik (Bedeutung).

Definition: Extension Die Extension eines Informationssystems ist die

Menge aller zur Intension gehörigen, zugreifbaren Daten.

Page 38: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 38

Intension & Extension

Die Intension einer Datenbank Schema für eine Menge

von Entitäten/Dingen Semantik

Die Extension einer Datenbank Zustand Menge von Entitäten

ISBN Titel Autor

3442727316 Moby Dick

Herman Melville

3491960827 Robinson Crusoe

Daniel Defoe

3462032283 Zwölf Nick McDonell

3883891606 Timbuktu Paul Auster

Buch

Page 39: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 39

Redundanz und Komplementierung

Redundanz hilft zur Verifikation Nur bei gewisser Redundanz kann

Komplementierung genutzt werden Komplementierung ist gut

Hier liegt der eigentliche „Sinn“ der Informationsintegration.

Informationen mehrerer (sich komplementierender) Quellen werden zu einem größeren Ganzen integriert.

Page 40: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 40

Intensionale Redundanz

ISBN ISBN Titel Autor

3442727316 3442727316 Moby Dick

Herman Melville

3491960827 3491960827 Robinson Crusoe

Daniel Defoe

3462032283 3462032283 Zwölf Nick McDonell

3883891606 3883891606 Timbuktu Paul Auster

Intensionale Redundanz liegt vor, wenn das Entfernen von Teilender Intension die Gesamtintension nicht verändert.

Page 41: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 41

Intensionale Redundanz

ISBN ID Titel Autor

3442727316 3442727316 Moby Dick

Herman Melville

3491960827 3491960827 Robinson Crusoe

Daniel Defoe

3462032283 3462032283 Zwölf Nick McDonell

3883891606 3883891606 Timbuktu Paul Auster

Intensionale Redundanz trotz unterschiedlicher Label?

Ja, denn Semantik zählt!

Page 42: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 42

Intensionale Redundanz

ISBN Autor

3491960827 Daniel Defoe

3442727316 H Melville

3462032283 Nick MacDonell

3883891606 Paul Auster

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

3462032283 Nick McDonell

3883891606 Paul Auster

Quelle 2Quelle 1

Intensionale Redundanz auch über mehrere Relationen und Quellen.

Page 43: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 43

Potential Intensionaler Redundanz

Verifikation

ISBN Autor

3491960827 Daniel Defoe

3442727316 H Melville

3462032283 Nick MacDonell

3883891606 Paul Auster

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

3462032283 Nick McDonell

3883891606 Paul Auster

Quelle 2Quelle 1

Page 44: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 44

Potential Intensionaler Redundanz

Integration

ISBN Titel

3491960827 Moby Dick

3442727316 Robinson Crusoe

3462032283 Zwölf

3883891606 Timbuktu

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

3462032283 Nick McDonell

3883891606 Paul Auster

Quelle 2Quelle 1

Page 45: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 45

Potential Intensionaler Redundanz

Integration

Titel

Moby Dick

Robinson Crusoe

Zwölf

Timbuktu

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

3462032283 Nick McDonell

3883891606 Paul Auster

Quelle 1 + 2

Page 46: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 46

Intensionale Komplementierung

ISBN Titel

3442727316 Moby Dick

3491960827 Robinson Crusoe

3462032283 Zwölf

3883891606 Timbuktu

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

3462032283 Nick McDonell

3883891606 Paul Auster

Quelle 2Quelle 1

Intensionale Komplementierung liegt vor, wenn von zwei Intensionen- mindestens eine Differenz ist nicht leer ist,- und deren Schnittmenge nicht leer ist.

Page 47: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 47

Potential Intensionaler Komplementierung

ISBN Titel

3462032283 Zwölf

3499139278 Leviathan

3442727316 Moby Dick

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

3462032283 Nick McDonell

3883891606 Paul Auster

Quelle 2Quelle 1

???

???

Verdichtung: Mehr Informationen über einzelne Objekte

Page 48: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 48

Potential Intensionaler Komplementierung

Autor Titel

MacDonell Zwölf

Auster Leviathan

H Melville Moby Dick

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

3462032283 Nick McDonell

3883891606 Paul Auster

Quelle 2Quelle 1

???

???

Verdichtung nicht immer leicht.

Page 49: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 49

Extensionale Redundanz

Extensionale Redundanz liegt vor, wenn die Menge der von zweiQuellen gemeinsam repräsentierten Objekte nicht leer ist.

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

Quelle 2Quelle 1

ID Author

3442727316 Herman Melville

3491960827 Daniel Defoe

Page 50: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 50

Extensionale Redundanz

ID Author

3491960827 Daniel Defoe

3883891606 Paul Auster

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

Quelle 2Quelle 1

Extensionale Redundanz nur über Teile der Quellen.

Page 51: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 51

Probleme Extensionaler Redundanz

Extensionale Redundanz ist nur auf „real-world“ Objekten definiert,nicht auf den Daten über sie.

ID Author

3491960827 Daniel Düsentrieb

3883891606 Paul Auster

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

Quelle 2Quelle 1

Extensionale Redundanz

Daten-Konflikt

Page 52: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 52

Extensionale Komplementierung

Extensionale Komplementierung liegt vor, wenn die Differenz der repräsentierten Objekte zweier Quellen nicht leer ist.

ISBN Autor

3462032283 Nick MacDonell

3883891606 Paul Auster

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

Quelle 2Quelle 1

Page 53: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 53

Potential Extensionaler Komplementierung

Höhere Überdeckung

3462032283 Nick MacDonell

3883891606 Paul Auster

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

Quelle 1 + Quelle 2

Page 54: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 54

Extensionaler Komplementierung mit Extensionaler Redundanz

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

Quelle 2Quelle 1

ID Author

3491960827 Daniel Düsentrieb

3883891606 Paul Auster

Page 55: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 55

Probleme Extensionaler Komplementierung und Redundanz

3491960827 Daniel Düsentrieb

3883891606 Paul Auster

ISBN Autor

3442727316 Herman Melville

3491960827 Daniel Defoe

Quelle 1 + Quelle 2

Datenkonflikt

Page 56: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 56

Der Allgemeine Fall

Quelle 1 A(V) B(W) C(X) D(Y) a1 b1 c1 d1

a2 b2 - d2

Quelle 2 A(V) D(W) E(X) F(Z) a2 d2 c2 - a3 d3 e3 f3

Extensionale Komplementierung

Intensionale Komplementierung

Intensionale Redundanz

Extensionale Redundanz

Quelle 1 & 2 A(V) B/D(W) C/E(X) D(Y)F(Z) a1 b1 c1 d1 - a2 f(b2,d2) c2 d2 - a3 d3 e3 - f3

Page 57: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 57

Zusammenfassung Redundanz

Intensionale Redundanz ermöglicht extensionale Komplementierung Zwei Quellen mit gleichem Schema können zu einer

überdeckenderen Quelle integriert werden Coverage

Extensionale Redundanz ermöglicht intensionale Komplementierung Zwei Quellen, die über gleiche Dinge sprechen können zu

einer dichteren Quelle integriert werden. Density

Insgesamt ist das Ziel der Integration eine vollständigere Quelle (completeness)

Page 58: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 58

Zusammenfassung: Data Warehouse

Aufbau eines Data Warehouse

Quelle: Ulf Leser, VL Data Warehouses

Page 59: Informationsintegration Anwendungsszenarien

20.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 59

Zusammenfassung: Föderierte DBMS/IS