Transcript
Page 1: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Datenbank-Recherche

SS 2014 2. Veranstaltung – 10. April 2014

Philipp Mayr - [email protected]

Philipp Schaer - [email protected]

GESIS – Leibniz-Institut für Sozialwissenschaften

Page 2: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Vorstellung Philipp Schaer

• 2000 – 2005: Studium der Informatik an der Universität Koblenz (Diplom)

• 2006 – 2013: Wissenschaftlicher Mitarbeiter

– Universität Koblenz: AG Software-Ergonomie und Information Retrieval

– Informationszentrum Sozialwissenschaften, Forschung und Entwicklung: Software-Entwicklung für das Open-Access-Repository SSOAR

– GESIS Köln, Wissenstechnologien für die Sozialwissenschaften: Forschungsprojekte IRM I & II – Retrieval in digitalen Bibliotheken

• 2013: Promotion in Informatik an der Uni Koblenz Schwerpunkte: Information Retrieval, digitale Bibliotheken und Informetrie

• Seit 2013: PostDoc und Teamleiter Knowledge Discovery

2

Page 3: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Alle Materialien unter http://www.schaer.de/recherche-2014

Aktualisiert: Terminplanung im SS 2014 Termin Veranstaltung (VL) Termin Veranstaltung (VL)

3.4. Einführung, Überblick, Formalia 12.6. Zusammenfassung, Wiederholung

10.4. Grundlagen des boolschen Retrieval 25.6. Klausur

17.4. Grundlagen Datenbanken, Begrifflichkeiten, Fachdatenbanken: pubmed, sowiport…

24.4. Suchwerkzeuge (Thesauri und Klassifikationen etc.)

8.5.

Suchstrategien, Berry-Picking, Footnote-Chasing (Bates) etc.

22.5

Methoden und Techniken des IR, Rankingmethoden, TF-IDF

5.6. Relevanz, Relevanzeinschätzung

3

Page 4: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Wiederholung 1. Veranstaltung

• Vorstellung

• Organisatorisches – Beachten Sie die aktualisierte Terminplanung

• Einführung in die Thematik der Vorlesung – Verständnis der Recherche-Problematik

– Praktische Kenntnisse in der Recherche-Fähigkeit

– Allgemeine Informationskompetenz

• Erste praktische Übung (Hausaufgaben) – Käsekuchen und Plagiatsverdacht

4

Page 5: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Themen der heutigen Veranstaltung

• Boolesche Anfragen und das Boolesche Retrievalmodell

• Beispielsysteme

• Beispielanfragen

• Term-Dokument-Matrizen

• Vor- und Nachteile des Booleschen Modells

5

Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln, England; † 8. Dezember 1864 in Ballintemple, in der Grafschaft Cork, Irland) war ein englischer Mathematiker (Autodidakt), Logiker und Philosoph.

Page 6: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Boolesche Retrievalmodell und Anfragen

• Das Boolesche Retrievalmodell kann alle Anfragen auflösen, die sich als ein Boolescher Ausdruck formulieren lassen. – Es erlaubt den Einsatz der Operatoren UND, ODER sowie NICHT um

einzelne Anfrageterme zu verknüpfen.

– Jedes Dokument ist in diesem Modell eine Menge von Termen (bag of words), die keiner besonderen Ordnung folgen.

– Es ist sehr präzise: Ein Dokument passt zur Anfrage oder nicht!

• Im professionellen Einsatz seit mehr als 40 Jahren und immer noch sehr beliebt. – Man weiß, was man bekommt – Nachvollziehbarkeit des Ergebnisses.

• Viele Suchsysteme basieren auf dem Booleschen Modell...

6

Page 7: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

7

Page 8: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

8

Page 9: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

9

Page 10: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Unstrukturierte Daten im Jahr 1680

• Welches Stück von Shakespeare enthält die Wörter Brutus UND Caesar aber NICHT Calpurnia?

• Ein naiver Versuch: Wir durchsuchen alle Texte, die Shakespeare geschrieben hat nach den Wörtern Brutus und Caesar, danach werden alle Zeilen mit dem Wort Calpurnia gelöscht.

• Warum ist das (aus technischer Sicht) keine gute Idee? – Langsam (für große Textkorpora)

– NICHT Calpurnia ist nicht trivial

– Andere Operationen (z.B., finde das Wort Romans nahe countrymen) nicht möglich

– Kein geranktes Ergebnis (das oder die „passendste“ Dokumente finden, kommt in einer späteren Vorlesung)

10

Page 11: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Antony

and Cleopatra

Julius Caesar

The Tempest

Hamlet Othello Macbeth

Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1

Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0

mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0

Term-Dokument-Matrix

1 wenn Dokument

das Wort enthält,

ansonsten 0

Brutus UND Caesar ABER

NICHT Calpurnia

Page 12: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Einschub: Boolesche Algebra

• Die boolesche Algebra hat nur die zwei Elemente 0 und 1.

• Es sind die folgenden Verknüpfungen definiert:

– Konjunktion (∧) bzw. „und“,

– Disjunktion (∨) bzw. „oder“ und

– Negation (¬) bzw. „nicht.

• Klammerungen für Gruppierungen sind erlaubt.

Konjunktion Disjunktion Negation

12

∧ 0 1

0 0 0

1 0 1

∨ 0 1

0 0 1

1 1 1

0 1

1 0

Page 13: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Boolesche Operatoren I

13

Page 14: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Boolesche Operatoren II

14

Page 15: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Boolesche Operatoren III

15

Page 16: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Der Lösungsweg: Rechnen mit Term-Vektoren

• Für jeden Term (Brutus, etc.) gibt es einen 0/1-Vektor (Zeile in der Term-Dokument-Matrix): – 1: der Term kommt in dem Stück vor,

– 0: der Term kommt nicht in dem Stück vor.

• Um die Frage zu beantworten: Nehme die drei Vektoren für – Brutus (110100),

– Caesar (110111) und

– Calpurnia (010000 101111, invertiert)

• Verknüpfe alle Vektoren mittels UND (∧).

110100 UND 110111 UND 101111 = 100100.

16

Page 17: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Was sagt uns dieser Vektor?

• 110100 UND 110111 UND 101111 = 100100.

17

Antony and

Cleopatra

Julius Caesar

The Tempest

Hamlet Othello Macbeth

Brutus 1 1 0 1 0 0

Caesar 1 1 0 1 1 1

Calpurnia (invertiert)

1 0 1 1 1 1

Ergebnis 1 0 0 1 0 0

Page 18: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Die Antwort auf die Anfrage

• Antony and Cleopatra, Akt III, Szene ii Textstelle:

Agrippa [Aside to DOMITIUS ENOBARBUS]: Why, Enobarbus,

When Antony found Julius Caesar dead,

He cried almost to roaring; and he wept

When at Philippi he found Brutus slain.

• Hamlet, Akt III, Szene ii Textstelle

Lord Polonius: I did enact Julius Caesar I was killed i' the

Capitol; Brutus killed me.

18

Page 19: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Vor- und Nachteile des Booleschen Modells I

• Kerneigenschaft: Präzise Anfragen sind möglich – Dokumente passen zur Anfrage oder nicht!

• Daher gut für Experten geeignet, die – das zugrundeliegende Modell verstehen und anwenden können,

– die verwendete Dokumentenbasis (den Korpus) kennen und

– die wissen, was sie wollen!

• Gut für (Computer-)Systeme, die einfach tausende von Ergebnissen verarbeiten können.

19

Page 20: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Vor- und Nachteile des Booleschen Modells II

• Nicht für die Mehrheit der Nutzer geeignet!

• Viele Nutzer sind nicht in der Lage mit Booleschen Anfragen zu arbeiten – viele syntaktische Fehler,

– verstehen das Modell nicht,

– können ihr Informationsbedürfnis nicht in Anfragesprache übersetzen...

• Das fehlende Ranking der Ergebnisse ist für normale Anwender nicht praxistauglich, da sie nicht Hunderte von Ergebnissen auswerten möchten.

• Dies gilt insbesondere im Bereich der Web-Suche.

20

Page 21: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Feast or Famine

• Boolesche Anfragen liefern oft zu wenige (=0) oder zu viele Ergebnisse (1000+).

• Anfrage 1: „standard user dlink 650“

– 200.000 Treffer Feast

• Anfrage 2: „standard user dlink 650 no card found“ – 0 Treffer Famine

• Beim Booleschen Retrievalmodell benötigt es eine Menge Kenntnis und Übung eine Anfrage zu formulieren, die eine überschaubare Anzahl an Ergebnissen hervorbringt!

21

Page 22: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Von Feast or Famine zum Ranked Retrieval

• Große Ergebnismengen sind mit Ranked Retrieval kein Problem mehr.

• Ranked Retrieval erlaubt es z.B. nur die Top 10 Ergebnisse zu betrachten und so den Nutzer zu entlasten.

• Voraussetzung ist ein Ranking-Algorithmus, der relevantere Ergebnisse vor weniger relevantere Ergebnisse sortiert.

22

Page 23: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Erweitertes Boolesches Modell

• In der Praxis wird ein Ranking durch einfache Sortierungen umgesetzt: – Chronologische Sortierung (neuste Ergebnisse zuerst),

– Alphabetische Sortierung (z.B. der Autorennamen).

• Es sind aber auch Gewichtungen möglich z.B. Häufigkeit der Anfrageterme im Dokument: Häufiges Auftreten von Anfragetermen im Dokument ist ein Zeichen für Relevanz.

• Allerdings handelt es sich hierbei um Sortierungen, kein wirkliches Ranking (dass eine Bewertung der Relevanz voraussetzt).

23

Page 24: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Zusammenfassung Boolesches Retrieval

• Einfache boolesche/binäre Entscheidungen (vorhanden / nicht vorhanden).

• Vorteile: – Simple Anfragen sind leicht zu verstehen

– Relativ leicht zu implementieren (Term-Dokument-Matrix)

• Nachteile: – Schwierig, genaue Anfragen zu spezifizieren

– Zu viel / zu wenig (Feast or Famine)

– Sortierung, aber nicht Ranking

• Meistgenutzte IR-Modell bis zum Durchbruch des Web.

24

Page 25: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Fragen

…?

25

Page 26: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,

Kontakt

• Dr. Philipp Mayr Tel: + 49 (0) 221 / 47694-533 [email protected]

• Dr. Philipp Schaer Tel: + 49 (0) 221 / 47694-521 [email protected]

• Maria Zens Tel: + 49 (0) 221 / 47694-236 [email protected]

http://www.schaer.de/teaching/recherche-2014

26


Recommended