Datenbank-Recherche - Philipp .• Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells

  • View
    215

  • Download
    0

Embed Size (px)

Text of Datenbank-Recherche - Philipp .• Term-Dokument-Matrizen • Vor-...

Datenbank-Recherche

SS 2014 2. Veranstaltung 10. April 2014

Philipp Mayr - philipp.mayr@gesis.org

Philipp Schaer - philipp.schaer@gesis.org

GESIS Leibniz-Institut fr Sozialwissenschaften

Vorstellung Philipp Schaer

2000 2005: Studium der Informatik an der Universitt Koblenz (Diplom)

2006 2013: Wissenschaftlicher Mitarbeiter

Universitt Koblenz: AG Software-Ergonomie und Information Retrieval

Informationszentrum Sozialwissenschaften, Forschung und Entwicklung: Software-Entwicklung fr das Open-Access-Repository SSOAR

GESIS Kln, Wissenstechnologien fr die Sozialwissenschaften: Forschungsprojekte IRM I & II Retrieval in digitalen Bibliotheken

2013: Promotion in Informatik an der Uni Koblenz Schwerpunkte: Information Retrieval, digitale Bibliotheken und Informetrie

Seit 2013: PostDoc und Teamleiter Knowledge Discovery

2

Alle Materialien unter http://www.schaer.de/recherche-2014

Aktualisiert: Terminplanung im SS 2014 Termin Veranstaltung (VL) Termin Veranstaltung (VL)

3.4. Einfhrung, berblick, Formalia 12.6. Zusammenfassung, Wiederholung

10.4. Grundlagen des boolschen Retrieval 25.6. Klausur

17.4. Grundlagen Datenbanken, Begrifflichkeiten, Fachdatenbanken: pubmed, sowiport

24.4. Suchwerkzeuge (Thesauri und Klassifikationen etc.)

8.5.

Suchstrategien, Berry-Picking, Footnote-Chasing (Bates) etc.

22.5

Methoden und Techniken des IR, Rankingmethoden, TF-IDF

5.6. Relevanz, Relevanzeinschtzung

3

http://www.schaer.de/recherche-2014http://www.schaer.de/recherche-2014http://www.schaer.de/recherche-2014http://www.schaer.de/recherche-2014

Wiederholung 1. Veranstaltung

Vorstellung

Organisatorisches Beachten Sie die aktualisierte Terminplanung

Einfhrung in die Thematik der Vorlesung Verstndnis der Recherche-Problematik

Praktische Kenntnisse in der Recherche-Fhigkeit

Allgemeine Informationskompetenz

Erste praktische bung (Hausaufgaben) Ksekuchen und Plagiatsverdacht

4

Themen der heutigen Veranstaltung

Boolesche Anfragen und das Boolesche Retrievalmodell

Beispielsysteme

Beispielanfragen

Term-Dokument-Matrizen

Vor- und Nachteile des Booleschen Modells

5

Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln, England; 8. Dezember 1864 in Ballintemple, in der Grafschaft Cork, Irland) war ein englischer Mathematiker (Autodidakt), Logiker und Philosoph.

Boolesche Retrievalmodell und Anfragen

Das Boolesche Retrievalmodell kann alle Anfragen auflsen, die sich als ein Boolescher Ausdruck formulieren lassen. Es erlaubt den Einsatz der Operatoren UND, ODER sowie NICHT um

einzelne Anfrageterme zu verknpfen.

Jedes Dokument ist in diesem Modell eine Menge von Termen (bag of words), die keiner besonderen Ordnung folgen.

Es ist sehr przise: Ein Dokument passt zur Anfrage oder nicht!

Im professionellen Einsatz seit mehr als 40 Jahren und immer noch sehr beliebt. Man wei, was man bekommt Nachvollziehbarkeit des Ergebnisses.

Viele Suchsysteme basieren auf dem Booleschen Modell...

6

7

8

9

Unstrukturierte Daten im Jahr 1680

Welches Stck von Shakespeare enthlt die Wrter Brutus UND Caesar aber NICHT Calpurnia?

Ein naiver Versuch: Wir durchsuchen alle Texte, die Shakespeare geschrieben hat nach den Wrtern Brutus und Caesar, danach werden alle Zeilen mit dem Wort Calpurnia gelscht.

Warum ist das (aus technischer Sicht) keine gute Idee? Langsam (fr groe Textkorpora)

NICHT Calpurnia ist nicht trivial

Andere Operationen (z.B., finde das Wort Romans nahe countrymen) nicht mglich

Kein geranktes Ergebnis (das oder die passendste Dokumente finden, kommt in einer spteren Vorlesung)

10

Antony

and Cleopatra

Julius Caesar

The Tempest

Hamlet Othello Macbeth

Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1

Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0

mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0

Term-Dokument-Matrix

1 wenn Dokument

das Wort enthlt,

ansonsten 0

Brutus UND Caesar ABER

NICHT Calpurnia

Einschub: Boolesche Algebra

Die boolesche Algebra hat nur die zwei Elemente 0 und 1.

Es sind die folgenden Verknpfungen definiert:

Konjunktion () bzw. und,

Disjunktion () bzw. oder und

Negation () bzw. nicht.

Klammerungen fr Gruppierungen sind erlaubt.

Konjunktion Disjunktion Negation

12

0 1

0 0 0

1 0 1

0 1

0 0 1

1 1 1

0 1

1 0

Boolesche Operatoren I

13

Boolesche Operatoren II

14

Boolesche Operatoren III

15

Der Lsungsweg: Rechnen mit Term-Vektoren

Fr jeden Term (Brutus, etc.) gibt es einen 0/1-Vektor (Zeile in der Term-Dokument-Matrix): 1: der Term kommt in dem Stck vor,

0: der Term kommt nicht in dem Stck vor.

Um die Frage zu beantworten: Nehme die drei Vektoren fr Brutus (110100),

Caesar (110111) und

Calpurnia (010000 101111, invertiert)

Verknpfe alle Vektoren mittels UND ().

110100 UND 110111 UND 101111 = 100100.

16

Was sagt uns dieser Vektor?

110100 UND 110111 UND 101111 = 100100.

17

Antony and

Cleopatra

Julius Caesar

The Tempest

Hamlet Othello Macbeth

Brutus 1 1 0 1 0 0

Caesar 1 1 0 1 1 1

Calpurnia (invertiert)

1 0 1 1 1 1

Ergebnis 1 0 0 1 0 0

Die Antwort auf die Anfrage

Antony and Cleopatra, Akt III, Szene ii Textstelle:

Agrippa [Aside to DOMITIUS ENOBARBUS]: Why, Enobarbus,

When Antony found Julius Caesar dead,

He cried almost to roaring; and he wept

When at Philippi he found Brutus slain.

Hamlet, Akt III, Szene ii Textstelle

Lord Polonius: I did enact Julius Caesar I was killed i' the

Capitol; Brutus killed me.

18

Vor- und Nachteile des Booleschen Modells I

Kerneigenschaft: Przise Anfragen sind mglich Dokumente passen zur Anfrage oder nicht!

Daher gut fr Experten geeignet, die das zugrundeliegende Modell verstehen und anwenden knnen,

die verwendete Dokumentenbasis (den Korpus) kennen und

die wissen, was sie wollen!

Gut fr (Computer-)Systeme, die einfach tausende von Ergebnissen verarbeiten knnen.

19

Vor- und Nachteile des Booleschen Modells II

Nicht fr die Mehrheit der Nutzer geeignet!

Viele Nutzer sind nicht in der Lage mit Booleschen Anfragen zu arbeiten viele syntaktische Fehler,

verstehen das Modell nicht,

knnen ihr Informationsbedrfnis nicht in Anfragesprache bersetzen...

Das fehlende Ranking der Ergebnisse ist fr normale Anwender nicht praxistauglich, da sie nicht Hunderte von Ergebnissen auswerten mchten.

Dies gilt insbesondere im Bereich der Web-Suche.

20

Feast or Famine

Boolesche Anfragen liefern oft zu wenige (=0) oder zu viele Ergebnisse (1000+).

Anfrage 1: standard user dlink 650

200.000 Treffer Feast

Anfrage 2: standard user dlink 650 no card found 0 Treffer Famine

Beim Booleschen Retrievalmodell bentigt es eine Menge Kenntnis und bung eine Anfrage zu formulieren, die eine berschaubare Anzahl an Ergebnissen hervorbringt!

21

Von Feast or Famine zum Ranked Retrieval

Groe Ergebnismengen sind mit Ranked Retrieval kein Problem mehr.

Ranked Retrieval erlaubt es z.B. nur die Top 10 Ergebnisse zu betrachten und so den Nutzer zu entlasten.

Voraussetzung ist ein Ranking-Algorithmus, der relevantere Ergebnisse vor weniger relevantere Ergebnisse sortiert.

22

Erweitertes Boolesches Modell

In der Praxis wird ein Ranking durch einfache Sortierungen umgesetzt: Chronologische Sortierung (neuste Ergebnisse zuerst),

Alphabetische Sortierung (z.B. der Autorennamen).

Es sind aber auch Gewichtungen mglich z.B. Hufigkeit der Anfrageterme im Dokument: Hufiges Auftreten von Anfragetermen im Dokument ist ein Zeichen fr Relevanz.

Allerdings handelt es sich hierbei um Sortierungen, kein wirkliches Ranking (dass eine Bewertung der Relevanz voraussetzt).

23

Zusammenfassung Boolesches Retrieval

Einfache boolesche/binre Entscheidungen (vorhanden / nicht vorhanden).

Vorteile: Simple Anfragen sind leicht zu verstehen

Relativ leicht zu implementieren (Term-Dokument-Matrix)

Nachteile: Schwierig, genaue Anfragen zu spezifizieren

Zu viel / zu wenig (Feast or Famine)

Sortierung, aber nicht Ranking

Meistgenutzte IR-Modell bis zum Durchbruch des Web.

24

Fragen

?

25

Kontakt

Dr. Philipp Mayr Tel: + 49 (0) 221 / 47694-533 philipp.mayr@gesis.org

Dr. Philipp Schaer Tel: + 49 (0) 221 / 47694-521 philipp.schaer@gesis.org

Maria Zens Tel: + 49 (0) 221 / 47694-236 maria.zens@gesis.org

http://www.schaer.de/teaching/recherche-2014

26

mailto:philipp.mayr@gesis.orgmailto:philipp.schaer@gesis.orgmailto:maria.zens@gesis.orght