36
Information Retrieval Sommersemester 2009 Vorlesungen 1-2 Uwe Quasthoff Universität Leipzig Institut für Informatik [email protected] Unter Verwendung von Materialien der letzten Jahre von C. Wolff

Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

Embed Size (px)

Citation preview

Page 1: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

Information Retrieval

Sommersemester 2009Vorlesungen 1-2

Uwe Quasthoff

Universität LeipzigInstitut für Informatik

[email protected]

Unter Verwendung von Materialien der letzten Jahre von

C. Wolff

Page 2: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 2

Themenschwerpunkte der Vorlesung

Thema

1. Einführung

• Problemstellungen im IR

• Grundkonzepte und Aufbau von IR-Systemen

• Beispiele einfacher IR-Systeme und Retrievalsprachen

2. IR-Modelle

3. Automatische Indexierung

4. Evaluierung und Bewertung von IR-Systemen

Gru

ndl

agen

5. Implementierung von IR-Systemen

6. Suchmaschinen im WWW

7. IR und automatische Sprachverarbeitung

8. IR-Verfahren und Hypertext

9. IR in multimedialen Dokumentbeständen

Spe

zial

them

en

10. Benutzerschnittstellengestaltung für IR-Systeme

Page 3: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 3

Literaturüberblick Blair, David C. (1990). Language and Representation in Information Retrieval. Amsterdam et al.: Elsevier. Theoretische Auseinandersetzung mit den Grundlagen des IR ,

insbesondere Modellierung, Repräsentation und Sprachverarbeitung; Orientierung an semiotischen Modellen [K 7888]

Frakes, William; Baeza-Yates, Ricardo (edd.) (1993). Information Retrieval: Data Structures and Algorithms. Englewood Cliffs/NJ: P T R Prentice Hall. Umfassender Überblick über die technische Realisierung von IR-Komponenten; teilweise anhand vollständig abgedrucktem C-Code werden die wichtigsten Algorithmen und Datenstrukturen im IR erläutert (Invertierte Listen, PAT-Bäume, Hashing, Stemming etc.). Unerläßlich für praktische Arbeiten bei der Entwicklung eines IR-Systems.

Fuhr, Norbert (1996). Information Retrieval. Vorlesungsskript, Universität Dortmund, Institut für Informatik, September 1996 Vierstündige Spezialvorlesung, relativ technisch, mit Betonung formaler Modelle, insb. des probabilistischen. [http://ls6-www.informatik.uni-dortmund.de/ir/teaching/courses/ir/*.ps.gz].

Gaus, Wilhelm (19952). Dokumentations- und Ordnungslehre: Theorie und Praxis des Information Retrieval. Berlin et al.: Springer. Gutes dokumentationswissenschaftliches Lehrbuch, wenig Bezug zu computergestützten IR-Techniken. [R 7977/ 2].

Henzler, Rolf G. (1992). Information und Dokumentation. Berlin et al.: Springer. Praxisorientierte Einführung, ausführlich zu klassischen Online-Datenbanken. [R 7243 R 6368]

Ingwersen, Peter (1992). Information Retrieval Interaction. London et al.: Taylor Graham. Gute Einführung in den „cognitive viewpoint“ im IR (user modelling, cognitive systems engineering der "Skandinavischen Schule").

Jacobs, Paul S. (ed.) (1992). Text-based Intelligent Systems: Current Research and Practice in Information Extraction and Retrieval. Hillsdale/NJ: Lawrence Erlbaum. Sammelband mit wichtigen Beiträgen zum intelligenten Text-IR [K 7107].

Lancaster, Frederick W.; Warner, Amy (1993). Information Retrieval Today. Dritte Auflage eines klassischen, relativ praxisbezogenen Lehrwerks[R 9293].

Salton, Gerard (1989). Automatic Text Processing. The Transformation, Analysis, and Retrieval of Information by Computer. Reading/MA: Addison-Wesley. Hervorragendes Lehrbuch für alle Aspekte der Textverarbeitung (i.w.S.), der Schwerpunkt Information Retrieval in diesem Buch ist zwar deutlich knapper als in Salton & McGill, berücksichtigt dafür aber auch einige neuere Forschungsansätze.

Salton, Gerard (ed.) (1971). The SMART Retrieval System - Experiments in Automatic Document Processing. Englewood Cliffs/NJ: Prentice-Hall. Umfangreiche Zusammenfassung der Forschungsergebnisse im SMART-Projekt Anfang der 70er Jahre, wichtige Schwerpunkte: System-design, das vector space-Modell, Evaluierung, erweiterte Retrievaltechniken (rele-van-ce feedback, natural language processing).

Salton, Gerard; McGill, Michael J. (1983). Introduction to Modern Information Retrieval. New York et al.: McGraw-Hill [dt. Ausgabe: Information Retrieval - Grundlegendes für Informationswissenschaftler. Hamburg et al.: McGraw-Hill 1987]. Ein „Klassiker“, sehr gut verständlich, ohne vereinfachend zu sein; teilweise nicht mehr neuester Stand der Forschung.

Sparck Jones, Karen (ed.) (1981). Information Retrieval Experiment. London et al.: Butterworths. Nach wie vor einziger Sammelband zum Thema Evaluierung im IR

Van Rijsbergen, Cornelis J. (19792). Information Retrieval. London: Butterworths. [auch: http://www.dcs.glasgow.ac.uk/Keith/Preface.html] Neben Salton & McGill ein weiterer „Klassiker“, mit stärkerer Betonung probabilistischer und formallogischer Modelle

Page 4: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 4

Zeitschriften und TagungenZeitschriften• Communications of the ACM [CACM]• Information Processing and Management• Journal of the American Society for Information Science [JASIS]• SIGIR Forum• Journal of Documentation

Proceedings• Fachtagungen IR der GI [Regensburg 93, Konstanz 95, Dortmund 97 (HIM)]• Internationales Symposium für Informationswissenschaft [ISI ‘90 ... ISI ‘96]• Riao [Recherche d’ Information Assistée par l’ Ordinateur], 1988, 1991, 1994,

1997 ...]• SIGIR - jährliche Fachtagung IR der Special Interest Group IR der ACM• TREC - Text Retrieval Conference - jährlicher Evaluierungswettbewerb für IR-

Systeme, erstmals 1992

Page 5: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 5

Definition und Modellbildung

Einleitung: Faszination und Dilemma des Information Retrieval

Definition von Information Retrieval

Konzeptuelles Modell des Information Retrieval

Aufbau und Informationsorganisation eines Information Retrieval-Systems

Page 6: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 6

Faszination und Dilemma des Information RetrievalEs gibt kein IR-System, das Anfragen zu 100% korrekt erfüllen würde. Auch die

leistungsfähigsten IR-Systeme sind in ihrer Performanz noch weit vom Optimum entfernt. Viele kommerzielle Systeme arbeiten (immer noch) mit Boolescher Logik, was - wie seit

langem sowohl theoretisch als auch empirisch nachgewiesen ist- keine optimalen Ergebnisse im Sinne des technisch Machbaren ergibt. Beispiele sind etwa die Informationszentren wie IZ Sozialwissenschaften oder FIZ Karlsruhe und die großen Online-Datenbankprovider.

Die erhöhte Verfügbarkeit unstrukturierter und verteilter Information, die durch klassische Faktendatenbanken (RDMS, OODBMS) Datenbanken kaum erschlossen werden kann (Internet, digitale Bibliotheken, Textkorpora, multimediale Dokumente) bringen neue Herausforderungen für die IR-Forschung.

Durch die Verbreitung des WWW und seiner Suchmaschinen hat der Forschungsbereich Information Retrieval eine gewisse Renaissance erlebt, die noch andauert.

Innovative Visualisierungstechniken ermöglichen neue Zugangswege zu der in einem IRS erschlossenen Information (VRML-Browser, piktorielle Systeme etc.).

Das zentrale Phänomen im IR ist die Komplexität der Repräsentationsform von Information – natürlichsprachlicher Text – und die vielfältigen Problemstellungen, für die ein und dieselbe informationelle Einheit (z.B. ein Aufsatz in einer wissenschaftlichen Zeitschrift) relevant sein kann.

Page 7: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 7

Komplexität der Information

Page 8: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 8

Begriffsbildung für Daten / Wissen / Information

Daten Syntaktisch definierte Verfahren der Datenverarbeitung

Wissen Semantisch begründete Verfahren der Wissensrepräsentation

Information Pragmatisch kontrollierte Informationserarbeitung zur informationellen Handlungsabsicherung ("Information ist Wissen in Aktion", im Unterschied zur nachrichtentechnischen Orientierung des SHANNONschen Informationsbegriffs)

Page 9: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 9

Definition von Information Retrieval • 1. Versuch: Information Retrieval = „inhaltliche Suche in Texten“, wir sprechen genauer

von Textretrieval oder Dokumentenretrieval • Information retrieval is concerned with the processes involved in the representation,

storage, searching and finding of information which is relevant to a requirement for information desired by a human user (Ingwersen 1992:49).

• [...] information science is concerned with, at least in part, the issues of how and why people engage in information-seeking behavior, and of how they use information [...] (Belkin 1990:13).

• The explicit consequences of this view are that: the goal of the IR system is to support the user in her/his entire range of information-seeking behaviors; the user must be considered the central component of the IR system; and interaction [...] is the central process of IR (Belkin 1993:64).

• [...] computerized information retrieval has been limited by many factors, such as storage capacities, [...] costs of capturing data, and the practices of the publishing industry. With improvements in technology, we can break through these limitations, and manage large digital libraries of multimedia objects [...] (Fox 1993:116).

Page 10: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 10

Konzeptuelles Modell des Information Retrieval

Einordnung von IR, Information Science und Computer Science

Epistem

ologie: [gr. "Wissenschaftslehre"], L

ehre v. d. G

rundlagen der Erkenntnis u. d. W

issens.

Page 11: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 11

Überlappung verschiedener Systemtypen

Page 12: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 12

Vergleich IR - DBMS (nach Van Rijsbergen 1979)

IR-System DBMS Matching Partial match, best match Exact Match Inference Induction Deduction Model Probabilistic Deterministic Classification Polithetic Monothetic Query Language Natural Artificial Query specification Incomplete Complete Items wanted Relevant Matching Error Response Insensitive Sensitive

Page 13: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 13

Unterschiede zwischen IR-, DB- und KI-Systemen (Frakes 1993:9)

Systemtyp Datenobjekte Hauptoperation Größe der Datenbasis IR Dokumente Retrieval

(„pobabilistisch“) klein bis sehr groß

relationale DBMS Tabellen Retrieval (deterministisch)

klein bis sehr groß

KI Aussagen der Logik Inferenz i.d.R. (sehr) klein

Page 14: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 14

Zusammenfassender ÜberblickGegeben: Informationsbedürfnisse und Informationssammlungen (irgendeiner Art) Ziel des IR: geeignete Abbildungsfunktion, die zu beliebigen Informationsbedürfnissen eine

passende Auswahl in der Informationsmenge vornimmt. Dabei spielen unter anderem eine Rolle: • Formulierungsprozess für Informationsbedürfnisse durch den Benutzer oder

automatisch durch das System (automatic query formulation)• Abbildung des Informationsbedürfnisses auf eine interne Repräsentation• Abbildung der Dokumente auf eine interne Repräsentation (z.B. invertierte Datei)• Ähnlichkeitsfunktion für die internen Repräsentationen von Dokumenten und

Anfragen (Indexierungssprache)

Page 15: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 15

Funktionales Modell

eines IR-S

ystems

Page 16: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 16

Prinzip der invertierten Datei

In vielen IR-Systemen finden zur Dokumentenaufbereitung sog. "Invertierte Dateien" Verwendung. Sie bestehen im einfachsten Fall aus Listen, die für jeden Indexierungsterm angeben, in welchen Dokumenten er auftritt. Man stellt die Dokumentenrepräsentation im System also auf den Kopf: Statt für jedes Dokument anzugeben, welche relevanten Indexierungsterme es enthält, gibt man für jeden Term an, in welchen Dokumenten er auftritt. Zusätzlich können weitere Parameter in der invertierten Liste abgespeichert werden, so z.B. die

• Auftretenshäufigkeit eines Terms oder

• eine genauere Ortsangabe in den Dokumenten

– Wortzähler,

– Satznummer,

– Paragraphenangabe etc.

Page 17: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 17

Beispiel: Inverse Liste

Page 18: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 18

Boolesche Anfragesprachen Wie einführend bereits ausgeführt, arbeiten kommerzielle Systeme üblicherweise mit einer

Booleschen Anfragelogik, d.h. der Benutzer muß sein Informationsbedürfnis durch logische Verknüpfung gewünschter Terme formulieren.

Neben dem "Standard-Leistungsumfang" einer Booleschen Anfragealgebra - AND, OR, NOT, Klammern und deren Verknüpfung zu komplexer logischen Formeln - sind die gängigen Retrievalsprachen (Beispiel: Messenger) um eine Vielzahl von Zusatzoperatoren erweitert:

• adjacency (verschiedene Varianten)• term frequency• Trunkierung• Synonymangabe

Die Zusatzoperatoren bedingen jeweils einen komplexeren Aufbau der invertierten Datei, da sie nur arbeiten können, wenn z.B. für die adjacency auch entsprechende Positionsangaben für die Term-Dokument-Beziehungen vorliegen. Dies zeigt z.B. die Dateiorganisation von STAIRS: (siehe Bild aus Salton & McGill)

Page 19: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 19

Beispiel: W-Operator IThe (W) operator is used to search for terms that are adjacent to each other in the order

specified. The following forms of the (W) operator are available:

Operator Search Example Retrieves---------------------------------------------------------------------- (W) SHALE (W) OIL Records that contain SHALE OIL (nW) AIR (3W) POLLUTION Records that contain AIR followed by POLLUTION with 0 to 3 intervening terms, e.g., AIR AND WATER POLLUTION (XW) GOLD (XW) ALLOY Records that contain GOLD followed by ALLOY anywhere within the same field or information unit, e.g., GOLD-NICKEL ALLOY

Page 20: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 20

Beispiel: W-Operator II (NOTW) LIME (NOTW) JUICE Records that contain an occurrence of LIME not immediately followed by JUICE. Records that contain an occurrence of LIME JUICE, in addition to an occurrence of LIME not immediately followed by JUICE, would be retrieved(nNOTW) FIBER (5NOTW) OPTICS Records that contain an occurrence of FIBER not followed by OPTICS with 0 to 5 intervening terms. Records that contain an occurrence of FIBER followed by OPTICS with 0 to 5 intervening terms, in addition to an occurrence of FIBER not followed by OPTICS with 0 to 5 intervening terms, would be retrieved

Page 21: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 21

Beispiel: W-Operator III(XNOTW) AMINO (XNOTW) CHLORO Records that contain an occurrence of AMINO not followed by CHLORO anywhere within the same field or information unit. Records that contain an occurrence of AMINO followed by CHLORO in the same field or information unit, in addition to an occurrence of AMINO not followed by CHLORO in the same field or information unit, would be retrieved n = any number from 0 to 9999

Page 22: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 22

INSPEC-Beispiel I: Anfrage

Recherche: Gesucht werden Dokumente, die sich mit der Aufbereitung und dem Layout von Graphen im Mensch-Maschine-Interface befassen. Die Anfrage wurde Mitte 1994 an die Datenbank INSPEC beim Host STN (Karlsruhe) unter Verwendung der Abfragesprache Messenger gestellt und erbrachte eine Treffermenge von zwei Dokumenten, die hier im Anschluß an die Anfrage wiedergegeben sind:

=> s graph/ti and layout/ti and interface

4640 GRAPH/TI

2718 LAYOUT/TI

118629 INTERFACE

L6 2 GRAPH/TI AND LAYOUT/TI AND INTERFACE

Page 23: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 23

INSPEC-Beispiel I: ErgebnisL6 ANSWER 1 OF 2 COPYRIGHT 1994 IEE

AN 90:3636421 INSPEC DN B90036645; C90036816

TI A hierarchical ***graph*** oriented compaction system for

symbolic ***layout*** .

AU de Lange, J.S.J.; de Lange, A.A.J. (Dept. of Electr. Eng., Delft

Univ. of Technol., Netherlands)

SO 1989 IEEE International Symposium on Circuits and Systems (Cat.

No.89CH2692-2)

New York, NY, USA: IEEE, 1989. p.57-60 vol.1 of 3 vol. xl+2246 pp. 12

refs.

Conference: Portland, OR, USA, 8-11 May 1989

Sponsor(s): IEEE

Price: CCCC CH2692-2/89/0000-0057$01.00

DT Conference Article

TC General Review

CY United States

LA English

Page 24: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 24

INSPEC-Beispiel II=> s (information and retrieval) and (bool* or (exact and match)) 344896 INFORMATION 35629 RETRIEVAL 16 BOOL* (BOOL) 77153 EXACT 15752 MATCHL1 30 (INFORMATION AND RETRIEVAL) AND (BOOL* OR (EXACT AND MATCH )) => d l1 1-30 tiL1 ANSWER 1 OF 30 INSPEC COPYRIGHT 1997 IEETI The ***exact*** -display approach for online catalog subject searching.L1 ANSWER 2 OF 30 INSPEC COPYRIGHT 1997 IEETI Dictionary organizations for efficient similarity ***retrieval*** .L1 ANSWER 3 OF 30 INSPEC COPYRIGHT 1997 IEETI Non-Boolean searching on commercial online systems: optimising use of Dialog TARGET and ESA/IRS QUESTQUORUM.

Page 25: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 25

INSPEC DatenfelderAN interne Dokumentennummer von INSPECTI Titel des DokumentsAU Autor(en)SO Quelle (Sammelband, Zeitschrift, Proceedings etc.)DT DokumententypTC Einschätzung des Dokumentes (theoretisch, praktisch, anwendungsbezogen etc.)CY PublikationslandLA Sprache des Originaldokumentes; ist wichtig, da in der Datenbank alle Einträge

englisch erfaßt sind und man evtl. z.B. chinesische Dokumente kaum verwenden kann.

Weitere, im Standardausgabeformat nicht enthaltene Datenbankfelder sind:CC classification code, ThesaurusbegriffeCT controlled term, kontrolliertes Indexierungsvokabular AB Abstracts

Page 26: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 26

Ablauf einer BOOLEschen Anfrage

The side effects of drugs on memory or cognitive abilities, not related to aging

Anfrageschritt Anfrage Treffermenge 1 DRUGS 19248 2 DRUGS in TI 2412 3 AGING 2560 4 DRUG not AGING 19119 5 #2 and #4 2349 6 MEMORY 9305 7 #5 and (DRUG near4 MEMORY) 6 8 COGNITIVE 22091 9 #5 and (DRUG near4 COGNITIVE) 16

10 #7 or #9 22 11 SIDE-EFFECTS-DRUG in DE 2023 12 #11 and #10 0

Page 27: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 27

Vor- und Nachteile des Booleschen Ansatzes Die Beispielanfrage zeigt schon, wie schwierig es sein kann, mit Boolescher Logik

ein zufriedenstellendes Ergebnis zu erreichen. Dies liegt vor allem daran,

• daß die Boolesche Logik für die gewünschten Terme einen exact match durchführt und daher

• die Treffer nicht nach Qualität unterschieden ausgegeben werden können / müssen.

• Ein ranking der Treffer ist also nicht möglich,

• der Benutzer muss mehr oder weniger willkürlich durch Einschränkung oder Erweiterung von Anfragen die Treffermenge in einen akzeptablen Bereich lenken.

• Verbesserung der Retrievaleffektivität durch einfache Gewichtung (s.u.)

Page 28: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 28

Retrieval mit einfacher Dokumentgewichtung Vergabe von Dokumentgewichten bezüglich von Anfragetermen,

Damit: Qualitätsbeurteilung (ranking) der Dokumente möglich

Einfachster Fall: coordination level matching

Algorithmus: Für die in der Anfrage enthaltenen Terme (und ihre zugeordneten Anfragegewichte) wird die Summe über jedem Dokument in der Kollektion gebildet, das Dokument mit dem höchsten Retrievalgewicht wird als erstes ausgegeben usw.

Gewicht d1 d2 d3 d4 side effect 1 x x x x drugs 1 x x x x memory 1 x x cognitive ability 1 x x x aging 1 x Retrievalgewicht 3 3 5 3

Page 29: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 29

Modelle des Information Retrieval

Ausgangspunkt sind eine Menge von Dokumenten D und eine Menge von Anfragen Q. Von zwei Seiten lässt sich eine Beziehung zwischen Dokumenten und Anfragen herstellen:

• Benutzerseite: Der Benutzer führt Relevanzbewertungen durch und gibt damit an, welche Dokumente bezüglich einer Anfrage als (nicht) relevant einzuschätzen sind, dargestellt als Menge der Relevanzbewertungen.

• Systemseite: Das System selektiert als Antwort auf eine Anfrage Q eine (möglicherweise leere) eine Untermenge der Dokumente. Dabei kommt eine Retrievalfunktion ρ zum Einsatz.

Dabei setzt das System nicht auf Anfragen und Dokumenten im "ursprünglichen Zustand" auf, sondern setzt auf einer internen semantischen Repräsentation (D bzw. Q) auf, die durch die Abbildungen Indexierung bzw. Formalisierung der Anfrage gewonnen werden. Intern sind Dokumente durch Dokumenten-beschreibungen DD

, Anfragen durch logische Frage-Repräsentationen QD

dargestellt.

Page 30: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 30

Repräsentationsebenen

Es werden also immer drei Ebenen unterschieden:

• (ursprüngliche) Fragen und Dokumente (bzw. Antwortmengen)

• deren Beschreibung (semantische Sicht, formalisierte Anfrage)

• die interne Beschreibung von Anfragen und Dokumenten (Fragelogik, Objektattribute für Dokumente)

qk Frage qk Frage-Repräsentation qk

D (interne) Fragebeschreibung dm Dokument m dm semantische Dokumentbeschreibung dm

D interne Dokumentenrepräsentation

Page 31: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 31

Dokumentenbeschreibungen

Um die Dokumentenbeschreibungen zu erstellen, verwendet man i.d.R. ein Indexierungsvokabular T = {t1, ..., tn}, das aus Grundformen (Termen) besteht, wo

bei die Beschreibung sowohl manuell wie automatisch erstellt werden kann. Üblich sind auch Mischformen, wo zu einer automatischen Indexierung des Volltextes eine manuelle Beschlagwortung hinzukommt.

Die Menge der Terme kann automatisch (z.B. über Häufigkeitsangaben) oder manuell beschränkt werden. Im ersten Fall werden folgende Terme ignoriert:

• sehr hochfrequente Terme, sog. Stoppwörter

• niederfrequente Terme

Page 32: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 32

Vergleich der wichtigsten IR-Modelle

Modell BOOLEsches Retrieval

Vector Space

Probability Fuzzy Clustering

Basis BOOLEsche Logik

Vektor-algebra

Wahrschein-lichkeitstheorie

Theorie un-scharfer Men-gen

Vektoral-gebra

Bezug zur Retrievalqualität

— — + (+) —

gewichtete Indexierung

— + + + +

gewichtete Anfrageterne

— + + (+) +

Anfragestruktur BOOLEsch linear linear BOOLEsch N/A Anfragemodus Suchen Suchen Suchen Suchen Browsen

Page 33: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 33

Boolesches Retrieval

Beim Booleschen Retrieval gibt es keine Indexierungsgewichte, d.h. jeder Term ist einem Dokument zugeordnet oder nicht, bzw. formal:

Die Fragebeschreibungen und Retrievalfunktion lassen sich wie folgt rekursiv aufbauen:

Fragebeschreibungen QD:

Die Retrievalfunktion ρ ergibt sich dann zu:

d d d i nmD

m mi= ∈ =

mit für{ , } ,...,0 1 1

DD

DD

DD

Dii

QqQq

QqqQqq

QqqQqq

QtTt

∈¬⇒∈

∈∨⇒∈

∈∧⇒∈

∈⇒∈

2121

2121

,

,

),(1),(

)),(),,(max()(

)),(),,(min()(

),(

2121

2121

mm

mm

mm

mmii

dqdq

dqdqqq

dqdqqq

ddtTti

ρρ

ρρρ

ρρρ

ρ

−⇒¬

⇒∨

⇒∧

=⇒∈

Page 34: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 34

Abarbeitung von Booleschen AnfragenRealisierung über Mengenoperationen auf Listen.

Anfrage ((T1 ODER T2) UND NICHT T3) Einträge in der invertierten Datei T1: {D1, D3} T2: {D1, D2} T3: {D2, D3, D4} Abarbeitung: Ergebnis Vereinigung T1, T2 {D1, D2, D3} Schnittmenge mit ¬T3 {D1}

In der Praxis setzt man für die Repräsentation von Mengen Bitvektoren und Hashing-Funktionen ein, für die jeweils die notwendigen Mengenoperationen implementiert sind.

Page 35: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 35

Mächtigkeit der Abfragesprache

Jede Anfrage teilt die Dokumentenbasis in zwei Mengen: Diejenigen Dokumente die die Retrievalfunktion einer Anfrage zuordnet und diejenigen, die sie ihr nicht zuordnet.

Für jede Dokumentenmenge D lassen sich Anfragen konstruieren, die jede beliebige Teilmenge aus D selektieren.

Trotz dieser formalen Mächtigkeit gelten die bekannten Nachteile des Booleschen Modells. Insbesondere läßt sich auch empirisch zeigen, daß die korrekte Umsetzung einer Anfrage in die Boolesche Logik auch geübten Benutzern Probleme bereitet.

„Wenn Sie sich für Hunde UND Katzen interessieren, müssen Sie nach ‚Hund ODER Katze‘ suchen!“

Page 36: Algorithmen und Datenstrukturen 1 - asv.informatik.uni ...asv.informatik.uni-leipzig.de/document/file_link/56/IR1-2.pdf · U. Quasthoff Information Retrieval 3 Literaturüberblick

U. Quasthoff Information Retrieval 36

Gewichtung

Gleiche Retrieval-Funktion mit min und max, aber die Argumente müssen nicht notwendig die Werte 0/1 haben. Wir erlauben also eine Indexierungsfunktion mit Werten im Bereich [0,1] analog du Fuzzy Logic.

Beispiel:

T = {t1, t2}

q = t1 ∧ t2

= (0.4, 0.4),

= (0.39, 0.99)

Bei Einsatz des Minimum-Operators der fuzzy logic (d.h. Interpretation analog wie oben für die Retrievalfunktion der Booleschen Logik dargestellt) erhält man:

ρ (q, ) = 0.4

ρ (q, ) = 0.39

d1

2d

d1

2d