View
120
Download
1
Category
Preview:
Citation preview
1
Information Retrieval Modelle: Vektor-Modell
Karin Haenelt
25.10.2012
Inhalt
Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell
Ziele Dokument- und Anfrage-Repräsentation
Termgewichtungen: tf und idf Rankingfunktion
Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus
Bedeutung des Vektormodells
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
2
Grundkomponenten des Information Retrieval
3
Doku-mente
D1
Anfrage
Analyse
Analyse
Reprä-sentation
Reprä-sentation
Ähnlichkeit:- Matching- Ranking
Doku-mente
D2
D2 D1
D
R(qk,dm)
Q
Komponentender Modelldefinition
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Information-Retrieval-Modell: Definition
Ein Information-Retrieval-Modell ist ein Quadrupel (D,Q,F,R(qk,dm))
4
D Dokument-Repräsentation Menge logischer Sichten auf Dokumente
Q Query-Repräsentation Menge logischer Sichten auf Anfragen (Queries
F Modellierungsrahmen (Framework) für - Dokumentrepräsentationen D - Queries Q - Beziehungen zwischen D und Q
R(qk,dm) Ranking-Funktion ordnet einer Query qk aus Q und einem Dokument dm aus D einen Wert zu, der die Reihenfolge der Dokumente aus D bezüglich einer Query qk definiert
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt
Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell
Ziele Dokument- und Anfrage-Repräsentation
Termgewichtungen: tf und idf Rankingfunktion
Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus
Bedeutung des Vektormodells
5© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Boolesches Modell und VektormodellDokument- und Anfrage-Repräsentation
6
Dokumentvektor: (1,1,0)Anfragevektor: (1,1,0)
Term 1Öl
Term 2Preis
Term 3Alaska
1
1
1
1
0
0
binär (Boolesches Modell)
Dokumentvektor: (4,8,0)Anfragevektor: (3,6,0)
4
3
8
6
0
0
Frequenz (Vektormodell)
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Boolesches Modell und VektormodellIllustration der Dokumentvektoren durch geometrische Interpretation
7
Term 1Öl
Term 2Preis
Term 3Alaska
1
2
1
4
0
0
binär (Boolesches Modell)
Frequenz (Vektormodell)
Öl
Preis
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Boolesches Modell und VektormodellVergleich
Boolesches Modell Vektormodell
D, Q Repräsentation Termvorkommen Termfrequenz
F Framework Boolesche Algebra Vektoralgebra
R Ranking – Berechnung der Ähnlichkeit zwischen Anfragevektor und Dokumentvektor
Wahrheitswert der konjunktiven Verknüpfung von D und Q
Ähnlichkeitsmaß für Vektoren D und Q
Ergebnis - Passt / passt nicht zur Anfrage- Menge
-Numerische Ähnlichkeitswerte- geordnete Liste
8© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt
Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell
Ziele Dokument- und Anfrage-Repräsentation
Termgewichtungen: tf und idf Rankingfunktion
Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus
Bedeutung des Vektormodells
9© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellZiele
Berücksichtigung partieller Übereinstimmung zwischen Anfragetermen und Dokumenttermen
durch nicht-binäre Werte für Termgewichtung Berechnung der Ähnlichkeit zwischen Anfragetermen und
Dokumenttermen Sortierung von Dokumenten nach Grad der Ähnlichkeit Präzisere Beantwortung der Anfrage als Boolesches Modell
10
(Baeza-Yates/Ribeiro-Neto, 1999,27)
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt
Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell
Ziele Dokument- und Anfrage-Repräsentation
Termgewichtungen: tf und idf Rankingfunktion
Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus
Bedeutung des Vektormodells
11© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellDokument- und Query-Vektoren: Definition
wi,m Gewicht für des Terms i in Dokument m;positiv, nicht binär
wi,k Gewicht des Terms i in Query k
x Anzahl der Index-Terme im System
Dokument-Vektor
Query-Vektor
12
),...,,( ,,2,1 kxkkk wwwq ),...,,( ,,2,1 mxmmm wwwd
(Baeza-Yates/Ribeiro-Neto, 1999,27)
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellTermgewichtungen einfache Häufigkeit
berücksichtigt Dokumentlänge nicht ergibt keine normalisierten Termvektoren nur mit normalisierenden Ähnlichkeitsmaßen (z.B. Cosinus) sinnvoll
verwendbar tf: normalisierte Termfrequenz (Term-Frequenz)
berücksichtigt Dokumentlänge ergibt normalisierte Termvektoren
tf-idf-Gewichtung (Term-Frequenz–inverse Dokument-Frequenz) berücksichtigt die Häufigkeitsverteilung von Termen im Corpus Terme, die in vielen Dokumenten vorkommen
haben möglicherweise wenig Unterscheidungswert werden abgewertet
13© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellTermgewichtungen: tf, idf
tf Termfrequenz-Faktor Bedeutung: relative Anzahl der Vorkommen von
Term ti in Dokument dm
Zweck: soll besagen, wie gut ein Term denInhalt eines Dokuments beschreibt
idf inverse Dokument-Frequenz Sinn: Terme, die in vielen Dokumenten vorkommen,
sind möglicherweise nicht nützlich zur Differenzierung relevanter und irrelevanter
Dokumente
Beispiel:
14
(Baeza-Yates/Ribeiro-Neto, 1999,29)
d2
ein Brot200150
5050
d1
und Bier100150
5050
bei ungewichteter Anfrage„ein, Brot. und, ein, Bier“würden hier die Vorkommenvon „ein“ und „und“ über dieÄhnlichkeit entscheiden
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
inverse
Dokumentfrequenz
VektormodellTermgewichtungen: tf, idf
15
N Gesamtzahl der Dokumente im Systemti Indextermni Anzahl der Dokumente, in denen Term ti vorkommtfreqi,m Anzahl der Erwähnungen von Term ti in Dokument dm
maxl freql,m Frequenz des höchstfrequenten Terms in Dok. dm
tfi,m normalisierte Frequenz von Term ti in Dokument dm
idfi inverse Dokumentfrequenz von Term i
mll
mimi
mi
freq
freqtf
w
,
,,
,
max
imimi idftfw ,,i
in
Nidf log
Termgewichtung mitnormalisierte Termfrequenz
tf-Formel tf-idf-Formel
mit dieser Formel erhält man für alle Terme Gewichte mit den Werten 0 ≤ wi,m ≤ 1
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
16
)1024
2048log,
16
2048log,
128
2048log( 222
)10.1,78.0,44.0(
)10
10,
10
8,
10
4(
mll
mimi
freq
freqf
,
,,
maxnormalisierte
Termfreq tf
ii
n
Nidf loginverse
Dokfreq idf
imimi
n
Nfw log,, tf-idf-
Gewichtg.
Termfreq
Gesamtzahl der Dokumente im System: N=2048Index-Terme: „Öl“ in 128 Dokumenten
„Mexiko“ in 16 Dokumenten„Raffinerie“ in 1024 Dokumenten
Beispiel-Dokument:
)2log,128log,16log( 222
4 8 10
0.4 0.8 1.0
4 7 1
1.6 5.6 1.0
Öl M. R.
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellTermgewichtungen – inverse Dokumentfrequenz
17
0 200 400 600 800 1000 1200
Raffinerie
.
.
Öl
.
.
Mexiko
Termgwicht
Dok.-FrequenzdesTerms
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellTermgewichtungen – Erläuterungen des Beispiels
Der signifikanteste Term für das Beispieldokument ist „Mexiko“, da „Mexiko“ außer im Beispieldokument nur in 15 weiteren Dokumenten vorkommt
Der am häufigsten im Beispieldokument vorkommende Term „Raffinerie“ ist weniger signifikant, da er in 50% der Dokumente vorkommt
18
(Kowalski, 1997, 105)
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt
Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell
Ziele, Definitionen Dokument- und Anfrage-Repräsentation
Termgewichtungen: tf und idf Rankingfunktion
Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus
Bedeutung des Vektormodells
19© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellRankingfunktion
Berechnung der Ähnlichkeit zwischen Anfrage und Dokument nach einem Ähnlichkeitsmaß zwischen Vektoren
Am häufigsten verwendetes Ähnlichkeitsmaß:Cosinus des Winkels zwischen zwei Vektoren
Andere Ähnlichkeitsmaße Dice-Koeffizient, Jaccard-Koeffizient,
Overlap-Koeffizient Euklidische Distanz …
20© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellRanking-Funktion: Cosinus-Formel
Berechnung der Ähnlichkeit zweier Vektorennach dem Cosinus des Winkels zwischen den beiden Vektoren
21
Winkel: Aussage über den Grad derGemeinsamkeit der Richtungder Vektoren(Richtung: ~ Thema im IR)
Cosinus: Aussage über einen Winkelmit Wertebereich von-1 bis +1(bei Vektoren mit positiven Zahlenvon 0 bis +1)
Cosinus besser geeignet für Ranking-Angabeals Winkel
a
b
a
Wertebereich -1 <= cos <= 1
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellRanking-Funktion: Cosinus-Formel
Ähnlichkeit von Dokument dm und Anfrage q
22
x
i qi
x
i mi
x
iqimi
m
mm
ww
ww
qd
qdqdsim
1
2
,1
2
,
1,,
||||),(
Anmerkung:der Operator steht grundsätzlich für die eindeutige positive Lösung x2 = a
2
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellCosinus-Formel: Berechnungsbeispiel
23
x
i qi
x
i mi
x
iqimi
m
ww
wwqdsim
1
2
,1
2
,
1,,
),(
1)00()28()14(
),(
021084222222
1
qdsim
1)00()26()13(
),(
021063222222
2
qdsim
t2 t3
431
862
000
d1
d2
q
t1
d1
q
d2
q
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Cosinus-Formel: Ableitung
24
cos|||| baba
||||cos
ba
ba
(1) Skalarprodukt geometrische Formel
(2) Skalarprodukt arithmetische Formel nnbabababa ...2211
(3) Umformung von (1)
(4) Einsetzen von (2) in (3)
x
i qi
x
i mi
x
iqimi
m
mm
ww
ww
qd
qdqdsim
1
2
,1
2
,
1,,
||||),(
ab
a
n
i i
n
i i
n
iii
ba
ba
1
2
1
2
1cos
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellEin Beispiel
25
Dokumentvektor1: (4,8,0)Dokumentvektor2: (3,6,0)Queryvektor: (1,2,0)
Term 1Öl
Term 2Preis
Term 3Alaska
4
3
1
8
6
2
0
0
0
(vgl. Kowalski, 1997,153)
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellKommentar zum Beispiel
Ähnlichkeitsmaß: Cosinus-Formel Wenn Dokument- und Query-Vektor völlig ohne Beziehung sind,
sind die Vektoren orthogonal und der Cosinus-Wert ist 0 Die Länge der Vektoren bleibt unberücksichtigt
Daher ist die Formel verschiedentlich weiterentwickelt worden
26
(Kowalski, 1997,153)
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt
Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell
Ziele, Definitionen Dokument- und Anfrage-Repräsentation
Termgewichtungen: tf und idf Rankingfunktion
Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus
Bedeutung des Vektormodells
27© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellVorteile
Termgewichtungsschema verbessert Retrievalergebnisse Strategie der partiellen Übereinstimmung ermöglicht Retrieval
von Dokumenten, die der Retrievalanfrage nahe kommen Cosinus-Ranking-Funktion ermöglicht Sortierung nach Grad der
Ähnlichkeit
28
(Baeza-Yates/Ribeiro-Neto, 1999,30)
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellNachteile
Annahme der Unabhängigkeit der Index-Terme Fall 1: Ist in der Praxis ein Vorteil
Viele Abhängigkeiten sind lokal Lokale Eigenschaften würden Gesamtauswertung negativ
beeinflussen
Fall 2: Ist problematisch Beispiel: Dokument mit zwei Schwerpunkten:
„Öl in Mexiko“ und „Kohle in Pennsylvania“hohe Werte für Anfrage: „Kohle in Mexiko“
29
(Baeza-Yates/Ribeiro-Neto, 1999,30)
(Kowalski, 1997, 105)
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
VektormodellBedeutung
Mindestens genauso gut wie andere Modelle Möglicherweise besser Einfach Schnell
30
(Baeza-Yates/Ribeiro-Neto, 1999,30)
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vielen Dank
Für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich
Christian Roth Anand Mishra
31
Versionen: 25.10.2012, 25.10.2009, 13.10.2008, 20.12.2006, 24.10.2006,20.10.2006,26.10.2001
© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Literatur
Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited
Ferber, Reginald (2003) Information Retrieval. Suchmodelle und Data-Mining-Verfahren für
Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html
frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99
Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London.
Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, 129-146
32© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Copyright
© Karin Haenelt, 2006All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below. Please quote correctly.
If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.).
please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted
if slides are copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Vektormodell.
Kursfolien. 25.10.2009 (1 26.10.2001) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_Vektor.pdf
graphics, texts or other objects which have not been created by me are marked as quotations
For commercial use: In case you are interested in commercial use please contact the author.
Court of Jurisdiction is Darmstadt, Germany
33© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Recommended