Upload
dietlinde-heist
View
106
Download
0
Embed Size (px)
Citation preview
From Bits to Information —Maschinelle Lernverfahren in
Information Retrieval und Web MiningThomas HofmannDepartment of Computer ScienceBrown University(Founder, CEO & Chief Scientist,RecomMind Inc., Berkeley & Rheinbach (!))
In Kollaboration mit:
David Cohen, CMU & Burning GlassJan Puzicha, UC Berkeley & RecomMindDavid Gondek & Ioannis Tsochantaridis, Brown University
2University of Bonn, 17. Juli 2001
Vortragsüberblick
1. Einleitung2. Vektorraum-Modell für Textdokumente3. Informationstheoretisches Retrieval
Modell4. Probabilistic Latent Semantic Analysis5. Informationssuche und
Textkategorisierung6. Hypermedia- & Web-Retrieval7. Kollaboratives Filtern8. Ausblick
1. Information Retrieval: Probleme & Herausforderungen
3
4University of Bonn, 17. Juli 2001
Robustes Information Retrieval — Jenseits der keyword-basierten Suche
“labour immigrants Germany”
query
match
“German job market for immigrants”query
?
“foreign workers in Germany”query
?
“green card Germany”query
?
AkustischesSignal
AutomatischeSpracherkennung
“labour immigrants Germany”
query
match
“German job market for immigrants”query
?
“foreign workers in Germany”query
?
“green card Germany”query
?
FehlerbehafteteTranskription
outrage
sink
Anchorage
there warfa
re
5University of Bonn, 17. Juli 2001
Linkanalyse mittels Markov-ketten Modell (Random Walk auf Web Graph)
mittlere Aufenthaltswahr-scheinlichkeit entspricht PageRank
Hypermedia Retrieval — Linkanalyse und die Qualität von Informationsquellen
6University of Bonn, 17. Juli 2001
Dokument-Klassifikation & Text Mining
Visualisierung von Taxonomien
© Inxight
Generierung & Wartungvon Taxonomien
Automatische Klassifikation undAnnotation von Dokumenten
M13 = MONEY MARKETS
M132 = FOREX MARKETS
MCAT = MARKETS
7University of Bonn, 17. Juli 2001
Kollaboratives Filtern —
Jenseits der solipsistischen Suche
NNBenutzerprofil
Benutzerprofil
? Empfehlung ?
8University of Bonn, 17. Juli 2001
Multimedia Dokumente User Community
Datenbank mitBenutzerprofilen
UserID
ItemID
Rating
10002
451 3
10221
647 4
10245
647 2
12344
801 5
… … …Rating
Kollaboratives Filtern — Jenseits der solipsistischen Suche
2. Vektorraum-Modell für Textdokumente
9
10University of Bonn, 17. Juli 2001
Dokument-Term Matrix
d i
w jintelligence
w1 ... w j ... w J
d1
...
d i
...
d I
D
W
...
...
...
... ),( ji wdc
Texas Instruments said it has developed the first 32-bit computer chip designed specifically for artificial intelligence applications [...]
D = DokumentensammlungW = Lexikon/Vokabular
Dokument-Term Matrix
...
art
ifici
al
1
inte
llig
ence
inte
rest
0
art
ifact
0 ...... 2t
=d i
11University of Bonn, 17. Juli 2001
Dokument-Term Matrix (b)
0
1
0
2
Typisch: • Zahl der Dokumente 1.000.000• Vokabular 100.000• Spärlichkeit < 0.1 %• Dargestellt
1e-8
12University of Bonn, 17. Juli 2001
Ähnlichkeit zwischenDokument und Query
Vektorraum-Modell
Retrieval Modell Dokumente werde
gemäß ihrer Ähnlichkeit zur Query sortiert
Verwendung im SMART System und vielen kommerziellen Systemen (z.B. Verity)
00.2
0.40.6
0.8
1
0
0.2
0.4
0.6
0.8
10
0.2
0.4
0.6
0.8
1
0.75
0.64
Kosinus des Winkels zwischen Query und Dokument(en)
qd
qdqdqdsim
,),(cos),(
G. Salton, “The SMART Retrieval System – Experiments in Automatic Document Processing”, 1971.
13University of Bonn, 17. Juli 2001
Vektorraum-Modell: Diskussion
Vorteile Partielles Matching von Anfragen und
Dokumenten Ranking gemäß des Ähnlichkeitsmaßes
Nachteile: Dimensionalität („curse of dimensionality”) Spärlichkeit (inneres Produkt ist rauschanfällig) Semantik: Auftreten von exakt identischen
Termen gefordert, semantische Beziehungen zwischen Wörtern werden nicht modelliert
Syntaktische/semantische Regularitäten bleiben unberücksichtigt
3. Informationstheoretisches Retrieval-Modell
14
15University of Bonn, 17. Juli 2001
Lexikale Semantik –Synonymien und Polysemien
Semantische Ähnlichkeit (Synonymie)
Verschiedene Wörter/Terme haben oft die identische oder sehr ähnliche Bedeutung (schwächer: Wörter aus dem gleichen Themengebiet).
Mehrdeutigkeit von Wörtern (Polysemie)
Wörter haben oftmals eine Vielzahl von Bedeutungen und verschiedenartige Gebrauchsformen (insbesondere für heterogene Datenbestände). )q,d(cos)q,d(sim
MarsPlanetröm. GottheitSchokoriegel
)q,d(cos)q,d(sim
GalaxieMilchstraßeUniversumKosmos
16University of Bonn, 17. Juli 2001
Dokumente als Informationsquellen
w1 ... w j ... w J
d1
...
d i
...
d I
D
W
...
...
...
... )w,d(c ji
“Wirkliches” Dokument: empirische relative Wort-Häufigkeiten
)d(c
)w,d(c)d|w(P̂ Stichprobe
(sample)
andere Dokumente?)d|w(P
“Ideales” Dokument: (gedächtnislose) Informations-quelle
D = Dokumentensammlung
W = Lexikon/Vokabular
17University of Bonn, 17. Juli 2001
Das Sprachmodell-“Spiel”
intellectual propertynegotiations
Zielsetzung: Vorhersage der zugedeckten Wörter basierend auf dem Kontext
UStrade
economic
development
Beijing
human rights
free imports
China
UStrade
economic
intellectual property
development
Beijinghuman rights
free
negotiations
imports
?
Gegeben ist ein Dokument („bag-of-words“ Repräsentation) in dem einige Wörter zugedeckt sind.
Semantic model
Grundidee: Gute Vorhersage-genauigkeit erfordert ein Modell das Wortsemantik berücksichtigt
18University of Bonn, 17. Juli 2001
Informationsquellen-Modell des Information Retrievals
Bayessche Regel: Wahrscheinlichkeit der Relevanz eines Dokuments bzgl. einer Anfrage
)d(P)d|q(P)q|d(P A priori Relevanz-Wahrscheinlichkeit
Generatives Query Modell
• Wahrscheinlichkeit daß q von d „erzeugt wurde”
qw
)d|w(P)d|q(P
Sprach- modell
J. Ponte & W.B. Croft, ”A Language Model Approach to Information Retrieval”, SIGIR 1998.
4. Probabilistic Latent Semantic Analysis
19
20University of Bonn, 17. Juli 2001
Probabilistic Latent Semantic Analysis
Problemstellung: Wie können dokument-spezfische “Sprachmodelle” gelernt werden? Datenmangel!
Ansatz: pLSA Dimensionsreduktionstechnik für Kontingenztabellen Faktoranalyse für Zählvariablen (und kategorialen
Variablen) Faktoren Konzepten / Themengebieten
z
d)|P(zz)|P(wd)|P(w
(Topic) Faktor-“quellen”
DokumentspezifischeMischproportionen
Dokument-“quellen” Latente Variable
z (“small” #states)
T. Hofmann, “Probabilistic Latent Semantic Analysis”, UAI 1999.Z. Gilula, M.J. Evans, I. Guttman, "Latent Class Analysis of Two-Way Contingency Tables by Bayesian Methods" Biometrika, 1989.
z
)z(P)z|P(dz)|P(w)dP(w,
21University of Bonn, 17. Juli 2001
docu
men
tco
llect
ion
single documentin collection
word occurrences
in a document
pLSA: Graphisches Modell
z
wc(d)
P(w|d) P(w|z) P(z|d)z
colle
ctio
n
N
wc(d)
P(z|d)
z
N
wc(d)
P(z|d)
z
P(w|z)
N
wc(d)
P(z|d)
z
shared by all words in a document
shared by all documents in
collection
P(w|z)
Graphische Darstellung mittels „Plates”
22University of Bonn, 17. Juli 2001
pLSA: „Bottleneck“ Parametrisierung
Dokumente
Termed)|P(w
)1|W(||D|
23University of Bonn, 17. Juli 2001
pLSA: „Bottleneck“ Parametrisierung
Dokumente
TermeLatente Konzepte
d)|zP( )z|wP(
)1|Z(||D| )1|W(||Z| |}W||,Dmin{||Z|
24University of Bonn, 17. Juli 2001
pLSA: Positive Matrix-Zerlegung
Mischverteilung in Matrixnotation
CPPC~t
wd diag(P( ),..., P( ))z zK1
)z|dP()( kik,id P
)z|wP()( kjk,jw P
Randbedingungen (constraints) Nicht-negativität aller Matrizen
Normalisierung gemäß der L1-Norm
(keine Orthogonalität gefordert!)
T. Hofmannn, „Probabilistic Lantent Semantic Analysis“, Uncertainty in Artificial Intelligence 1999.D.D. Lee & H.S. Seung, „Learning the parts of objects by non-negative matrix factorization”, Nature, 1999.
z
)z(P)z|P(dz)|P(w)dP(w,
25University of Bonn, 17. Juli 2001
Singulärwert-Zerlegung, Definition
: orthonormale Spalten : Diagonal mit Singulärwerten (geordnet)
Eigenschaften: Existenz & Eindeutigkeit Schwellwertbildung über Singulärwerte resultiert in
einer niederdimensionalen Approximation (im Sinne der Frobenius Norm)
Vergleich: SVD
VU,
tVUC = X Xn X m n X n n X n n X m
tˆˆ VUC = X Xn X m n X k k X k k X m
S. Deerwester, S. Dumais, G. Furnas, T. Landauer & R. Harshman. „Indexing by latent semantic analysis.“ Journal of the American Society for Information Science, 1990
26University of Bonn, 17. Juli 2001
Expectation-Maximization-Algorithmus
Maximierung der (temperierten) Log-Likelihood mittels Expectation-Maximization Iterationen
E-Schritt: Posterior-Wahrscheinlichkeiten der latenten Variablen)
M-Schritt: Schätzung der Parameter basierend auf „vervollständigten Statistiken”
d
),w,d|zP()w,d(c)z|wP(
Wahrsch. daß ein Term w in Dokument d durch Konzept z „erklärt“ wird
w
) w, d| z P( ) w, d(c ) d| z P(
'z
))'z|wP()d|'zP(
)z|wP()d|zP()w,d|zP(
j,i z
ijijj,i
ijij )d|z(P)z|w(Plogcc~logcL
27University of Bonn, 17. Juli 2001
Beispiel: TDT1 News Stories
TDT1 = Dokumentensammlung mit >16,000 Kurznachrichten (Reuters, CNN, aus den Jahren 1994/95)
Resultate basierend auf einer Zerlegung mit 128 Konzepten
2 dominante Faktoren für “flight“ und “love“ (wahrscheinlichsten Wörter)
“love”
homefamilylikejustkidsmotherlifehappyfriendscnn
film moviemusicnewbesthollywoodloveactorentertainmentstar
“flight”
planeairportcrashflightsafetyaircraftairpassengerboardairline
spaceshuttlemissionastronautslaunchstationcrewnasasatelliteearth
P(w
|z)
28University of Bonn, 17. Juli 2001
Beispiel: Science Magazine Artikel
Datensatz mit ca.12K Artikeln aus dem Science Magazine Ausgewählte Konzepte eines Modells mit K=200
P(w
|z)
P(w
|z)
5. Informationssuche & Textkategorisierung
29
30University of Bonn, 17. Juli 2001
0 50 1000
10
20
30
40
50
60
70
80
90
MED
recall [%]
pre
cisi
on
[%]
0 50 1000
10
20
30
40
50
60
70
CRAN
recall [%]0 50 100
0
10
20
30
40
50
60
CACM
recall [%]0 50 100
0
5
10
15
20
25
30
35
40
45
50
CISI
recall [%]
cosLSIPLSI*
cosLSIPLSI*
cosLSIPLSI*
cosLSIPLSI*
Experiments: Precison-Recall
4 test collections (each with approx.1000- 3500 docs)
31University of Bonn, 17. Juli 2001
Experimentelle Auswertung
0
10
20
30
40
50
60
70
80
Medline CRAN CACM CISI
VSMLSAPLSA
Ave
rag
e P
reci
sion
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
Medline CRAN CACM CISI
VSM
LSA
PLSA
Rel
ativ
e G
ain
in A
vera
ge P
rec.
Zusammenfassung der quantitativen Auswertung
Konsistente Verbesserung der Retrieval Genauigkeit
Relative Verbesserung von 15-45%
32University of Bonn, 17. Juli 2001
Textkategorisierung
Support-Vektor-Maschinen mit semantischen Kernfunktionen
Standard-Textsammlung: Reuters21578 (5 Hauptkategorien), 5% Trainingsdaten mit Labels, 95% Hintergrunddaten
0
1
2
3
4
5
6
7
8
Error%
ear
n
acq
money
grai
n
crude
SVM 5%SVM+ 5%
T. Hofmann, „An information-geometric approach to learning the similarity between documents”, Neural Information Processing Systems, 2000.
Substantielle Ver-besserungen (ca.25%), falls zusätzliche ungelabelte Daten zur Verfügung stehen
33University of Bonn, 17. Juli 2001
Robustes Retrieval in der Praxis
34University of Bonn, 17. Juli 2001
35University of Bonn, 17. Juli 2001
MedlinePlus: Gesundheits-Informationen für Jedermann
36University of Bonn, 17. Juli 2001
Amazon: Verbesserte Büchersuche
build your own search engine
37University of Bonn, 17. Juli 2001
Amazon: Verbesserte Büchersuche
6. Hypermedia Retrieval
38
39University of Bonn, 17. Juli 2001
Hyperlinks in Information Retrieval
Hyperlinks stellen zusätzliche Autor-Annotationen zur Verfügung
Hyperlinks repräsentieren (typischerweise) eine implizite positive Bewertung der referenzierten Quelle
Web-Graph spiegelt soziale Strukturen wider (cyber/virtual/Web communities)
Link-Struktur erlaubt eine Einschätzung der Qualität der Dokumente (page authorithy) Überwindung von reinem inhaltsbasiertem Retrieval Erlaubt (potentiell) die Unterscheidung zwischen
qualitativ hoch- und niederwertigen Web-Sites/Seiten
40University of Bonn, 17. Juli 2001
Random Walk auf Web Graphen Fiktiver Surfer hüpft von Webseite zu Webseite Zufällige Wahl eines Outlinks in jedem Schritt Mit Wahrscheinlichkeit q Teleportation zu einer zufälligen Seite
PageRank: numerischer Score für jede Seite Aufenthaltswahrscheinlichkeit des Surfers
Intuition „Es ist gut viele Inlinks zu haben.“ „Es ist nicht gut in einer abgekapselten Komponente zu sein.“
Modellierung Homogene Markov-Kette PageRank: stationäre Verteilung; Random Walk nutzt
Ergodizität, alternativ über Spektralzerlegung (dominanter Eigenvektor)
41University of Bonn, 17. Juli 2001
HITS (Hyperlink Induced Topic Search)
HITS (Jon Kleinberg und die Smart Gruppe in IBM) Schritt 1: Query-basiertes Retrieval von Resultaten Schritt 2: Generierung eines Kontextgraphen (Links und Backlinks) Schritt 3: Rescoring Methode mit Hub- und Authority-Gewichten
unter Verwendung der Adjazenzmatrix des Kontextgraphen
(Lösung: Linke/rechte Eigenvektoren (SVD))
J. Kleinberg, “Authoritative Sources in a Hyperlinked Environment”, 1998.
E)p,q(:p
)t(p
)1t(q
E)p,q(:q
)t(q
)t(p
xy
yxAuthority-Gewichte
Hub Gewichte
pq
…
…)t(qy )t(
px
qp
…
…)t(px )1t(
qy
42University of Bonn, 17. Juli 2001
Semantisches Modell des WWW
Verstehen des Inhalts Probabilistic latent semantic analysis Automatische Identifikation von Konzepten und
Themengebieten.
Verstehen der Linkstruktur Probabilistisches Graphenmodell = prädiktives
Modell für zusätzliche Links basierend auf vorhandenem Graph
Schätzung der Entropie des Web Graphen (im Sinne eines stochastischen Prozesses)
Basierend auf „Web communities” Probabilistische Version von HITS
43University of Bonn, 17. Juli 2001
Latente Web Communities
)z|s(P )z|t(P
z
)z|t(P)z|s(P)z(P)t,s(P
Probabilistisches Modell
Source Knoten Target Knoten
st
evtl. identisch
Web Community: dichter bipartiter Teilgraph
D. Cohen & T. Hofmann, „The Missing Link – A Probabilistic Models of Document Content and Hypertext Connecivity“, NIPS*2001.
44University of Bonn, 17. Juli 2001
Dekomposition des Web-Graphen
Web Teilgraph Links gehören zu genau einer Web Community (im probab. Sinne)
Web Seiten können zu mehreren Communities gehören
Community 1
Community 2 Community 3
45University of Bonn, 17. Juli 2001
Linking Hyperlinks and Content
Kombination von pLSA und pHITS (probab. HITS) in einem gemeinsamen Modell
w
z
P(z|s)
P(w|z)
Konzept/Topic
P(t|z)
t
Web Community
46University of Bonn, 17. Juli 2001
“Ulysses” Webs: Space, War, and Genius (Helden unerwünscht!)
ulysses 0.022082space 0.015334page 0.013885home 0.011904nasa 0.008915science 0.007417solar 0.007143esa 0.006757mission 0.006090
ulysses.jpl.nasa.gov/ helio.estec.esa.nl/ulysses www.sp.ph.ic.ak.uk/
grant 0.019197s 0.017092ulysses 0.013781online 0.006809war 0.006619school 0.005966poetry 0.005762president 0.005259civil 0.005065www.lib.siu.edu/projects/usgrant/www.whitehouse.gov/WH/glimpse /presidents/ug18.html saints.css.edu/gppg.html
page 0.020032ulysses 0.013361new 0.010455web 0.009060site 0.009009joyce 0.008430net 0.007799teachers 0.007236information 0.007170http://www.purchase.edu/Joyce/Ulysses.htm http://www.bibliomania.com/Fiction/joyce/ulysseshttp://teachers.net/chatroom
Basismenge generiert via Altavista mit Query “Ulysses”
T. Hofmann, SIGIR 2000.
6. Kollaboratives Filteren
47
48University of Bonn, 17. Juli 2001
Vorhersage von Benutzerpräferenzen und -aktionen
Benutzerprofil Dr. Strangelove Three Colors: Blue Fargo Pretty Woman
Rating? Movie? .
49University of Bonn, 17. Juli 2001
Kollaboratives Filtern
Kollaboratives / Soziales Filtern Was tun, wenn Merkmalsextraktion
problematisch ist? (Multimedia-Retrieval, e-Commerce, etc.)
Rückgriff auf Gemeinsamkeiten und Ähnlichkeiten von Interessen zur Verbesserung von Vorhersagen
Verwendung von Benutzerprofildaten (Web logs von Downloads, Transaktionen, Click-Streams, Ratings)
Recommender Systeme – e-commerce
Problemformalisierung Datenrepräsentation: dünn-besetzte Matrix mit
impliziten und/oder expliziten Bewertungen
50University of Bonn, 17. Juli 2001
Kollaboratives Filtern via pLSA
Diskrete Bewertungsskala, z.B. Votes: }5,4,3,2,1,0{v
u y
z v Bewertung v ist unabhängig von der Person u, gegeben den Zustand der latenten Variable z
• Jede Person ist durch eine spezifische W-Verteilung charakterisiert
• Analogie zum IR [Person=Dokument], [Item=Wort]
(Zahl der Sterne)
51University of Bonn, 17. Juli 2001
pLSA vs. Memory-basierte Techniken
Standard-Technik: Memory-basiert Gegeben einen „aktiven Benutzer“, berechne
Korrelation mit allen Benutzerprofilen in der Datenbank (e.g., Pearson Koeffizienten)
Transformation der Korrelation in relative Gewichte Gewichtete (additive) Vorhersage über alle Nachbarn
pLSA Explizite Dekomposition der Benutzerpräferenzen:
Interessen sind inhärent multidimensional keine globale Ähnlichkeitsfunktion zwischen Personen (es kommt auf die Hinsicht an!)
Probabilistisches Modell erlaubt explizite Optimierung der gewünschten Kostenfunktion
Data Mining: Exploration von Benutzer-Daten, Auffinden von Interessensgruppen
52University of Bonn, 17. Juli 2001
EachMovie Datensatz
33.4
35.3
39.941.2
30
32
34
36
38
40
42
Baseline
Memory
PLSA, K=20
PLSA, K=200
EachMovie: >40K Benutzer, >1.6K Filme, >2M Ratings
Experimentelle Auswertung: Vergleich mit Memory-basierten Methoden, leave-one-out Protokoll
Vorhersagegenauigkeit
53University of Bonn, 17. Juli 2001
EachMovie Data Set (II)
Mittlere Absolute Abweichung
Bewertung der Rangordnung: Gewichte fallen exponentiell mit dem Rang in einer Empfehlungsliste
1.09
0.95 0.94
0.910.9
0.95
1
1.05
1.1
Baseline
Memory
PLSA, K=20
PLSA, K=200
26.95 27.89
44.64 45.98
0
10
20
30
40
50
Baseline
Memory
PLSA, K=20
PLSA, K=200
54University of Bonn, 17. Juli 2001
Interessengruppen, Each Movie
55University of Bonn, 17. Juli 2001
Des-Interessengruppen, Each Movie
7. Ausblick
56
57University of Bonn, 17. Juli 2001
Zusammenfassung
Techniken des maschinellen Lernens, insbesondere Verfahren der Matrix Dekomposition, als Grundlagentechnologie des Information Retrieval
Zusammenhang zwischen Modellen mit latenten Variablen und semantischen Datenrepräsentationen
Vielzahl von Anwendungsszenarien von der Informationssuche und der Kategorisierung bis hin zur Analyse von Benutzerprofilen
Potentielle real-world Anwendungen Robustere und genauere Retrieval- und Suchmaschinen Automatische Kategorisierung von Dokumenten Recommender Systeme für e-commerce und für
Information Portals
58University of Bonn, 17. Juli 2001
Laufende Forschungsprojekte
Intelligente Informationsagenten, fokusiertes Web-Crawling [DARPA-TASK Projekt 2000-2002]
Question-Answering Information Retrieval [NSF -Information Technology Research 2001-2003]
Kategorisierung von Multimedia Dokumenten [NSF - Information Technology Research 2000-2002]
Probabilistische Web-Graph Modelle [Internet Archiv]
Generative Modelle zur Kombination von Text und Bildern [NSF – pending]
Intelligente Mensch-Maschinen Schnittstellen zur effizienten Informations-Suche, Navigation und Visualisierung [in Vorbereitung]
Lernen von Konzept-Hierarchien und Integration von existierenden Taxonomien [RecomMind]
Personalisiertes Retrieval Interface: Kombination von Suche und kollaborativem Filtern [RecomMind]
.EDU
TH@RECO
MMIND.COM
The End.
59