From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

From Bits to Information —Maschinelle Lernverfahren in

Information Retrieval und Web MiningThomas HofmannDepartment of Computer ScienceBrown University(Founder, CEO & Chief Scientist,RecomMind Inc., Berkeley & Rheinbach (!))

In Kollaboration mit:

David Cohen, CMU & Burning GlassJan Puzicha, UC Berkeley & RecomMindDavid Gondek & Ioannis Tsochantaridis, Brown University

2University of Bonn, 17. Juli 2001

Vortragsüberblick

1. Einleitung2. Vektorraum-Modell für Textdokumente3. Informationstheoretisches Retrieval

Modell4. Probabilistic Latent Semantic Analysis5. Informationssuche und

Textkategorisierung6. Hypermedia- & Web-Retrieval7. Kollaboratives Filtern8. Ausblick

1. Information Retrieval: Probleme & Herausforderungen

3


Robustes Information Retrieval — Jenseits der keyword-basierten Suche

“labour immigrants Germany”

query

match

“German job market for immigrants”query

?

“foreign workers in Germany”query

?

“green card Germany”query

?

AkustischesSignal

AutomatischeSpracherkennung

“labour immigrants Germany”

query

match

“German job market for immigrants”query

?

“foreign workers in Germany”query

?

“green card Germany”query

?

FehlerbehafteteTranskription

outrage

sink

Anchorage

there warfa

re


Linkanalyse mittels Markov-ketten Modell (Random Walk auf Web Graph)

mittlere Aufenthaltswahr-scheinlichkeit entspricht PageRank

Hypermedia Retrieval — Linkanalyse und die Qualität von Informationsquellen


Dokument-Klassifikation & Text Mining

Visualisierung von Taxonomien

© Inxight

Generierung & Wartungvon Taxonomien

Automatische Klassifikation undAnnotation von Dokumenten

M13 = MONEY MARKETS

M132 = FOREX MARKETS

MCAT = MARKETS


Kollaboratives Filtern —

Jenseits der solipsistischen Suche

NNBenutzerprofil

Benutzerprofil

? Empfehlung ?


Multimedia Dokumente User Community

Datenbank mitBenutzerprofilen

UserID

ItemID

Rating

10002

451 3

10221

647 4

10245

647 2

12344

801 5

… … …Rating

Kollaboratives Filtern — Jenseits der solipsistischen Suche

2. Vektorraum-Modell für Textdokumente

9


Dokument-Term Matrix

d i

w jintelligence

w1 ... w j ... w J

d1

...

d i

...

d I

D

W

...

...

...

... ),( ji wdc

Texas Instruments said it has developed the first 32-bit computer chip designed specifically for artificial intelligence applications [...]

D = DokumentensammlungW = Lexikon/Vokabular

Dokument-Term Matrix

...

art

ifici

al

1

inte

llig

ence

inte

rest

0

art

ifact

0 ...... 2t

=d i


Dokument-Term Matrix (b)

0

1

0

2

Typisch: • Zahl der Dokumente 1.000.000• Vokabular 100.000• Spärlichkeit < 0.1 %• Dargestellt

1e-8


Ähnlichkeit zwischenDokument und Query

Vektorraum-Modell

Retrieval Modell Dokumente werde

gemäß ihrer Ähnlichkeit zur Query sortiert

Verwendung im SMART System und vielen kommerziellen Systemen (z.B. Verity)

00.2

0.40.6

0.8

1

0

0.2

0.4

0.6

0.8

10

0.2

0.4

0.6

0.8

1

0.75

0.64

Kosinus des Winkels zwischen Query und Dokument(en)

qd

qdqdqdsim

,),(cos),(

G. Salton, “The SMART Retrieval System – Experiments in Automatic Document Processing”, 1971.


Vektorraum-Modell: Diskussion

Vorteile Partielles Matching von Anfragen und

Dokumenten Ranking gemäß des Ähnlichkeitsmaßes

Nachteile: Dimensionalität („curse of dimensionality”) Spärlichkeit (inneres Produkt ist rauschanfällig) Semantik: Auftreten von exakt identischen

Termen gefordert, semantische Beziehungen zwischen Wörtern werden nicht modelliert

Syntaktische/semantische Regularitäten bleiben unberücksichtigt

3. Informationstheoretisches Retrieval-Modell

14


Lexikale Semantik –Synonymien und Polysemien

Semantische Ähnlichkeit (Synonymie)

Verschiedene Wörter/Terme haben oft die identische oder sehr ähnliche Bedeutung (schwächer: Wörter aus dem gleichen Themengebiet).

Mehrdeutigkeit von Wörtern (Polysemie)

Wörter haben oftmals eine Vielzahl von Bedeutungen und verschiedenartige Gebrauchsformen (insbesondere für heterogene Datenbestände). )q,d(cos)q,d(sim

MarsPlanetröm. GottheitSchokoriegel

)q,d(cos)q,d(sim

GalaxieMilchstraßeUniversumKosmos


Dokumente als Informationsquellen

w1 ... w j ... w J

d1

...

d i

...

d I

D

W

...

...

...

... )w,d(c ji

“Wirkliches” Dokument: empirische relative Wort-Häufigkeiten

)d(c

)w,d(c)d|w(P̂ Stichprobe

(sample)

andere Dokumente?)d|w(P

“Ideales” Dokument: (gedächtnislose) Informations-quelle

D = Dokumentensammlung

W = Lexikon/Vokabular


Das Sprachmodell-“Spiel”

intellectual propertynegotiations

Zielsetzung: Vorhersage der zugedeckten Wörter basierend auf dem Kontext

UStrade

economic

development

Beijing

human rights

free imports

China

UStrade

economic

intellectual property

development

Beijinghuman rights

free

negotiations

imports

?

Gegeben ist ein Dokument („bag-of-words“ Repräsentation) in dem einige Wörter zugedeckt sind.

Semantic model

Grundidee: Gute Vorhersage-genauigkeit erfordert ein Modell das Wortsemantik berücksichtigt


Informationsquellen-Modell des Information Retrievals

Bayessche Regel: Wahrscheinlichkeit der Relevanz eines Dokuments bzgl. einer Anfrage

)d(P)d|q(P)q|d(P A priori Relevanz-Wahrscheinlichkeit

Generatives Query Modell

• Wahrscheinlichkeit daß q von d „erzeugt wurde”

qw

)d|w(P)d|q(P

Sprach- modell

J. Ponte & W.B. Croft, ”A Language Model Approach to Information Retrieval”, SIGIR 1998.

4. Probabilistic Latent Semantic Analysis

19


Probabilistic Latent Semantic Analysis

Problemstellung: Wie können dokument-spezfische “Sprachmodelle” gelernt werden? Datenmangel!

Ansatz: pLSA Dimensionsreduktionstechnik für Kontingenztabellen Faktoranalyse für Zählvariablen (und kategorialen

Variablen) Faktoren Konzepten / Themengebieten

z

d)|P(zz)|P(wd)|P(w

(Topic) Faktor-“quellen”

DokumentspezifischeMischproportionen

Dokument-“quellen” Latente Variable

z (“small” #states)

T. Hofmann, “Probabilistic Latent Semantic Analysis”, UAI 1999.Z. Gilula, M.J. Evans, I. Guttman, "Latent Class Analysis of Two-Way Contingency Tables by Bayesian Methods" Biometrika, 1989.

z

)z(P)z|P(dz)|P(w)dP(w,


docu

men

tco

llect

ion

single documentin collection

word occurrences

in a document

pLSA: Graphisches Modell

z

wc(d)

P(w|d) P(w|z) P(z|d)z

colle

ctio

n

N

wc(d)

P(z|d)

z

N

wc(d)

P(z|d)

z

P(w|z)

N

wc(d)

P(z|d)

z

shared by all words in a document

shared by all documents in

collection

P(w|z)

Graphische Darstellung mittels „Plates”


pLSA: „Bottleneck“ Parametrisierung

Dokumente

Termed)|P(w

)1|W(||D|


pLSA: „Bottleneck“ Parametrisierung

Dokumente

TermeLatente Konzepte

d)|zP( )z|wP(

)1|Z(||D| )1|W(||Z| |}W||,Dmin{||Z|


pLSA: Positive Matrix-Zerlegung

Mischverteilung in Matrixnotation

CPPC~t

wd diag(P( ),..., P( ))z zK1

)z|dP()( kik,id P

)z|wP()( kjk,jw P

Randbedingungen (constraints) Nicht-negativität aller Matrizen

Normalisierung gemäß der L1-Norm

(keine Orthogonalität gefordert!)

T. Hofmannn, „Probabilistic Lantent Semantic Analysis“, Uncertainty in Artificial Intelligence 1999.D.D. Lee & H.S. Seung, „Learning the parts of objects by non-negative matrix factorization”, Nature, 1999.

z

)z(P)z|P(dz)|P(w)dP(w,


Singulärwert-Zerlegung, Definition

: orthonormale Spalten : Diagonal mit Singulärwerten (geordnet)

Eigenschaften: Existenz & Eindeutigkeit Schwellwertbildung über Singulärwerte resultiert in

einer niederdimensionalen Approximation (im Sinne der Frobenius Norm)

Vergleich: SVD

VU,

tVUC = X Xn X m n X n n X n n X m

tˆˆ VUC = X Xn X m n X k k X k k X m

S. Deerwester, S. Dumais, G. Furnas, T. Landauer & R. Harshman. „Indexing by latent semantic analysis.“ Journal of the American Society for Information Science, 1990


Expectation-Maximization-Algorithmus

Maximierung der (temperierten) Log-Likelihood mittels Expectation-Maximization Iterationen

E-Schritt: Posterior-Wahrscheinlichkeiten der latenten Variablen)

M-Schritt: Schätzung der Parameter basierend auf „vervollständigten Statistiken”

d

),w,d|zP()w,d(c)z|wP(

Wahrsch. daß ein Term w in Dokument d durch Konzept z „erklärt“ wird

w

) w, d| z P( ) w, d(c ) d| z P(

'z

))'z|wP()d|'zP(

)z|wP()d|zP()w,d|zP(

j,i z

ijijj,i

ijij )d|z(P)z|w(Plogcc~logcL


Beispiel: TDT1 News Stories

TDT1 = Dokumentensammlung mit >16,000 Kurznachrichten (Reuters, CNN, aus den Jahren 1994/95)

Resultate basierend auf einer Zerlegung mit 128 Konzepten

2 dominante Faktoren für “flight“ und “love“ (wahrscheinlichsten Wörter)

“love”

homefamilylikejustkidsmotherlifehappyfriendscnn

film moviemusicnewbesthollywoodloveactorentertainmentstar

“flight”

planeairportcrashflightsafetyaircraftairpassengerboardairline

spaceshuttlemissionastronautslaunchstationcrewnasasatelliteearth

P(w

|z)


Beispiel: Science Magazine Artikel

Datensatz mit ca.12K Artikeln aus dem Science Magazine Ausgewählte Konzepte eines Modells mit K=200

P(w

|z)

P(w

|z)

5. Informationssuche & Textkategorisierung

29


0 50 1000

10

20

30

40

50

60

70

80

90

MED

recall [%]

pre

cisi

on

[%]

0 50 1000

10

20

30

40

50

60

70

CRAN

recall [%]0 50 100

0

10

20

30

40

50

60

CACM

recall [%]0 50 100

0

5

10

15

20

25

30

35

40

45

50

CISI

recall [%]

cosLSIPLSI*

cosLSIPLSI*

cosLSIPLSI*

cosLSIPLSI*

Experiments: Precison-Recall

4 test collections (each with approx.1000- 3500 docs)


Experimentelle Auswertung

0

10

20

30

40

50

60

70

80

Medline CRAN CACM CISI

VSMLSAPLSA

Ave

rag

e P

reci

sion

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Medline CRAN CACM CISI

VSM

LSA

PLSA

Rel

ativ

e G

ain

in A

vera

ge P

rec.

Zusammenfassung der quantitativen Auswertung

Konsistente Verbesserung der Retrieval Genauigkeit

Relative Verbesserung von 15-45%


Textkategorisierung

Support-Vektor-Maschinen mit semantischen Kernfunktionen

Standard-Textsammlung: Reuters21578 (5 Hauptkategorien), 5% Trainingsdaten mit Labels, 95% Hintergrunddaten

0

1

2

3

4

5

6

7

8

Error%

ear

n

acq

money

grai

n

crude

SVM 5%SVM+ 5%

T. Hofmann, „An information-geometric approach to learning the similarity between documents”, Neural Information Processing Systems, 2000.

Substantielle Ver-besserungen (ca.25%), falls zusätzliche ungelabelte Daten zur Verfügung stehen


Robustes Retrieval in der Praxis



MedlinePlus: Gesundheits-Informationen für Jedermann


Amazon: Verbesserte Büchersuche

build your own search engine


Amazon: Verbesserte Büchersuche

6. Hypermedia Retrieval

38


Hyperlinks in Information Retrieval

Hyperlinks stellen zusätzliche Autor-Annotationen zur Verfügung

Hyperlinks repräsentieren (typischerweise) eine implizite positive Bewertung der referenzierten Quelle

Web-Graph spiegelt soziale Strukturen wider (cyber/virtual/Web communities)

Link-Struktur erlaubt eine Einschätzung der Qualität der Dokumente (page authorithy) Überwindung von reinem inhaltsbasiertem Retrieval Erlaubt (potentiell) die Unterscheidung zwischen

qualitativ hoch- und niederwertigen Web-Sites/Seiten


Random Walk auf Web Graphen Fiktiver Surfer hüpft von Webseite zu Webseite Zufällige Wahl eines Outlinks in jedem Schritt Mit Wahrscheinlichkeit q Teleportation zu einer zufälligen Seite

PageRank: numerischer Score für jede Seite Aufenthaltswahrscheinlichkeit des Surfers

Intuition „Es ist gut viele Inlinks zu haben.“ „Es ist nicht gut in einer abgekapselten Komponente zu sein.“

Modellierung Homogene Markov-Kette PageRank: stationäre Verteilung; Random Walk nutzt

Ergodizität, alternativ über Spektralzerlegung (dominanter Eigenvektor)


HITS (Hyperlink Induced Topic Search)

HITS (Jon Kleinberg und die Smart Gruppe in IBM) Schritt 1: Query-basiertes Retrieval von Resultaten Schritt 2: Generierung eines Kontextgraphen (Links und Backlinks) Schritt 3: Rescoring Methode mit Hub- und Authority-Gewichten

unter Verwendung der Adjazenzmatrix des Kontextgraphen

(Lösung: Linke/rechte Eigenvektoren (SVD))

J. Kleinberg, “Authoritative Sources in a Hyperlinked Environment”, 1998.

E)p,q(:p

)t(p

)1t(q

E)p,q(:q

)t(q

)t(p

xy

yxAuthority-Gewichte

Hub Gewichte

pq

…

…)t(qy )t(

px

qp

…

…)t(px )1t(

qy


Semantisches Modell des WWW

Verstehen des Inhalts Probabilistic latent semantic analysis Automatische Identifikation von Konzepten und

Themengebieten.

Verstehen der Linkstruktur Probabilistisches Graphenmodell = prädiktives

Modell für zusätzliche Links basierend auf vorhandenem Graph

Schätzung der Entropie des Web Graphen (im Sinne eines stochastischen Prozesses)

Basierend auf „Web communities” Probabilistische Version von HITS


Latente Web Communities

)z|s(P )z|t(P

z

)z|t(P)z|s(P)z(P)t,s(P

Probabilistisches Modell

Source Knoten Target Knoten

st

evtl. identisch

Web Community: dichter bipartiter Teilgraph

D. Cohen & T. Hofmann, „The Missing Link – A Probabilistic Models of Document Content and Hypertext Connecivity“, NIPS*2001.


Dekomposition des Web-Graphen

Web Teilgraph Links gehören zu genau einer Web Community (im probab. Sinne)

Web Seiten können zu mehreren Communities gehören

Community 1

Community 2 Community 3


Linking Hyperlinks and Content

Kombination von pLSA und pHITS (probab. HITS) in einem gemeinsamen Modell

w

z

P(z|s)

P(w|z)

Konzept/Topic

P(t|z)

t

Web Community


“Ulysses” Webs: Space, War, and Genius (Helden unerwünscht!)

ulysses 0.022082space 0.015334page 0.013885home 0.011904nasa 0.008915science 0.007417solar 0.007143esa 0.006757mission 0.006090

ulysses.jpl.nasa.gov/ helio.estec.esa.nl/ulysses www.sp.ph.ic.ak.uk/

grant 0.019197s 0.017092ulysses 0.013781online 0.006809war 0.006619school 0.005966poetry 0.005762president 0.005259civil 0.005065www.lib.siu.edu/projects/usgrant/www.whitehouse.gov/WH/glimpse /presidents/ug18.html saints.css.edu/gppg.html

page 0.020032ulysses 0.013361new 0.010455web 0.009060site 0.009009joyce 0.008430net 0.007799teachers 0.007236information 0.007170http://www.purchase.edu/Joyce/Ulysses.htm http://www.bibliomania.com/Fiction/joyce/ulysseshttp://teachers.net/chatroom

Basismenge generiert via Altavista mit Query “Ulysses”

T. Hofmann, SIGIR 2000.

6. Kollaboratives Filteren

47


Vorhersage von Benutzerpräferenzen und -aktionen

Benutzerprofil Dr. Strangelove Three Colors: Blue Fargo Pretty Woman

Rating? Movie? .


Kollaboratives Filtern

Kollaboratives / Soziales Filtern Was tun, wenn Merkmalsextraktion

problematisch ist? (Multimedia-Retrieval, e-Commerce, etc.)

Rückgriff auf Gemeinsamkeiten und Ähnlichkeiten von Interessen zur Verbesserung von Vorhersagen

Verwendung von Benutzerprofildaten (Web logs von Downloads, Transaktionen, Click-Streams, Ratings)

Recommender Systeme – e-commerce

Problemformalisierung Datenrepräsentation: dünn-besetzte Matrix mit

impliziten und/oder expliziten Bewertungen


Kollaboratives Filtern via pLSA

Diskrete Bewertungsskala, z.B. Votes: }5,4,3,2,1,0{v

u y

z v Bewertung v ist unabhängig von der Person u, gegeben den Zustand der latenten Variable z

• Jede Person ist durch eine spezifische W-Verteilung charakterisiert

• Analogie zum IR [Person=Dokument], [Item=Wort]

(Zahl der Sterne)


pLSA vs. Memory-basierte Techniken

Standard-Technik: Memory-basiert Gegeben einen „aktiven Benutzer“, berechne

Korrelation mit allen Benutzerprofilen in der Datenbank (e.g., Pearson Koeffizienten)

Transformation der Korrelation in relative Gewichte Gewichtete (additive) Vorhersage über alle Nachbarn

pLSA Explizite Dekomposition der Benutzerpräferenzen:

Interessen sind inhärent multidimensional keine globale Ähnlichkeitsfunktion zwischen Personen (es kommt auf die Hinsicht an!)

Probabilistisches Modell erlaubt explizite Optimierung der gewünschten Kostenfunktion

Data Mining: Exploration von Benutzer-Daten, Auffinden von Interessensgruppen


EachMovie Datensatz

33.4

35.3

39.941.2

30

32

34

36

38

40

42

Baseline

Memory

PLSA, K=20

PLSA, K=200

EachMovie: >40K Benutzer, >1.6K Filme, >2M Ratings

Experimentelle Auswertung: Vergleich mit Memory-basierten Methoden, leave-one-out Protokoll

Vorhersagegenauigkeit


EachMovie Data Set (II)

Mittlere Absolute Abweichung

Bewertung der Rangordnung: Gewichte fallen exponentiell mit dem Rang in einer Empfehlungsliste

1.09

0.95 0.94

0.910.9

0.95

1

1.05

1.1

Baseline

Memory

PLSA, K=20

PLSA, K=200

26.95 27.89

44.64 45.98

0

10

20

30

40

50

Baseline

Memory

PLSA, K=20

PLSA, K=200


Interessengruppen, Each Movie


Des-Interessengruppen, Each Movie

7. Ausblick

56


Zusammenfassung

Techniken des maschinellen Lernens, insbesondere Verfahren der Matrix Dekomposition, als Grundlagentechnologie des Information Retrieval

Zusammenhang zwischen Modellen mit latenten Variablen und semantischen Datenrepräsentationen

Vielzahl von Anwendungsszenarien von der Informationssuche und der Kategorisierung bis hin zur Analyse von Benutzerprofilen

Potentielle real-world Anwendungen Robustere und genauere Retrieval- und Suchmaschinen Automatische Kategorisierung von Dokumenten Recommender Systeme für e-commerce und für

Information Portals


Laufende Forschungsprojekte

Intelligente Informationsagenten, fokusiertes Web-Crawling [DARPA-TASK Projekt 2000-2002]

Question-Answering Information Retrieval [NSF -Information Technology Research 2001-2003]

Kategorisierung von Multimedia Dokumenten [NSF - Information Technology Research 2000-2002]

Probabilistische Web-Graph Modelle [Internet Archiv]

Generative Modelle zur Kombination von Text und Bildern [NSF – pending]

Intelligente Mensch-Maschinen Schnittstellen zur effizienten Informations-Suche, Navigation und Visualisierung [in Vorbereitung]

Lernen von Konzept-Hierarchien und Integration von existierenden Taxonomien [RecomMind]

Personalisiertes Retrieval Interface: Kombination von Suche und kollaborativem Filtern [RecomMind]

[email protected]

.EDU

TH@RECO

MMIND.COM

The End.

59

Documents

From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University