59
From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University (Founder, CEO & Chief Scientist, RecomMind Inc., Berkeley & Rheinbach (!)) In Kollaboration mit : David Cohen, CMU & Burning Glass Jan Puzicha, UC Berkeley & RecomMind David Gondek & Ioannis Tsochantaridis, Brown University

From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

Embed Size (px)

Citation preview

Page 1: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

From Bits to Information —Maschinelle Lernverfahren in

Information Retrieval und Web MiningThomas HofmannDepartment of Computer ScienceBrown University(Founder, CEO & Chief Scientist,RecomMind Inc., Berkeley & Rheinbach (!))

In Kollaboration mit:

David Cohen, CMU & Burning GlassJan Puzicha, UC Berkeley & RecomMindDavid Gondek & Ioannis Tsochantaridis, Brown University

Page 2: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

2University of Bonn, 17. Juli 2001

Vortragsüberblick

1. Einleitung2. Vektorraum-Modell für Textdokumente3. Informationstheoretisches Retrieval

Modell4. Probabilistic Latent Semantic Analysis5. Informationssuche und

Textkategorisierung6. Hypermedia- & Web-Retrieval7. Kollaboratives Filtern8. Ausblick

Page 3: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

1. Information Retrieval: Probleme & Herausforderungen

3

Page 4: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

4University of Bonn, 17. Juli 2001

Robustes Information Retrieval — Jenseits der keyword-basierten Suche

“labour immigrants Germany”

query

match

“German job market for immigrants”query

?

“foreign workers in Germany”query

?

“green card Germany”query

?

AkustischesSignal

AutomatischeSpracherkennung

“labour immigrants Germany”

query

match

“German job market for immigrants”query

?

“foreign workers in Germany”query

?

“green card Germany”query

?

FehlerbehafteteTranskription

outrage

sink

Anchorage

there warfa

re

Page 5: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

5University of Bonn, 17. Juli 2001

Linkanalyse mittels Markov-ketten Modell (Random Walk auf Web Graph)

mittlere Aufenthaltswahr-scheinlichkeit entspricht PageRank

Hypermedia Retrieval — Linkanalyse und die Qualität von Informationsquellen

Page 6: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

6University of Bonn, 17. Juli 2001

Dokument-Klassifikation & Text Mining

Visualisierung von Taxonomien

© Inxight

Generierung & Wartungvon Taxonomien

Automatische Klassifikation undAnnotation von Dokumenten

M13 = MONEY MARKETS

M132 = FOREX MARKETS

MCAT = MARKETS

Page 7: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

7University of Bonn, 17. Juli 2001

Kollaboratives Filtern —

Jenseits der solipsistischen Suche

NNBenutzerprofil

Benutzerprofil

? Empfehlung ?

Page 8: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

8University of Bonn, 17. Juli 2001

Multimedia Dokumente User Community

Datenbank mitBenutzerprofilen

UserID

ItemID

Rating

10002

451 3

10221

647 4

10245

647 2

12344

801 5

… … …Rating

Kollaboratives Filtern — Jenseits der solipsistischen Suche

Page 9: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

2. Vektorraum-Modell für Textdokumente

9

Page 10: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

10University of Bonn, 17. Juli 2001

Dokument-Term Matrix

d i

w jintelligence

w1 ... w j ... w J

d1

...

d i

...

d I

D

W

...

...

...

... ),( ji wdc

Texas Instruments said it has developed the first 32-bit computer chip designed specifically for artificial intelligence applications [...]

D = DokumentensammlungW = Lexikon/Vokabular

Dokument-Term Matrix

...

art

ifici

al

1

inte

llig

ence

inte

rest

0

art

ifact

0 ...... 2t

=d i

Page 11: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

11University of Bonn, 17. Juli 2001

Dokument-Term Matrix (b)

0

1

0

2

Typisch: • Zahl der Dokumente 1.000.000• Vokabular 100.000• Spärlichkeit < 0.1 %• Dargestellt

1e-8

Page 12: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

12University of Bonn, 17. Juli 2001

Ähnlichkeit zwischenDokument und Query

Vektorraum-Modell

Retrieval Modell Dokumente werde

gemäß ihrer Ähnlichkeit zur Query sortiert

Verwendung im SMART System und vielen kommerziellen Systemen (z.B. Verity)

00.2

0.40.6

0.8

1

0

0.2

0.4

0.6

0.8

10

0.2

0.4

0.6

0.8

1

0.75

0.64

Kosinus des Winkels zwischen Query und Dokument(en)

qd

qdqdqdsim

,),(cos),(

G. Salton, “The SMART Retrieval System – Experiments in Automatic Document Processing”, 1971.

Page 13: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

13University of Bonn, 17. Juli 2001

Vektorraum-Modell: Diskussion

Vorteile Partielles Matching von Anfragen und

Dokumenten Ranking gemäß des Ähnlichkeitsmaßes

Nachteile: Dimensionalität („curse of dimensionality”) Spärlichkeit (inneres Produkt ist rauschanfällig) Semantik: Auftreten von exakt identischen

Termen gefordert, semantische Beziehungen zwischen Wörtern werden nicht modelliert

Syntaktische/semantische Regularitäten bleiben unberücksichtigt

Page 14: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

3. Informationstheoretisches Retrieval-Modell

14

Page 15: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

15University of Bonn, 17. Juli 2001

Lexikale Semantik –Synonymien und Polysemien

Semantische Ähnlichkeit (Synonymie)

Verschiedene Wörter/Terme haben oft die identische oder sehr ähnliche Bedeutung (schwächer: Wörter aus dem gleichen Themengebiet).

Mehrdeutigkeit von Wörtern (Polysemie)

Wörter haben oftmals eine Vielzahl von Bedeutungen und verschiedenartige Gebrauchsformen (insbesondere für heterogene Datenbestände). )q,d(cos)q,d(sim

MarsPlanetröm. GottheitSchokoriegel

)q,d(cos)q,d(sim

GalaxieMilchstraßeUniversumKosmos

Page 16: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

16University of Bonn, 17. Juli 2001

Dokumente als Informationsquellen

w1 ... w j ... w J

d1

...

d i

...

d I

D

W

...

...

...

... )w,d(c ji

“Wirkliches” Dokument: empirische relative Wort-Häufigkeiten

)d(c

)w,d(c)d|w(P̂ Stichprobe

(sample)

andere Dokumente?)d|w(P

“Ideales” Dokument: (gedächtnislose) Informations-quelle

D = Dokumentensammlung

W = Lexikon/Vokabular

Page 17: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

17University of Bonn, 17. Juli 2001

Das Sprachmodell-“Spiel”

intellectual propertynegotiations

Zielsetzung: Vorhersage der zugedeckten Wörter basierend auf dem Kontext

UStrade

economic

development

Beijing

human rights

free imports

China

UStrade

economic

intellectual property

development

Beijinghuman rights

free

negotiations

imports

?

Gegeben ist ein Dokument („bag-of-words“ Repräsentation) in dem einige Wörter zugedeckt sind.

Semantic model

Grundidee: Gute Vorhersage-genauigkeit erfordert ein Modell das Wortsemantik berücksichtigt

Page 18: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

18University of Bonn, 17. Juli 2001

Informationsquellen-Modell des Information Retrievals

Bayessche Regel: Wahrscheinlichkeit der Relevanz eines Dokuments bzgl. einer Anfrage

)d(P)d|q(P)q|d(P A priori Relevanz-Wahrscheinlichkeit

Generatives Query Modell

• Wahrscheinlichkeit daß q von d „erzeugt wurde”

qw

)d|w(P)d|q(P

Sprach- modell

J. Ponte & W.B. Croft, ”A Language Model Approach to Information Retrieval”, SIGIR 1998.

Page 19: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

4. Probabilistic Latent Semantic Analysis

19

Page 20: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

20University of Bonn, 17. Juli 2001

Probabilistic Latent Semantic Analysis

Problemstellung: Wie können dokument-spezfische “Sprachmodelle” gelernt werden? Datenmangel!

Ansatz: pLSA Dimensionsreduktionstechnik für Kontingenztabellen Faktoranalyse für Zählvariablen (und kategorialen

Variablen) Faktoren Konzepten / Themengebieten

z

d)|P(zz)|P(wd)|P(w

(Topic) Faktor-“quellen”

DokumentspezifischeMischproportionen

Dokument-“quellen” Latente Variable

z (“small” #states)

T. Hofmann, “Probabilistic Latent Semantic Analysis”, UAI 1999.Z. Gilula, M.J. Evans, I. Guttman, "Latent Class Analysis of Two-Way Contingency Tables by Bayesian Methods" Biometrika, 1989.

z

)z(P)z|P(dz)|P(w)dP(w,

Page 21: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

21University of Bonn, 17. Juli 2001

docu

men

tco

llect

ion

single documentin collection

word occurrences

in a document

pLSA: Graphisches Modell

z

wc(d)

P(w|d) P(w|z) P(z|d)z

colle

ctio

n

N

wc(d)

P(z|d)

z

N

wc(d)

P(z|d)

z

P(w|z)

N

wc(d)

P(z|d)

z

shared by all words in a document

shared by all documents in

collection

P(w|z)

Graphische Darstellung mittels „Plates”

Page 22: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

22University of Bonn, 17. Juli 2001

pLSA: „Bottleneck“ Parametrisierung

Dokumente

Termed)|P(w

)1|W(||D|

Page 23: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

23University of Bonn, 17. Juli 2001

pLSA: „Bottleneck“ Parametrisierung

Dokumente

TermeLatente Konzepte

d)|zP( )z|wP(

)1|Z(||D| )1|W(||Z| |}W||,Dmin{||Z|

Page 24: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

24University of Bonn, 17. Juli 2001

pLSA: Positive Matrix-Zerlegung

Mischverteilung in Matrixnotation

CPPC~t

wd diag(P( ),..., P( ))z zK1

)z|dP()( kik,id P

)z|wP()( kjk,jw P

Randbedingungen (constraints) Nicht-negativität aller Matrizen

Normalisierung gemäß der L1-Norm

(keine Orthogonalität gefordert!)

T. Hofmannn, „Probabilistic Lantent Semantic Analysis“, Uncertainty in Artificial Intelligence 1999.D.D. Lee & H.S. Seung, „Learning the parts of objects by non-negative matrix factorization”, Nature, 1999.

z

)z(P)z|P(dz)|P(w)dP(w,

Page 25: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

25University of Bonn, 17. Juli 2001

Singulärwert-Zerlegung, Definition

: orthonormale Spalten : Diagonal mit Singulärwerten (geordnet)

Eigenschaften: Existenz & Eindeutigkeit Schwellwertbildung über Singulärwerte resultiert in

einer niederdimensionalen Approximation (im Sinne der Frobenius Norm)

Vergleich: SVD

VU,

tVUC = X Xn X m n X n n X n n X m

tˆˆ VUC = X Xn X m n X k k X k k X m

S. Deerwester, S. Dumais, G. Furnas, T. Landauer & R. Harshman. „Indexing by latent semantic analysis.“ Journal of the American Society for Information Science, 1990

Page 26: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

26University of Bonn, 17. Juli 2001

Expectation-Maximization-Algorithmus

Maximierung der (temperierten) Log-Likelihood mittels Expectation-Maximization Iterationen

E-Schritt: Posterior-Wahrscheinlichkeiten der latenten Variablen)

M-Schritt: Schätzung der Parameter basierend auf „vervollständigten Statistiken”

d

),w,d|zP()w,d(c)z|wP(

Wahrsch. daß ein Term w in Dokument d durch Konzept z „erklärt“ wird

w

) w, d| z P( ) w, d(c ) d| z P(

'z

))'z|wP()d|'zP(

)z|wP()d|zP()w,d|zP(

j,i z

ijijj,i

ijij )d|z(P)z|w(Plogcc~logcL

Page 27: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

27University of Bonn, 17. Juli 2001

Beispiel: TDT1 News Stories

TDT1 = Dokumentensammlung mit >16,000 Kurznachrichten (Reuters, CNN, aus den Jahren 1994/95)

Resultate basierend auf einer Zerlegung mit 128 Konzepten

2 dominante Faktoren für “flight“ und “love“ (wahrscheinlichsten Wörter)

“love”

homefamilylikejustkidsmotherlifehappyfriendscnn

film moviemusicnewbesthollywoodloveactorentertainmentstar

“flight”

planeairportcrashflightsafetyaircraftairpassengerboardairline

spaceshuttlemissionastronautslaunchstationcrewnasasatelliteearth

P(w

|z)

Page 28: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

28University of Bonn, 17. Juli 2001

Beispiel: Science Magazine Artikel

Datensatz mit ca.12K Artikeln aus dem Science Magazine Ausgewählte Konzepte eines Modells mit K=200

P(w

|z)

P(w

|z)

Page 29: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

5. Informationssuche & Textkategorisierung

29

Page 30: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

30University of Bonn, 17. Juli 2001

0 50 1000

10

20

30

40

50

60

70

80

90

MED

recall [%]

pre

cisi

on

[%]

0 50 1000

10

20

30

40

50

60

70

CRAN

recall [%]0 50 100

0

10

20

30

40

50

60

CACM

recall [%]0 50 100

0

5

10

15

20

25

30

35

40

45

50

CISI

recall [%]

cosLSIPLSI*

cosLSIPLSI*

cosLSIPLSI*

cosLSIPLSI*

Experiments: Precison-Recall

4 test collections (each with approx.1000- 3500 docs)

Page 31: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

31University of Bonn, 17. Juli 2001

Experimentelle Auswertung

0

10

20

30

40

50

60

70

80

Medline CRAN CACM CISI

VSMLSAPLSA

Ave

rag

e P

reci

sion

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Medline CRAN CACM CISI

VSM

LSA

PLSA

Rel

ativ

e G

ain

in A

vera

ge P

rec.

Zusammenfassung der quantitativen Auswertung

Konsistente Verbesserung der Retrieval Genauigkeit

Relative Verbesserung von 15-45%

Page 32: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

32University of Bonn, 17. Juli 2001

Textkategorisierung

Support-Vektor-Maschinen mit semantischen Kernfunktionen

Standard-Textsammlung: Reuters21578 (5 Hauptkategorien), 5% Trainingsdaten mit Labels, 95% Hintergrunddaten

0

1

2

3

4

5

6

7

8

Error%

ear

n

acq

money

grai

n

crude

SVM 5%SVM+ 5%

T. Hofmann, „An information-geometric approach to learning the similarity between documents”, Neural Information Processing Systems, 2000.

Substantielle Ver-besserungen (ca.25%), falls zusätzliche ungelabelte Daten zur Verfügung stehen

Page 33: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

33University of Bonn, 17. Juli 2001

Robustes Retrieval in der Praxis

Page 34: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

34University of Bonn, 17. Juli 2001

Page 35: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

35University of Bonn, 17. Juli 2001

MedlinePlus: Gesundheits-Informationen für Jedermann

Page 36: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

36University of Bonn, 17. Juli 2001

Amazon: Verbesserte Büchersuche

build your own search engine

Page 37: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

37University of Bonn, 17. Juli 2001

Amazon: Verbesserte Büchersuche

Page 38: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

6. Hypermedia Retrieval

38

Page 39: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

39University of Bonn, 17. Juli 2001

Hyperlinks in Information Retrieval

Hyperlinks stellen zusätzliche Autor-Annotationen zur Verfügung

Hyperlinks repräsentieren (typischerweise) eine implizite positive Bewertung der referenzierten Quelle

Web-Graph spiegelt soziale Strukturen wider (cyber/virtual/Web communities)

Link-Struktur erlaubt eine Einschätzung der Qualität der Dokumente (page authorithy) Überwindung von reinem inhaltsbasiertem Retrieval Erlaubt (potentiell) die Unterscheidung zwischen

qualitativ hoch- und niederwertigen Web-Sites/Seiten

Page 40: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

40University of Bonn, 17. Juli 2001

Random Walk auf Web Graphen Fiktiver Surfer hüpft von Webseite zu Webseite Zufällige Wahl eines Outlinks in jedem Schritt Mit Wahrscheinlichkeit q Teleportation zu einer zufälligen Seite

PageRank: numerischer Score für jede Seite Aufenthaltswahrscheinlichkeit des Surfers

Intuition „Es ist gut viele Inlinks zu haben.“ „Es ist nicht gut in einer abgekapselten Komponente zu sein.“

Modellierung Homogene Markov-Kette PageRank: stationäre Verteilung; Random Walk nutzt

Ergodizität, alternativ über Spektralzerlegung (dominanter Eigenvektor)

Page 41: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

41University of Bonn, 17. Juli 2001

HITS (Hyperlink Induced Topic Search)

HITS (Jon Kleinberg und die Smart Gruppe in IBM) Schritt 1: Query-basiertes Retrieval von Resultaten Schritt 2: Generierung eines Kontextgraphen (Links und Backlinks) Schritt 3: Rescoring Methode mit Hub- und Authority-Gewichten

unter Verwendung der Adjazenzmatrix des Kontextgraphen

(Lösung: Linke/rechte Eigenvektoren (SVD))

J. Kleinberg, “Authoritative Sources in a Hyperlinked Environment”, 1998.

E)p,q(:p

)t(p

)1t(q

E)p,q(:q

)t(q

)t(p

xy

yxAuthority-Gewichte

Hub Gewichte

pq

…)t(qy )t(

px

qp

…)t(px )1t(

qy

Page 42: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

42University of Bonn, 17. Juli 2001

Semantisches Modell des WWW

Verstehen des Inhalts Probabilistic latent semantic analysis Automatische Identifikation von Konzepten und

Themengebieten.

Verstehen der Linkstruktur Probabilistisches Graphenmodell = prädiktives

Modell für zusätzliche Links basierend auf vorhandenem Graph

Schätzung der Entropie des Web Graphen (im Sinne eines stochastischen Prozesses)

Basierend auf „Web communities” Probabilistische Version von HITS

Page 43: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

43University of Bonn, 17. Juli 2001

Latente Web Communities

)z|s(P )z|t(P

z

)z|t(P)z|s(P)z(P)t,s(P

Probabilistisches Modell

Source Knoten Target Knoten

st

evtl. identisch

Web Community: dichter bipartiter Teilgraph

D. Cohen & T. Hofmann, „The Missing Link – A Probabilistic Models of Document Content and Hypertext Connecivity“, NIPS*2001.

Page 44: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

44University of Bonn, 17. Juli 2001

Dekomposition des Web-Graphen

Web Teilgraph Links gehören zu genau einer Web Community (im probab. Sinne)

Web Seiten können zu mehreren Communities gehören

Community 1

Community 2 Community 3

Page 45: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

45University of Bonn, 17. Juli 2001

Linking Hyperlinks and Content

Kombination von pLSA und pHITS (probab. HITS) in einem gemeinsamen Modell

w

z

P(z|s)

P(w|z)

Konzept/Topic

P(t|z)

t

Web Community

Page 46: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

46University of Bonn, 17. Juli 2001

“Ulysses” Webs: Space, War, and Genius (Helden unerwünscht!)

ulysses 0.022082space 0.015334page 0.013885home 0.011904nasa 0.008915science 0.007417solar 0.007143esa 0.006757mission 0.006090

ulysses.jpl.nasa.gov/ helio.estec.esa.nl/ulysses www.sp.ph.ic.ak.uk/

grant 0.019197s 0.017092ulysses 0.013781online 0.006809war 0.006619school 0.005966poetry 0.005762president 0.005259civil 0.005065www.lib.siu.edu/projects/usgrant/www.whitehouse.gov/WH/glimpse /presidents/ug18.html saints.css.edu/gppg.html

page 0.020032ulysses 0.013361new 0.010455web 0.009060site 0.009009joyce 0.008430net 0.007799teachers 0.007236information 0.007170http://www.purchase.edu/Joyce/Ulysses.htm http://www.bibliomania.com/Fiction/joyce/ulysseshttp://teachers.net/chatroom

Basismenge generiert via Altavista mit Query “Ulysses”

T. Hofmann, SIGIR 2000.

Page 47: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

6. Kollaboratives Filteren

47

Page 48: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

48University of Bonn, 17. Juli 2001

Vorhersage von Benutzerpräferenzen und -aktionen

Benutzerprofil Dr. Strangelove Three Colors: Blue Fargo Pretty Woman

Rating? Movie? .

Page 49: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

49University of Bonn, 17. Juli 2001

Kollaboratives Filtern

Kollaboratives / Soziales Filtern Was tun, wenn Merkmalsextraktion

problematisch ist? (Multimedia-Retrieval, e-Commerce, etc.)

Rückgriff auf Gemeinsamkeiten und Ähnlichkeiten von Interessen zur Verbesserung von Vorhersagen

Verwendung von Benutzerprofildaten (Web logs von Downloads, Transaktionen, Click-Streams, Ratings)

Recommender Systeme – e-commerce

Problemformalisierung Datenrepräsentation: dünn-besetzte Matrix mit

impliziten und/oder expliziten Bewertungen

Page 50: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

50University of Bonn, 17. Juli 2001

Kollaboratives Filtern via pLSA

Diskrete Bewertungsskala, z.B. Votes: }5,4,3,2,1,0{v

u y

z v Bewertung v ist unabhängig von der Person u, gegeben den Zustand der latenten Variable z

• Jede Person ist durch eine spezifische W-Verteilung charakterisiert

• Analogie zum IR [Person=Dokument], [Item=Wort]

(Zahl der Sterne)

Page 51: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

51University of Bonn, 17. Juli 2001

pLSA vs. Memory-basierte Techniken

Standard-Technik: Memory-basiert Gegeben einen „aktiven Benutzer“, berechne

Korrelation mit allen Benutzerprofilen in der Datenbank (e.g., Pearson Koeffizienten)

Transformation der Korrelation in relative Gewichte Gewichtete (additive) Vorhersage über alle Nachbarn

pLSA Explizite Dekomposition der Benutzerpräferenzen:

Interessen sind inhärent multidimensional keine globale Ähnlichkeitsfunktion zwischen Personen (es kommt auf die Hinsicht an!)

Probabilistisches Modell erlaubt explizite Optimierung der gewünschten Kostenfunktion

Data Mining: Exploration von Benutzer-Daten, Auffinden von Interessensgruppen

Page 52: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

52University of Bonn, 17. Juli 2001

EachMovie Datensatz

33.4

35.3

39.941.2

30

32

34

36

38

40

42

Baseline

Memory

PLSA, K=20

PLSA, K=200

EachMovie: >40K Benutzer, >1.6K Filme, >2M Ratings

Experimentelle Auswertung: Vergleich mit Memory-basierten Methoden, leave-one-out Protokoll

Vorhersagegenauigkeit

Page 53: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

53University of Bonn, 17. Juli 2001

EachMovie Data Set (II)

Mittlere Absolute Abweichung

Bewertung der Rangordnung: Gewichte fallen exponentiell mit dem Rang in einer Empfehlungsliste

1.09

0.95 0.94

0.910.9

0.95

1

1.05

1.1

Baseline

Memory

PLSA, K=20

PLSA, K=200

26.95 27.89

44.64 45.98

0

10

20

30

40

50

Baseline

Memory

PLSA, K=20

PLSA, K=200

Page 54: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

54University of Bonn, 17. Juli 2001

Interessengruppen, Each Movie

Page 55: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

55University of Bonn, 17. Juli 2001

Des-Interessengruppen, Each Movie

Page 56: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

7. Ausblick

56

Page 57: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

57University of Bonn, 17. Juli 2001

Zusammenfassung

Techniken des maschinellen Lernens, insbesondere Verfahren der Matrix Dekomposition, als Grundlagentechnologie des Information Retrieval

Zusammenhang zwischen Modellen mit latenten Variablen und semantischen Datenrepräsentationen

Vielzahl von Anwendungsszenarien von der Informationssuche und der Kategorisierung bis hin zur Analyse von Benutzerprofilen

Potentielle real-world Anwendungen Robustere und genauere Retrieval- und Suchmaschinen Automatische Kategorisierung von Dokumenten Recommender Systeme für e-commerce und für

Information Portals

Page 58: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

58University of Bonn, 17. Juli 2001

Laufende Forschungsprojekte

Intelligente Informationsagenten, fokusiertes Web-Crawling [DARPA-TASK Projekt 2000-2002]

Question-Answering Information Retrieval [NSF -Information Technology Research 2001-2003]

Kategorisierung von Multimedia Dokumenten [NSF - Information Technology Research 2000-2002]

Probabilistische Web-Graph Modelle [Internet Archiv]

Generative Modelle zur Kombination von Text und Bildern [NSF – pending]

Intelligente Mensch-Maschinen Schnittstellen zur effizienten Informations-Suche, Navigation und Visualisierung [in Vorbereitung]

Lernen von Konzept-Hierarchien und Integration von existierenden Taxonomien [RecomMind]

Personalisiertes Retrieval Interface: Kombination von Suche und kollaborativem Filtern [RecomMind]

[email protected]

.EDU

TH@RECO

MMIND.COM

Page 59: From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University

The End.

59