Generatív (Bayesi) modellezés

Generatív (Bayesi) modellezés

2013. ápr. 17.

Slides by (credit to):

David M. BleiAndrew Y. Ng,

Michael I. Jordan,Ido Abramovich,

L. Fei-Fei,P. Perona,

J. Sivic,B. Russell,A. Efros,

A. Zisserman,B. Freeman,

Tomasz Malisiewicz,Thomas Huffman,

Tom Landauer and Peter Foltz,Melanie Martin,

Hsuan-Sheng Chiu,Haiyan Qiao,

Jonathan Huang

Thank you!

Generatív modellezés• Felügyelet nélküli tanulás

• … túl a klaszterzésen

• Hogyan írjuk le/modellezzük a világot a számítógépnek?

• Bayes háló!

Generatív (Bayesi) modellezés

ADAT Modell„Generatív sztori”

Találjuk meg a paramétereket amikkel a modell a legjobban

„rekonstruálja” a megfigyelt adatot

A dokumentum klaszterzés/osztályozás probléma

• Szöveges dokumentumokat sorolunk be témákba vagy

• Képekről tanuljuk meg, hogy mi szerepel rajtuk

• „Szózsák modell”

• A term-dokumentum mátrix:

KépKép „„Szavak” zsákjaSzavak” zsákja

• N db dokumentum:D={d1, … ,dN}

• A szótár M db szót tartalmaz–W={w 1 , … ,w M}

• A term-dokumentum mátrix mérete N * M, az egyes szavak (termek) dokumentumbeli előfordulását tartalmazza–term lehet 1 szó, többszavas frázis vagy képrészlet is–Előfordulást jellemezhetjük gyakorisággal, binárisan stb.

A szózsák modell problémái– Sorrendiség és pozíció elveszik– Szinonímák: sok féleképen

hivatkozhatunk egy objektumra (fogalomra), pl: álmos-kialvatlan

→ gyenge fedés

– Poliszémia: a legtöbb szónak több jelentése van, pl: körte, puska

→ gyenge pontosság

képi poliszémia

Dokumentumok klaszterezése

• Minden dokumentumhoz rendeljünk egy „topic”-ot

Generatív sztori az „unigram modell”hez

TOPIC TOPIC

szószó szószó......

Hogyan generálódik(ott) egy dokumentum?

1.„Dobjunk” egy topicot

2.Minden kitöltendő szópozícióra „dobjunk” egy szót a kiválasztott topichoz

Valószínűségi LSApLSA

Probabilistic Latent Semantic Analysis•Minden dokumentumot egy valószínűségi eloszlás ír le a topicok felett•Minden topicot egy valószínűségi eloszlás ír le a szavak felett

•Az eloszlások interpretálhatóak

Viszony a klaszterzéshez…

• A dokumentumok nem pontosan egy klaszterbe sorolódnak be

• Topicok egy eloszlását határozzuk meg minden dokumentumhoz→ sokkal flexibilisebb

Generatív sztori a pLSA-hoz

TOPICTOPIC eloszlás eloszlás

TOPIC TOPIC TOPICTOPIC

szószó szószó

......

......

Hogyan generálódik(ott) egy dokumentum?1.Generáljunk egy topic-eloszlást

2.Minden kitöltendő szópozícióra „dobjunk” egy topicot a topic-eloszlából

3.„Dobjunk” egy szót a kiválasztott topichoz

loan

TOPIC 1

money

loan

bank

moneyba

nk

river

TOPIC 2

river

river

stream

bank

bank

stream

bank

loan

DOCUMENT 2: river2 stream2 bank2 stream2 bank2 money1 loan1

river2 stream2 loan1 bank2 river2 bank2 bank1 stream2 river2 loan1

bank2 stream2 bank2 money1 loan1 river2 stream2 bank2 stream2 bank2 money1 river2 stream2 loan1 bank2 river2 bank2 money1 bank1 stream2 river2 bank2 stream2 bank2 money1

DOCUMENT 1: money1 bank1 bank1 loan1 river2 stream2 bank1

money1 river2 bank1 money1 bank1 loan1 money1 stream2 bank1

money1 bank1 bank1 loan1 river2 stream2 bank1 money1 river2 bank1

money1 bank1 loan1 bank1 money1 stream2

.3

.8

.2

Példa

.7

DOCUMENT 2: river? stream? bank? stream? bank? money? loan?

river? stream? loan? bank? river? bank? bank? stream? river? loan?

bank? stream? bank? money? loan? river? stream? bank? stream? bank? money? river? stream? loan? bank? river? bank? money? bank? stream? river? bank? stream? bank? money?

DOCUMENT 1: money? bank? bank? loan? river? stream? bank?

money? river? bank? money? bank? loan? money? stream? bank?

money? bank? bank? loan? river? stream? bank? money? river? bank?

money? bank? loan? bank? money? stream?

A modell illesztése (tanulása)

TOPIC 1

TOPIC 2

?

?

?

Megfigyelt adat-eloszlások

termek eloszlásaa topicok felett

topicok eloszlásadokumentumonként

Slide credit: Josef Sivic

K

kjkkiji dzpzwpdwp

1

)|()|()|(

pLSA

Generatív sztori a pLSA-hoz

TOPICTOPIC eloszlás eloszlás

TOPIC TOPIC TOPICTOPIC

szószó szószó

......

......

Hogyan generálodott egy dokumentum?1.Generáljunk egy topic-eloszlást

2.Minden kitöltendő szópozícióra „dobjunk” egy topicot a topic-eloszlából

3.„Dobjunk” egy szót a kiválasztott topichoz

)|( jk dzp

)|( ki zwp

pLSA – modell-illesztés

K

kjkkiji dzpzwpdwp

1

)|()|()|(

)|()(),( dwpdpdwp

maxarg

Az „expectation-maximisation”, EM algoritmus

• Iteratív módszer maximum likelihood becslésre• rejtett változók esetén• E-lépés

– Rejtett változók várható értékének kiszámítása, úgy hogy fixáljuk a keresett paramétereket

• M-lépés– Frissítsük a paramétereket úgy, hogy a rejtett

változók értékét rögzítjük.– Maximalizáljuk a (likelihood) célfüggvényt

pLSA – E-lépés

A paraméterek ismerete mellett, mi a rejtett változók (z, topicok) eloszlása

pLSA – M-lépés

Rögzítsük p(z|d,w)-ket és

EM algoritmus

• Lokális maximumhoz konvergál

• Megállási feltétel?– Adatbázis és/vagy ismeretlen

példákra való illeszkedés?

pLSA problémái

• Korábban nem látott dokumentumokra újra kell számítani a teljes halmazon.

• A paraméterek száma az adathalmaz méretével nő

• d tulajdonképpen csak egy index, nem illik a generatív sztoriba

LDA

Unigram modell

Minden M db dokumentumhoz, dobjunk egy z topicot. Dobjunk N szót, egymástól függetlenül multinomiális eloszlásból z

függvényében

Minden dokumentumhoz egy topicot rendelünk

Zi

w4iw3iw2iwi1

z

N

nn zwpzpwp

1

|

pLSA modell

Minden d dokumentum minden szópozíciójára:

Dobjunk egy z témát egy multinominális eloszlásból ami a d indextől függ

Dobjunk egy szót multinomális eloszlásból, ami z-től függ.

pLSA-ban a dokumentumokhoz topicok egy eloszlását rendeljünk.

d

zd4zd3zd2zd1

wd4wd3wd2wd1

z

nn dzpzwpdpwdp ||,

LDA modell

z4z3z2z1

w4w3w2w1

z4z3z2z1

w4w3w2w1

z4z3z2z1

w4w3w2w1

• Minden dokumentumra,• dobjunk ~Dirichlet()

• Minden n szópozícióra :

– dobjunk egy zn topicot zn ~ Multinomial()

– dobjunk egy wn szót p(wn|zn,) multinomiális eloszlásból

LDA modell

• Minden dokumentumra,• dobjunk ~Dirichlet()

• Minden n szópozícióra :

– dobjunk egy zn topicot zn ~ Multinomial()

– dobjunk egy wn szót p(wn|zn,) multinomiális eloszlásból

wN

d z

D

pLSA példa

“szem”

Sivic et al. ICCV 2005

wN

c z

D

Fei-Fei et al. ICCV 2005

“part”

LDA példa

A dirichlet eloszlás• Egy eloszlás a multinominális eloszlások felett. • A k dimenziós Dirichlet valószínűségi változó elemei

nem negatívak és 1-re összegződnek (k-1 szimplex)

• i pozitív (nem összegződik 1-re, az abszolút értékei is számítanak, nem csak a relatívak!)

• A dirichlet eloszlás a multinominális eloszlás konjugált priorja (ha a likelihodd multinominális dirichlet priorral akkor a posterior is dirichlet)

• Az i paraméterre gondolhatunk úgy, mint az i. topic gyakoriságára vonatkozó priorra

Példák

0

1

1

2

3

1

2

0

3

1

2

3

Dirichlet(5,5,5)

Dirichlet(0.2, 5, 0.2)

Dirichlet(0.5,0.5,0.5)

Dirichlet példák

1 = 2 = 3 = a

LDA

M

dd

N

n zdndnddnd

N

n znnn

nn

N

nn

kki i

ki i

dzwpzppDp

dzwpzppp

zwpzppp

p

d

dn

n

k

1 1

1

1

111

1

1

),()()(),(

),()()(),(

),()()(),,,(

)(

)()( 1

w

wz

Következtetés

),|(),|,,(),,|,(

wwzwz p

pp

Egzakt optimalizáció nem kivitelezhető

KövetkeztetésGibbs mintavételezéssel

• közelítő valószínűségi következtetés– dobjunk a Bayes hálónak megfelelően mintákat– a felvett változóértékek gyakoriságával becsüljük az

együttes eloszlásokat

• Markov Lánc Monte Carlo módszer– a következő minta függ az előző mintáktól (azaz ne

véletlenül és egymástól függetlenül dobáljunk mintákat)

• Gibbs mintavételezés– a következő mintát úgy kapjuk, hogy az egyes

változókat kidobjuk a többi változó aktuális értékének rögzítése mellett

40

pLSA és LDAösszehasonlítás

• pLSA problémái– új dokumentumokat nem tudja kezelni– adatbázis méretével nő a paraméterek

száma (kezelhetőség, túlillesztés)

• LDA mindkét problémát kezeli azzal, hogy a topic-eloszlásokat rejtett változóként kezeli

• k+kV paraméter

LDA zárszó

• Az LDA egy flexibilis generative valószínűségi modell

• Ekzakt következtetés nem kivitelezhető, de a közelítő megoldások (pl. variációs következtetés, MCMC) használhatóak és a gyakorlatban jól működnek

1990

1999

2003

Objektumok azonosítása képekrőlTaláljuk meg milyen objektumok szerepelnek a képgyűjteményben, felügyelet nélküli módon!

Ezeket utána új képeken is ismerjük fel!

Automatikusan találjuk meg, hogy milyen jellemzők fontosak az egyes tárgyak azonosításához!

Documents

Generatív (Bayesi) modellezés