44
Generatív (Bayesi) modellezés 2013. ápr. 17.

Generatív (Bayesi) modellezés

  • Upload
    hova

  • View
    45

  • Download
    3

Embed Size (px)

DESCRIPTION

Generatív (Bayesi) modellezés. 2013. ápr. 17. Slides by (credit to ): David M. Blei Andrew Y. Ng, Michael I. Jordan , Ido Abramovich , L . Fei -Fe i, P . Perona , J . Sivic , B . Russell, A. Efros , A . Zisserman , B . Freeman , Tomasz Malisiewicz , Thomas Huffman, - PowerPoint PPT Presentation

Citation preview

Page 1: Generatív (Bayesi) modellezés

Generatív (Bayesi) modellezés

2013. ápr. 17.

Page 2: Generatív (Bayesi) modellezés

Slides by (credit to):

David M. BleiAndrew Y. Ng,

Michael I. Jordan,Ido Abramovich,

L. Fei-Fei,P. Perona,

J. Sivic,B. Russell,A. Efros,

A. Zisserman,B. Freeman,

Tomasz Malisiewicz,Thomas Huffman,

Tom Landauer and Peter Foltz,Melanie Martin,

Hsuan-Sheng Chiu,Haiyan Qiao,

Jonathan Huang

Thank you!

Page 3: Generatív (Bayesi) modellezés

Generatív modellezés• Felügyelet nélküli tanulás

• … túl a klaszterzésen

• Hogyan írjuk le/modellezzük a világot a számítógépnek?

• Bayes háló!

Page 4: Generatív (Bayesi) modellezés

Generatív (Bayesi) modellezés

ADAT Modell„Generatív sztori”

Találjuk meg a paramétereket amikkel a modell a legjobban

„rekonstruálja” a megfigyelt adatot

Page 5: Generatív (Bayesi) modellezés

A dokumentum klaszterzés/osztályozás probléma

• Szöveges dokumentumokat sorolunk be témákba vagy

• Képekről tanuljuk meg, hogy mi szerepel rajtuk

• „Szózsák modell”

• A term-dokumentum mátrix:

Page 6: Generatív (Bayesi) modellezés

KépKép „„Szavak” zsákjaSzavak” zsákja

Page 7: Generatív (Bayesi) modellezés

• N db dokumentum:D={d1, … ,dN}

• A szótár M db szót tartalmaz–W={w 1 , … ,w M}

• A term-dokumentum mátrix mérete N * M, az egyes szavak (termek) dokumentumbeli előfordulását tartalmazza–term lehet 1 szó, többszavas frázis vagy képrészlet is–Előfordulást jellemezhetjük gyakorisággal, binárisan stb.

Page 8: Generatív (Bayesi) modellezés

A szózsák modell problémái– Sorrendiség és pozíció elveszik– Szinonímák: sok féleképen

hivatkozhatunk egy objektumra (fogalomra), pl: álmos-kialvatlan

→ gyenge fedés

– Poliszémia: a legtöbb szónak több jelentése van, pl: körte, puska

→ gyenge pontosság

Page 9: Generatív (Bayesi) modellezés

képi poliszémia

Page 10: Generatív (Bayesi) modellezés

Dokumentumok klaszterezése

• Minden dokumentumhoz rendeljünk egy „topic”-ot

Page 11: Generatív (Bayesi) modellezés

Generatív sztori az „unigram modell”hez

TOPIC TOPIC

szószó szószó......

Hogyan generálódik(ott) egy dokumentum?

1.„Dobjunk” egy topicot

2.Minden kitöltendő szópozícióra „dobjunk” egy szót a kiválasztott topichoz

Page 12: Generatív (Bayesi) modellezés

Valószínűségi LSApLSA

Probabilistic Latent Semantic Analysis•Minden dokumentumot egy valószínűségi eloszlás ír le a topicok felett•Minden topicot egy valószínűségi eloszlás ír le a szavak felett

•Az eloszlások interpretálhatóak

Page 13: Generatív (Bayesi) modellezés

Viszony a klaszterzéshez…

• A dokumentumok nem pontosan egy klaszterbe sorolódnak be

• Topicok egy eloszlását határozzuk meg minden dokumentumhoz→ sokkal flexibilisebb

Page 14: Generatív (Bayesi) modellezés

Generatív sztori a pLSA-hoz

TOPICTOPIC eloszlás eloszlás

TOPIC TOPIC TOPICTOPIC

szószó szószó

......

......

Hogyan generálódik(ott) egy dokumentum?1.Generáljunk egy topic-eloszlást

2.Minden kitöltendő szópozícióra „dobjunk” egy topicot a topic-eloszlából

3.„Dobjunk” egy szót a kiválasztott topichoz

Page 15: Generatív (Bayesi) modellezés
Page 16: Generatív (Bayesi) modellezés

loan

TOPIC 1

money

loan

bank

moneyba

nk

river

TOPIC 2

river

river

stream

bank

bank

stream

bank

loan

DOCUMENT 2: river2 stream2 bank2 stream2 bank2 money1 loan1

river2 stream2 loan1 bank2 river2 bank2 bank1 stream2 river2 loan1

bank2 stream2 bank2 money1 loan1 river2 stream2 bank2 stream2 bank2 money1 river2 stream2 loan1 bank2 river2 bank2 money1 bank1 stream2 river2 bank2 stream2 bank2 money1

DOCUMENT 1: money1 bank1 bank1 loan1 river2 stream2 bank1

money1 river2 bank1 money1 bank1 loan1 money1 stream2 bank1

money1 bank1 bank1 loan1 river2 stream2 bank1 money1 river2 bank1

money1 bank1 loan1 bank1 money1 stream2

.3

.8

.2

Példa

.7

Page 17: Generatív (Bayesi) modellezés

DOCUMENT 2: river? stream? bank? stream? bank? money? loan?

river? stream? loan? bank? river? bank? bank? stream? river? loan?

bank? stream? bank? money? loan? river? stream? bank? stream? bank? money? river? stream? loan? bank? river? bank? money? bank? stream? river? bank? stream? bank? money?

DOCUMENT 1: money? bank? bank? loan? river? stream? bank?

money? river? bank? money? bank? loan? money? stream? bank?

money? bank? bank? loan? river? stream? bank? money? river? bank?

money? bank? loan? bank? money? stream?

A modell illesztése (tanulása)

TOPIC 1

TOPIC 2

?

?

?

Page 18: Generatív (Bayesi) modellezés

Megfigyelt adat-eloszlások

termek eloszlásaa topicok felett

topicok eloszlásadokumentumonként

Slide credit: Josef Sivic

K

kjkkiji dzpzwpdwp

1

)|()|()|(

pLSA

Page 19: Generatív (Bayesi) modellezés

Generatív sztori a pLSA-hoz

TOPICTOPIC eloszlás eloszlás

TOPIC TOPIC TOPICTOPIC

szószó szószó

......

......

Hogyan generálodott egy dokumentum?1.Generáljunk egy topic-eloszlást

2.Minden kitöltendő szópozícióra „dobjunk” egy topicot a topic-eloszlából

3.„Dobjunk” egy szót a kiválasztott topichoz

)|( jk dzp

)|( ki zwp

Page 20: Generatív (Bayesi) modellezés

pLSA – modell-illesztés

K

kjkkiji dzpzwpdwp

1

)|()|()|(

)|()(),( dwpdpdwp

maxarg

Page 21: Generatív (Bayesi) modellezés

Az „expectation-maximisation”, EM algoritmus

• Iteratív módszer maximum likelihood becslésre• rejtett változók esetén• E-lépés

– Rejtett változók várható értékének kiszámítása, úgy hogy fixáljuk a keresett paramétereket

• M-lépés– Frissítsük a paramétereket úgy, hogy a rejtett

változók értékét rögzítjük.– Maximalizáljuk a (likelihood) célfüggvényt

Page 22: Generatív (Bayesi) modellezés

pLSA – E-lépés

A paraméterek ismerete mellett, mi a rejtett változók (z, topicok) eloszlása

Page 23: Generatív (Bayesi) modellezés

pLSA – M-lépés

Rögzítsük p(z|d,w)-ket és

Page 24: Generatív (Bayesi) modellezés

EM algoritmus

• Lokális maximumhoz konvergál

• Megállási feltétel?– Adatbázis és/vagy ismeretlen

példákra való illeszkedés?

Page 25: Generatív (Bayesi) modellezés

pLSA problémái

• Korábban nem látott dokumentumokra újra kell számítani a teljes halmazon.

• A paraméterek száma az adathalmaz méretével nő

• d tulajdonképpen csak egy index, nem illik a generatív sztoriba

Page 26: Generatív (Bayesi) modellezés

LDA

Page 27: Generatív (Bayesi) modellezés

Unigram modell

Minden M db dokumentumhoz, dobjunk egy z topicot. Dobjunk N szót, egymástól függetlenül multinomiális eloszlásból z

függvényében

Minden dokumentumhoz egy topicot rendelünk

Zi

w4iw3iw2iwi1

z

N

nn zwpzpwp

1

|

Page 28: Generatív (Bayesi) modellezés

pLSA modell

Minden d dokumentum minden szópozíciójára:

Dobjunk egy z témát egy multinominális eloszlásból ami a d indextől függ

Dobjunk egy szót multinomális eloszlásból, ami z-től függ.

pLSA-ban a dokumentumokhoz topicok egy eloszlását rendeljünk.

d

zd4zd3zd2zd1

wd4wd3wd2wd1

z

nn dzpzwpdpwdp ||,

Page 29: Generatív (Bayesi) modellezés

LDA modell

z4z3z2z1

w4w3w2w1

z4z3z2z1

w4w3w2w1

z4z3z2z1

w4w3w2w1

• Minden dokumentumra,• dobjunk ~Dirichlet()

• Minden n szópozícióra :

– dobjunk egy zn topicot zn ~ Multinomial()

– dobjunk egy wn szót p(wn|zn,) multinomiális eloszlásból

Page 30: Generatív (Bayesi) modellezés

LDA modell

• Minden dokumentumra,• dobjunk ~Dirichlet()

• Minden n szópozícióra :

– dobjunk egy zn topicot zn ~ Multinomial()

– dobjunk egy wn szót p(wn|zn,) multinomiális eloszlásból

Page 31: Generatív (Bayesi) modellezés

wN

d z

D

pLSA példa

“szem”

Sivic et al. ICCV 2005

Page 32: Generatív (Bayesi) modellezés

wN

c z

D

Fei-Fei et al. ICCV 2005

“part”

LDA példa

Page 33: Generatív (Bayesi) modellezés

A dirichlet eloszlás• Egy eloszlás a multinominális eloszlások felett. • A k dimenziós Dirichlet valószínűségi változó elemei

nem negatívak és 1-re összegződnek (k-1 szimplex)

• i pozitív (nem összegződik 1-re, az abszolút értékei is számítanak, nem csak a relatívak!)

• A dirichlet eloszlás a multinominális eloszlás konjugált priorja (ha a likelihodd multinominális dirichlet priorral akkor a posterior is dirichlet)

• Az i paraméterre gondolhatunk úgy, mint az i. topic gyakoriságára vonatkozó priorra

Page 34: Generatív (Bayesi) modellezés

Példák

0

1

1

2

3

1

2

0

3

1

2

3

Dirichlet(5,5,5)

Dirichlet(0.2, 5, 0.2)

Dirichlet(0.5,0.5,0.5)

Page 35: Generatív (Bayesi) modellezés

Dirichlet példák

Page 36: Generatív (Bayesi) modellezés

1 = 2 = 3 = a

Page 37: Generatív (Bayesi) modellezés

LDA

M

dd

N

n zdndnddnd

N

n znnn

nn

N

nn

kki i

ki i

dzwpzppDp

dzwpzppp

zwpzppp

p

d

dn

n

k

1 1

1

1

111

1

1

),()()(),(

),()()(),(

),()()(),,,(

)(

)()( 1

w

wz

Page 38: Generatív (Bayesi) modellezés

Következtetés

),|(),|,,(),,|,(

wwzwz p

pp

Egzakt optimalizáció nem kivitelezhető

Page 39: Generatív (Bayesi) modellezés

KövetkeztetésGibbs mintavételezéssel

• közelítő valószínűségi következtetés– dobjunk a Bayes hálónak megfelelően mintákat– a felvett változóértékek gyakoriságával becsüljük az

együttes eloszlásokat

• Markov Lánc Monte Carlo módszer– a következő minta függ az előző mintáktól (azaz ne

véletlenül és egymástól függetlenül dobáljunk mintákat)

• Gibbs mintavételezés– a következő mintát úgy kapjuk, hogy az egyes

változókat kidobjuk a többi változó aktuális értékének rögzítése mellett

Page 40: Generatív (Bayesi) modellezés

40

pLSA és LDAösszehasonlítás

• pLSA problémái– új dokumentumokat nem tudja kezelni– adatbázis méretével nő a paraméterek

száma (kezelhetőség, túlillesztés)

• LDA mindkét problémát kezeli azzal, hogy a topic-eloszlásokat rejtett változóként kezeli

• k+kV paraméter

Page 41: Generatív (Bayesi) modellezés

LDA zárszó

• Az LDA egy flexibilis generative valószínűségi modell

• Ekzakt következtetés nem kivitelezhető, de a közelítő megoldások (pl. variációs következtetés, MCMC) használhatóak és a gyakorlatban jól működnek

Page 42: Generatív (Bayesi) modellezés

1990

1999

2003

Page 43: Generatív (Bayesi) modellezés
Page 44: Generatív (Bayesi) modellezés

Objektumok azonosítása képekrőlTaláljuk meg milyen objektumok szerepelnek a képgyűjteményben, felügyelet nélküli módon!

Ezeket utána új képeken is ismerjük fel!

Automatikusan találjuk meg, hogy milyen jellemzők fontosak az egyes tárgyak azonosításához!