24
S ysteemianalyy sin Laboratorio Esitelmä 28 – Tuukka Sarvi Optimointiopin seminaari - Syksy 2005 / 1 Oppiminen Bayes-verkoissa II D. Heckerman. A Tutorial on Learning with Bayesian Networks. In Learning in Graphical Models, M. Jordan, ed.. MIT Press, Cambridge, MA, 1999. NIPS 2001 Tutorial: Learning Bayesian Networks From Data. Nir Friedman and Daphne Koller Tommi Kauppinen ja Tuukka Sarvi

Tommi Kauppinen ja Tuukka Sarvi

  • Upload
    emelda

  • View
    65

  • Download
    0

Embed Size (px)

DESCRIPTION

Oppiminen Bayes-verkoissa II D. Heckerman.  A Tutorial on Learning with Bayesian Networks.  In Learning in Graphical Models, M. Jordan, ed.. MIT Press, Cambridge, MA, 1999. NIPS 2001 Tutorial: Learning Bayesian Networks From Data. Nir Friedman and Daphne Koller. Tommi Kauppinen ja Tuukka Sarvi. - PowerPoint PPT Presentation

Citation preview

Page 1: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 1

Oppiminen Bayes-verkoissa II

D. Heckerman.  A Tutorial on Learning with Bayesian Networks.  In Learning in Graphical Models, M. Jordan, ed.. MIT Press, Cambridge, MA, 1999.

  NIPS 2001 Tutorial: Learning Bayesian Networks From Data. Nir Friedman and Daphne Koller

Tommi Kauppinen ja Tuukka Sarvi

Page 2: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 2

Esitelmän sisältö

• Rakenteen ja parametrien oppiminen– Pisteytysmenetelmät

– Täysi Bayes

• Epätäydellinen data

• Case: College plans

• Yhteenveto

Page 3: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 3

Rakenteen ja parametrien oppiminen

• Tilanne: meillä on datajoukko ,josta pitää määrittää sekä Bayes-verkon rakenne että parametrit– Määritettävä kaaret ja todennäköisyydet

• Määritellään satunnaismuuttuja S, jonka tilat vastaavat eri rakennevaihtoehtoja

• Jo pienellä muuttujamäärällä mahdollisia verkkoja suuri määrä (ylieksponentiaalinen)

• Eri lähestymistapoja: mallien pisteytys ja täysi Bayes

NxxxD ,..., 21

Page 4: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 4

Mallien pistetys

• Määritetään pisteytysfunktio, joka kertoo kuinka hyvin malli vastaa dataa

• Etsitään suurimman pistearvon tuottavaa rakennetta• Suurin osa Bayes-verkkojen oppimista käsittelevästä

kirjallisuudesta keskittyy mallien pisteytykseen ja valintaan

• Monia pisteytystapoja, esim. likelihood score, cross-validation score

• Parhaat pisteet saava malli etsitään laskemalla kaikki vaihtoehdot läpi tai käyttämällä jotain etsintäalgorimia rakennevaihtoehtojen S joukossa

Page 5: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 5

Mallien pisteytys: selventävä kuva

Page 6: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 6

Likelihood score

• Logaritmi todennäköisyydestä, että malli tuottaa annetun datan D:

• Todennäköisyys saadaan kaavasta:

• on datasta laskettu parametrijakauma

))|(log():( SDpDSl

dSDpSDpSDp ),|(),|()|(

),|( SDp

Page 7: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 7

Cross-validation score

• Opetetaan malli (päivitetään parametrit) datalla V, jossa on jätetty pois yksi havainto:

• Lasketaan tn. poisjätetylle havainnolle– mitä suurempi tn. saadaan sitä suuremmat pisteet

• Lasketaan eri havainnot poisjättämällä saadut pisteet yhteen:

Nll xxxxV ...,,..., 111

N

lll SVxpDSCV

1

)),|(log(),(

Page 8: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 8

Esim. kaksi kolikkoa

• Kaksi kolikkoa X ja Y sekä data seitsemästä heitosta

• Kaksi mallia S1 ja S2

• Lasketaan likelihood score molemmille

1 2 3 4 5 6 7

X h t t h t h h

Y h t h h t t h

Page 9: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 9

Esim. kaksi kolikkoa: malli S1

• Halutaan laskea:

• Bayesin kaavalla:

• Sijoitetaan, jolloin saadaan:

• on parametrien priori-jakauma mallissa S1 • p(D|S1) on datan priori-todennäköisyys mallissa S1

dSDpSDpSDp ),|(),|()|( 111

)|(

)|(),|(),|(

1

111 SDp

SpSDpSDp

dSDp

SpSDpSDp

)|(

)|(),|()|(

1

1

2

11

)|( 1Sp

Page 10: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 10

Esim. kaksi kolikkoa: malli S1

• Datasta saadaan:• Priori-tn. oletetaan tasajakautuneeksi:• Datan priori-tn. integroimalla:

• Nyt saadaan alkup. lauseke:

34341 )1()1(),|( YYXXSDp

1)|( 1 Sp

1

0

1

0

3434111 78400

1)1()1()|(),|()|( YXYYXX dddSpSDpSDp

1

0

1

0

6868

23434

1

0000386.0)1()1(78400

78400/1

1*)1()1()|(

YXYYXX

YYXX

dd

dSDp

Page 11: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 11

Esim. kaksi kolikkoa

• S1:lle saadaan likelihood score:

• Vastaavasti lasketaan S2:n likelihood score:

• S2:n pistemäärä suurempi => S2 on parempi malli datan valossa

• Tämä on järkevää kun tarkastellaan

dataa

162.10))|(log():( 11 SDpDSl

783.9)0000564.0log())|(log():( 22 SDpDSl

Page 12: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 12

Täysi Bayes

• Lasketaan datan perusteella posteriori-todennäköisyydet p(S|D) ja jokaiselle mallille

• p(S|D) Bayesin kaavasta:• Käytetään saatuja posteriori-todennäköisyyksiä

laskettaessa haluttuja odotusarvoja• Esim. lasketaan datajoukkoa D seuraavan havainnon

jakauma:

)|( Dp S

)(

)()|()|(

Dp

SpSDpDSp

SSS

SNN dDpSxpDSpDxp )|(),|()|()|( 11

Page 13: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 13

Täysi Bayes: selventävä kuva

Page 14: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 14

Täysi Bayes vs. pisteytys

• Täysi Bayes –menetelmässä säilytetään mukana kaikki mallit

• Pistetysmenetelmissä valitaan paras malli• Täysi Bayes antaa kattavampia ennusteita

– kaikki mahdollisuudet säilytetään mukana

• Täysi Bayes laskennallisesti raskasta– mahdollisia malleja suuri määrä

• Käytännössä parempi käyttää pisteytysmenetelmää

Page 15: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 15

Epätäydellinen data

• Datan epätäydellisyydessä voidaan erottaa kaksi eri tapausta– Puuttuvat arvot datassa

– Puuttuvat tai piilotetut muuttujat (hidden variables)

Page 16: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 16

Puuttuvat arvot datajoukossa ja EM (expectation maximization)

• EM on metodi, jossa puuttuvat arvot datassa täydennetään olemassa olevan Bayes-verkon avulla

• Saatuja arvoja käytetään kuin mitattuja

Page 17: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 17

Esim. EM (expectation maximization):

Data:

oletetaan tunnetuksi:

Tästä saadaan arviot eri

yhdistelmille X, Y.

N(X,Y):

X h t h h t

Y ? ? h t t

Z t ? ? t h

3,0),|( tZhXhYp

4,0)|( tXhYp

X Y #

h h 1.3

t h 0.4

h t 1.7

t t 1.6

Page 18: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 18

Puuttuvat muuttujat (hidden variables)

• Ei suoraa metodia löytää puuttuvia solmuja• Erilaisia heuristisia metodeja olemassa

– puretaan toisistaan riippuvien muuttujien osaverkko kulkemaan yhteisen muuttujan kautta

– Testataan verkkoa epäilyttävissä kohtaa lisäämällä mahdollisia puuttuvia muuttujia ja vertailemalla saatujen verkkojen ilmenemistodennäköisyyksiä alkuperäiseen

Page 19: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 19

Puuttuvat muuttujat: selventävä kuva

• (a) Datan perusteella saatu verkko (mitatut muuttujat)

• (b) Ehdotus puuttuvien muuttujien lisäämiseksi

Page 20: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 20

Case: College plans

• Muuttujat: sex (SEX): male, female; socioeconomic status (SES): low, lower middle, upper middle, high; intelligence quotient (IQ): low, lower middle, upper middle, high; parental encouragement (PE): low, high; college plans (CP): yes, no

• Data: tiedot 10318 Wisconsin high school oppilaista• Tarkoitus: saada tietoa muuttujien syy-seuraus-

suhteista• Lähteet: data Sewell & Shah (1968) ja analyysi D.

Heckerman (1999)

Page 21: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 21

Case: College plans

• Kuvassa kaksi todennäköisintä rakennetta

• Epäilyttävää: SES vaikuttaa suoraan IQ:iin

Page 22: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 22

Case: College plans

• Lisättiin puuttuva muuttuja H selittämään muuttujia IQ ja SES

• Malli 2*1010 kertaa todennäköisempi kuin paras malli ilman muuttujaa H

• Muuttuja H vastaa ”vanhempien laatua”

Page 23: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 23

Yhteenveto: oppivat Bayes-verkot

• Auttaa mallin rakentamisessa• Opitaan kahta asiaa: parametrit (todennäköisyydet)

ja rakenne (kaaret)• Käytännössä tärkein menetelmä: parhaan rakenteen

ja parametrien etsiminen pisteytysmenetelmillä• Epätäydellisen datan kaksi tapausta: puuttuvat arvot

ja puuttuvat muuttujat• Suuri potentiaali, monia toimivia sovelluksia

Page 24: Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 24

Kotitehtävä 28

• (a) Todista, että N muuttujan tapauksessa mahdollisten verkkojen määrä on suurempi kuin N! (ylieksponentiaalinen). (3p)

• (b) Keksi ongelma, johon voisit käyttää oppivia Bayes-verkkoja. Listaa tutkittavat muuttujat ja kerro mistä saat dataa mallisi opettamiseksi. (3p)