Bajesovsko učenje

Bajesovsko učenjeBajesovsko učenjeARGO Seminar ARGO Seminar

Matematički fakultetMatematički fakultet

Aljoša ObuljenAljoša ObuljenFebruar 2009.Februar 2009.

UvodUvod

Odlučivanje u prisustvu neizvesnostiOdlučivanje u prisustvu neizvesnosti

Formalni okvir za druge discipline Formalni okvir za druge discipline (pravo, medicina...)(pravo, medicina...)

Teorijske primene u upoređivanju Teorijske primene u upoređivanju drugih metoda mašinskog učenjadrugih metoda mašinskog učenja

Uvod - osobineUvod - osobine

Početno uverenje o hipotezi može biti Početno uverenje o hipotezi može biti poznato ili ocenjeno.poznato ili ocenjeno.

Inkrementalna promena uverenja Inkrementalna promena uverenja predstavljanjem novih dokaza.predstavljanjem novih dokaza.

Klasifikacija glasanjem konzistentnih Klasifikacija glasanjem konzistentnih hipoteza sa težinskim faktorima.hipoteza sa težinskim faktorima.

Bajesova teoremaBajesova teorema HH – prostor hipoteza – prostor hipoteza

DD – skup razmotrenih podataka – skup razmotrenih podataka

P(h),P(h), h iz Hh iz H – početno uverenje da je – početno uverenje da je hh tačnatačna

P(D|h)P(D|h) – uverenje da se skup – uverenje da se skup DD razmotri razmotri ako je ako je hh tačna ( tačna (verodostojnostverodostojnost))

P(h|D)P(h|D) – traženo uverenje o – traženo uverenje o hh pod uslovom pod uslovom da se razmotrio skup da se razmotrio skup DD

Bajesova teoremaBajesova teorema

Teorema daje sledeću vezu između Teorema daje sledeću vezu između P(h), P(h), P(D|h), P(h|D):P(D|h), P(h|D):

Uverenje o Uverenje o hh raste sa verodostojnošću i raste sa verodostojnošću i početnim uverenjem o početnim uverenjem o hh, a opada sa , a opada sa uverenjem da se razmotri uverenjem da se razmotri DD (česte (česte pojave nisu merodavne koliko retke).pojave nisu merodavne koliko retke).

Inkrementalna promena uverenjaInkrementalna promena uverenja

Razmatraju se dva dokaza – Razmatraju se dva dokaza – DD11 i D i D2.2.

Naknadno uverenje o Naknadno uverenje o hh posle posle DD11 koristi se kao početno koristi se kao početno prilikom razmatranja prilikom razmatranja DD22. .

Pokazuje se da je to ekvivalentno razmatranju oba dokaza Pokazuje se da je to ekvivalentno razmatranju oba dokaza istovremeno:istovremeno:

Pri analizi Pri analizi DD22, uverenje nakon analize , uverenje nakon analize DD11, tj., tj. P(h|DP(h|D11) ) koristi koristi se kao početno.se kao početno.

Ipak, pretpostavlja se nezavisnost u paru i u prisustvu Ipak, pretpostavlja se nezavisnost u paru i u prisustvu hh dokaza dokaza DD11 i i DD22!!

)(

)|()|(

),(

)()|,(),|(

2

12

21

2121 DP

DhPhDP

DDP

hPhDDPDDhP

Primer primene Bajesove teoremePrimer primene Bajesove teoreme

U populaciji postoji retka bolest, samo U populaciji postoji retka bolest, samo 0.5% stanovništva je zaraženo.0.5% stanovništva je zaraženo.

Određeni test ima verovatnoću lažnog Određeni test ima verovatnoću lažnog pozitiva 0.01, a lažnog negativa 0.05.pozitiva 0.01, a lažnog negativa 0.05.

Rezultat testa: pozitivan.Rezultat testa: pozitivan.

Hipoteze: “bolestan”, “zdrav”.Hipoteze: “bolestan”, “zdrav”.

Primer primene Bajesove teoremePrimer primene Bajesove teoreme

P(bolestan)P(bolestan) = 0.005 (početno uverenje, ocena iz populacije) = 0.005 (početno uverenje, ocena iz populacije)

P(pozitivan) = P(pozitivan|bolestan)*P(bolestan) +P(pozitivan) = P(pozitivan|bolestan)*P(bolestan) +

P(pozitivan|zdrav)*P(zdrav) P(pozitivan|zdrav)*P(zdrav) == = 0.0147 (teorema totalne verovatnoće)= 0.0147 (teorema totalne verovatnoće)

P(pozitivan|bolestan)P(pozitivan|bolestan) = 0.95 = 0.95

Traži se Traži se P(bolestan|pozitivan)P(bolestan|pozitivan)

Bajesova teorema daje Bajesova teorema daje • P(bolestan|pozitivan) =P(bolestan|pozitivan) =

P(pozitivan|bolestan)P(pozitivan|bolestan)**P(bolestan)/P(pozitivan)P(bolestan)/P(pozitivan) = 0.3231. = 0.3231.

Verovatnije je da je pacijent zdrav! (Zbog retkosti bolesti)Verovatnije je da je pacijent zdrav! (Zbog retkosti bolesti)

Bajesova teorema i učenje Bajesova teorema i učenje konceptakoncepta

Koncept: preslikavanje Koncept: preslikavanje X->{0,1}X->{0,1}, pri čemu je , pri čemu je XX prostor uzoraka.prostor uzoraka.

Primer: koncept “drvo” na prostoru realnog sveta Primer: koncept “drvo” na prostoru realnog sveta objekte deli na one koji jesu, odnosno nisu drvo.objekte deli na one koji jesu, odnosno nisu drvo.

Koncept je nepoznat – dati su neki uzorci, njihova Koncept je nepoznat – dati su neki uzorci, njihova pripadnost konceptu i skup hipoteza.pripadnost konceptu i skup hipoteza.

Zadatak: naći najuverljiviju hipotezu na osnovu Zadatak: naći najuverljiviju hipotezu na osnovu datog.datog.

Učenje konceptaUčenje koncepta

Ako je sa Ako je sa DD obeležen skup datih uzoraka obeležen skup datih uzoraka sa poznatom pripadnošću traženom sa poznatom pripadnošću traženom konceptu, najuverljivija hipoteza daje se konceptu, najuverljivija hipoteza daje se sa:sa:

)|(maxarg DhPhHh

MAP

Praktični problemiPraktični problemi

Najčešće početna uverenja o Najčešće početna uverenja o hipotezama nisu poznata.hipotezama nisu poznata.

Podaci mogu imati šum (data Podaci mogu imati šum (data pripadnost u skupu obuke ne mora pripadnost u skupu obuke ne mora biti tačna).biti tačna).

Traženi koncept mora pripadati Traženi koncept mora pripadati skupu hipoteza koji se razmatra.skupu hipoteza koji se razmatra.

Jedan pristup u pronalaženju Jedan pristup u pronalaženju najuverljivije hipotezenajuverljivije hipoteze

Početna uverenja hipoteza mogu biti modelovana Početna uverenja hipoteza mogu biti modelovana uniformno – nijedna hipoteza nije uverljivija od drugeuniformno – nijedna hipoteza nije uverljivija od druge..

Verodostojnost svake hipoteze može se odrediti binarno, tj. Verodostojnost svake hipoteze može se odrediti binarno, tj. P(D|h)=1P(D|h)=1, ako je hipoteza , ako je hipoteza konzistentnakonzistentna sa skupom obuke, sa skupom obuke, 0 u suprotnom.0 u suprotnom.

Tada Tada je uverljivost svake konzistentne hipoteze data kao:je uverljivost svake konzistentne hipoteze data kao:

VSVSH,DH,D definiše se kao skup konzistentnih hipoteza.definiše se kao skup konzistentnih hipoteza.

DHVSDhP

,

1)|(

Ovaj pristup daje mogućnost da početna Ovaj pristup daje mogućnost da početna uverenja ne budu poznata.uverenja ne budu poznata.

Problem: sve konzistentne hipoteze imaju Problem: sve konzistentne hipoteze imaju isto naknadno uverenje. Jedino rešenje je isto naknadno uverenje. Jedino rešenje je početno znanje o uverljivosti hipoteza.početno znanje o uverljivosti hipoteza.

Problem: nekonzistentne hipoteze su Problem: nekonzistentne hipoteze su isključene. isključene. MMogu se definisati i njihove ogu se definisati i njihove verodostojnosti, npr. kao procenat verodostojnosti, npr. kao procenat konzistentnih uzoraka.konzistentnih uzoraka.

Pronalaženje najuverljivije hipoteze Pronalaženje najuverljivije hipoteze - nastavak- nastavak

Optimalni bajesovski klasifikatorOptimalni bajesovski klasifikator

Umesto pitanja “Koja hipoteza je najuverljivijaUmesto pitanja “Koja hipoteza je najuverljivija??”, ”, postavlja se pitanje “Koja je najuverljivija postavlja se pitanje “Koja je najuverljivija klasifikacija novog uzorkaklasifikacija novog uzorka??””

Moguće klasifikacije date su skupom Moguće klasifikacije date su skupom VV..

Uverljivost svake klasifikacije:Uverljivost svake klasifikacije:

Potrebno je modelovati Potrebno je modelovati P(vP(vjj|h|hii))..

Hh

iijj

i

DhPhvPDvP )|()|()|(

Optimalni bajesovski klasifikatorOptimalni bajesovski klasifikator U slučaju binarne klasifikacije gde se razmatra pripadnost U slučaju binarne klasifikacije gde se razmatra pripadnost

konceptu koji predstavljaju hipoteze.konceptu koji predstavljaju hipoteze.

V={-,+}, P(-|hV={-,+}, P(-|hii) = P(h) = P(hii(x) = 0)(x) = 0), , P(+|hP(+|hii) = P(h) = P(hii(x) = 1)(x) = 1)

Primer – Primer – P(hP(h11|D) = 0.4|D) = 0.4, , P(hP(h22|D) = P(h|D) = P(h33|D) = 0.3|D) = 0.3. Za dato . Za dato x, x, hh11(x) = 0, h(x) = 0, h22(x) = h(x) = h33(x) = 1(x) = 1. .

Sve tri hipoteze su konzistentne sa D, ali pravi koncept nije Sve tri hipoteze su konzistentne sa D, ali pravi koncept nije poznat. Dve hipoteze, sa kumulativnom uverljivošću od 0.6 poznat. Dve hipoteze, sa kumulativnom uverljivošću od 0.6 tvrde da tvrde da xx pripada traženom konceptu, dok jedna sa pripada traženom konceptu, dok jedna sa uverljivošću 0.4 tvrdi da ne pripada.uverljivošću 0.4 tvrdi da ne pripada.

Uverljivost da Uverljivost da xx pripada konceptu je 0.6. pripada konceptu je 0.6.

Najuverljivija hipoteza ne daje i najuverljiviju klasifikaciju!Najuverljivija hipoteza ne daje i najuverljiviju klasifikaciju!

Optimalni bajesovski klasifikatorOptimalni bajesovski klasifikator

Za data početna uverenja o Za data početna uverenja o hipotezama, razmotreni skup obuke i hipotezama, razmotreni skup obuke i modelovane verodostojnosti, ovaj modelovane verodostojnosti, ovaj način klasifikacije je optimalan.način klasifikacije je optimalan.

Problem: računska neefikasnost u Problem: računska neefikasnost u slučaju velikog broja konzistentnih slučaju velikog broja konzistentnih hipoteza.hipoteza.

Naivni bajesovski klasifikatorNaivni bajesovski klasifikator

Optimalni bajesovski klasifikator ne daje Optimalni bajesovski klasifikator ne daje direktnu mogućnost n-arne klasifikacije.direktnu mogućnost n-arne klasifikacije.

Razlog: polazi se od konceptualizacije Razlog: polazi se od konceptualizacije podataka koja je po prirodi binarna podataka koja je po prirodi binarna klasifikacija.klasifikacija.

Naivni bajesovski klasifikator daje Naivni bajesovski klasifikator daje drugačiju primenu Bajesove teoreme na n-drugačiju primenu Bajesove teoreme na n-arnu klasifikaciju.arnu klasifikaciju.

Naivni bajesovski klasifikatorNaivni bajesovski klasifikator

Uzorci se predstavljaju torkama atributa.Uzorci se predstavljaju torkama atributa.

Moguće klasifikacije (etikete) su date skupom V.Moguće klasifikacije (etikete) su date skupom V.

Najuverljivija klasifikacija uzorka je:Najuverljivija klasifikacija uzorka je:

Ocena faktora Ocena faktora P(vP(vjj)) iz skupa obuke, ocena faktora iz skupa obuke, ocena faktora P(aP(a11, a, a22,…,a,…,ann|v|vjj)) teška! teška!

)()|,...,,(maxarg

.),,...,,|(maxarg

21

21

jjnVv

MAP

njVv

MAP

vPvaaaPv

tjaaavPv

j

j

Naivni bajesovski klasifikatorNaivni bajesovski klasifikator Rešenje: pretpostavlja se uslovna nezavisnost atributa u Rešenje: pretpostavlja se uslovna nezavisnost atributa u

prisustvu bilo koje klasifikacije.prisustvu bilo koje klasifikacije.

Tada je najuverljivija klasifikacija:Tada je najuverljivija klasifikacija:

pri čemu je vrednosti pri čemu je vrednosti P(aP(aii|v|vjj)) lakše oceniti. lakše oceniti.

Pretpostavka o nezavisnosti daje reč “naivni” u imenu.Pretpostavka o nezavisnosti daje reč “naivni” u imenu.

Vrlo jaka pretpostavka, često netačna, dobri rezultati u praksi Vrlo jaka pretpostavka, često netačna, dobri rezultati u praksi uz oprez u primeni.uz oprez u primeni.

i

jijVv

NB vaPvPvj

)|()(maxarg

Primer – klasifikacija tekstaPrimer – klasifikacija teksta Binarna (npr. spam)Binarna (npr. spam)

N-arna (npr. određivanje autorstva)N-arna (npr. određivanje autorstva)

Atributi teksta: reči, Atributi teksta: reči, aaii je reč na je reč na ii-toj -toj poziciji u tekstu.poziciji u tekstu.

U slučaju spam-a, moguće klasifikacije su U slučaju spam-a, moguće klasifikacije su {0,1}.{0,1}.

P(0) P(0) i P(1) se lako ocenjuju na osnovu i P(1) se lako ocenjuju na osnovu datih tekstova i njihovih klasifikacija.datih tekstova i njihovih klasifikacija.

Primer – klasifikacija tekstaPrimer – klasifikacija teksta Pretpostavlja se nezavisnost reči od drugih reči i reči od Pretpostavlja se nezavisnost reči od drugih reči i reči od

pozicija u tekstu.pozicija u tekstu.

Pretpostavke su jake, često netačne, ali dobijaju se dobri Pretpostavke su jake, često netačne, ali dobijaju se dobri rezultati u praksi.rezultati u praksi.

Ako je V={0,1}, najuverljivija klasifikacija teksta data je Ako je V={0,1}, najuverljivija klasifikacija teksta data je naivnim bajesovskim klasifikatorom kao:naivnim bajesovskim klasifikatorom kao:

P(wP(wii|v|vjj)) se ocenjuje kao broj pojavljivanja reči se ocenjuje kao broj pojavljivanja reči wwi i u osnosu na u osnosu na ukupan broj reči.ukupan broj reči.

Vokabularw

jijv

NB

ij

vwPvPv )|()(maxarg}1,0{

Primer – klasifikacija tekstaPrimer – klasifikacija teksta

Lako se proširuje na n-arnu klasifikaciju.Lako se proširuje na n-arnu klasifikaciju.

Jedan eksperiment:Jedan eksperiment:• 20 konferencija na Internetu20 konferencija na Internetu• Po 1000 članaka iz svake za obukuPo 1000 članaka iz svake za obuku• Od njih, 1/3 za verifikaciju, 2/3 za ocenuOd njih, 1/3 za verifikaciju, 2/3 za ocenu• Vokabular od 38500 engleskih rečiVokabular od 38500 engleskih reči• Uspešnost klasifikacije čak 89%!Uspešnost klasifikacije čak 89%!

Bajesovske mreže uverenjaBajesovske mreže uverenja Dosadašnji problem: ignorisanje Dosadašnji problem: ignorisanje

međusobnih zavisnosti atributa/dokaza.međusobnih zavisnosti atributa/dokaza.

Bajesovske mreže uverenja daju Bajesovske mreže uverenja daju kompromis – posmatraju se samo neke kompromis – posmatraju se samo neke zavisnosti.zavisnosti.

Promenljive se prikazuju acikličnim Promenljive se prikazuju acikličnim usmerenim grafom.usmerenim grafom.

Grane grafa opisuju zavisnosti.Grane grafa opisuju zavisnosti.

ZaključakZaključak Formalni okvir za učenje i odlučivanje u prisustvu Formalni okvir za učenje i odlučivanje u prisustvu

neizvesnosti.neizvesnosti.

Određivanje naujverljivije hipoteze pod datim Određivanje naujverljivije hipoteze pod datim pretpostavkama.pretpostavkama.

Određivanje najuverljivije klasifikacije sa Određivanje najuverljivije klasifikacije sa najmanjom verovatnoćom greške.najmanjom verovatnoćom greške.

N-arna klasifikacija objekata opisanih nezavisnim N-arna klasifikacija objekata opisanih nezavisnim atributima.atributima.

Analiza međusobnih zavisnosti kod kompleksnih Analiza međusobnih zavisnosti kod kompleksnih problema preko mreža uverenja.problema preko mreža uverenja.

Documents

Bajesovsko učenje