4. TESTIRANJE HIPOTEZA testiranjem hipotezaautomatika.etf.bg.ac.rs/images/FAJLOVI_srpski/predmeti/izborni_kur… · Poslednja relacija pokazuje da je granica odlučivanja kvadratna

27

4. TESTIRANJE HIPOTEZA

Osnovni cilj prepoznavanja oblika jeste da se donese odluka kojoj kategoriji posmatrani uzorak

pripada a na osnovu opservacija ili merenja formira se vektor merenja. Ovaj vektor služi kao ulaz u pravilo

odlučivanja kroz koje se ovaj vektor pridružuje nekoj od analiziranih klasa. Pod testiranjem hipoteza se

podrazumeva čitava familija metoda koje rešavaju ovaj problem. Nije preterivanje ako kažemo da su to

najmoćnije metode za prepoznavanje oblika. Međutim, one nisu uvek lako primenjive jer podrazumevaju

poznavanje združenih funkcija gustine verovatnoća oblika iz svih klasa ponaosob. Ovo je, često,

informacija koja nije dostupna i zato su se istraživači u ovoj oblasti pobrinuli da isprojektuju i drugačije

pristupe, koji možda nisu tako moćni, ali su zato primenjivi i onda kada funkcije gustine verovatnoća nisu

poznate. U svakom slučaju, u ovom delu teksta će biti prikazani osnovni principi i rešenja u primeni

metodologije testiranja hipoteza za rešavanje problema prepoznavanja oblika.

Pretpostavimo da je merni vektor slučajni vektor čija uslovna funkcija gustine verovatnoće zavisi

od klase iz koje oblik dolazi. Ukoliko su ove uslovne funkcije gustina verovatnoće poznate, tada se problem

prepoznavanja oblika svodi na problem statističkog testiranja hipoteza. Posmatrajmo za početak slučaj

dveju klasa 1 i 2

čije su nam apriorne verovatnoće pojavljivanja (𝑃1 i 𝑃2) poznate kao i odgovarajuće

aposteriorne funkcije gustine verovatnoće mernih vektora (𝑓1(𝑋) = 𝑓(𝑋/𝜔1) i 𝑓2(𝑋) = 𝑓(𝑋/𝜔2)).

Bajesovo pravilo odlučivanja minimalne greške

Neka je X merni vektor i neka je naš trenutni zadatak da odredimo kojoj od dveju analiziranih klasa

ovaj vektor pripada. Jednostavno pravilo odlučivanja može se bazirati na osnovu uslovnih verovatnoća

1 1Pr /q X X i 2 2Pr /q X na sledeći način:

1 2 1

1 2 2

q X q X X

q X q X X

(4.1)

Aposteriorne verovatnoće iq X predstavljaju uslovnu verovatnoću da oblik X dolazi iz klase 𝜔𝑖 ako je

poznata njegova numerička vrednost, odnosno realizacija. Ove se verovatnoće mogu sračunati na osnovu

apriornih verovatnoća pojava klasa Pi i aposteriornih funkcija gustina verovatnoća mernih vektora

/i X if X f X , koristeći Bajesovu teoremu:

28

1 1 2 2

i i i i

i

f X P f X Pq X

f X f X P f X P

(4.2)

Kako je miksovana ( apriorna ) funkcija gustine verovatnoće pozitivna i zajednička za obe aposteriorne

verovatnoće, pravilo odlučivanja se može napisati u sledećoj formi:

1 1 2 2 1

1 1 2 2 2

P f X P f X X

P f X P f X X

(4.3)

ili

1 21

2 1

1 22

2 1

f X Pl X X

f X P

f X Pl X X

f X P

(4.4)

Izraz l X se naziva količnik verodostojnosti ( likelihood ratio ) i to je vrlo važna veličina u prepoznavanju

oblika. Količnik P P2 1/ naziva se vrednošću praga ( threshold value ) u odlučivanju. Uobičajeno je da se na

količnik verodostojnosti primeni funkcija negativnog prirodnog logaritma, i tada pravilo odlučivanja dobija

formu:

11 2 1

2

11 2 2

2

ln ln ln ln

ln ln ln ln

Ph X l X f X f X X

P

Ph X l X f X f X X

P

(4.5)

Znak nejednakosti je promenio smer jer smo primenili funkciju negativnog algoritma. Izraz h X se

naziva diskriminacionom funkcijom. Dalje ćemo podrazumevati da je 1 2 1 20.5 ln / 0P P P P ,

ukoliko drugačije ne bude bilo naglašeno. Navedena pravila odlučivanja se nazivaju Bajesovim pravilom

ili testom odlučivanja minimalne greške.

U analizi navedenog pravila vrlo je važno odrediti verovatnoću greške odlučivanja. Jasno je da

ovakvo i svako drugo pravilo ne obezbeđuje savršeno klasifikovanje. Pod verovatnoćom greške se

podrazumeva verovatnoća događaja da će pravilo doneti pogrešnu odluku o pripadanju mernog vektora

klasi. Uslovna verovatnoća greške za zadati merni vektor X, označimo je sa 𝑟(𝑋), jednaka je manjoj od

verovatnoća 1q X i 2q X , tj.

29

1 2min ,r X q X q X (4.6)

Ukupna greška koja se naziva Bajesovom greškom, označimo je sa , računa se na sledeći način:

2 1

1 2

1 1 2 2 1 1 2 2

1 1 2 2

min ,

min ,L L

E r X r X f X dX q X q X f X dX

P f X P f X dX P f X dX P f X dX

P P

(4.7)

gde je

2 1

1 1 2 2;L L

f X dX f X dX (4.8)

Verovatnoća 𝜀1 se naziva verovatnoćom greške prvog tipa i predstavlja verovatnoću da oblik koji dolazi iz

prve klase bude pogrešno klasifikovan. Slično tome, verovatnoća 𝜀2 se naziva verovatnoćom greške

drugog tipa i predstavlja verovatnoću da oblik koji dolazi iz druge klase bude pogrešno klasifikovan.

Relacija (4.7) omogućava nekoliko načina da se odredi Bajesova greška . Prva jednakost predstavlja

definiciju ove greške, dok je druga dobijena primenom Bajesove teoreme. Oblast integracije L1 je ona

oblast iz koje pravilo odlučivanja merne vektore X pridružuje klasi 1 i analogno tome oblast integracije

L2 odgovara onim vektorima X koje pravilo odlučivanja klasifikuje u klasu 2. Shodno tome ove se oblasti

često nazivaju 1-oblast i 2

-oblast, respektivno. Za merne vektore iz oblasti L1 važi relacija

1 1 2 2P f X P f X i prema tome uslovna verovatnoća greške iznosi 2 2 /r X P f X f X , i

analogno tome za vektore iz oblasti L2 važi 1 1 /r X P f X f X . Na osnovu toga možemo reći da se

Bajesova verovatnoća greške sastoji iz dva člana. Jedan od njih se odnosi na loše klasifikovane vektore iz

klase 1, dok se drugi odnosi na loše klasifikovane vektore iz klase 2.

30

𝐿1′ 𝐿2

′

𝐿1 𝐿2

𝑡 𝑡′

𝐴 𝐵 𝐶

𝐷

𝑃1𝑓1(𝑥) 𝑃2𝑓2(𝑥)

𝑥

Slika 4.1: Ilustracija klasifikacije jednodimenzionih slučajnih promenljivih

Na slici 4.1 je ilustrovano Bejesovo pravilo odlučivanja jednodimenzionalnih mernih vektora: Granica

odluke je postavljena na x = t, а to je tačka u kojoj je je 1 1 2 2P f x P f x a oblasti x t i x t su

označene kao 𝐿1 i 𝐿2, respektivno. Na taj način verovatnoće greški postaju P B C1 1 i P A2 2 a

ukupna Bajesova greška postaje A B C, gde A, B i C označavaju naznačene površine, na primer :

'

1 1

t

tB P f x dx .

Ovakvo pravilo odlučivanja generiše najmanju moguću verovatnoću greške odlučivanja. Ovo se

tvrđenje vrlo jednostavno može dokazati. Pretpostavimo da je granica odlučivanja pomerena iz tačke t u

tačku t'. Tada se oblast mernog vektora X deli u regione označene kao L1 ' i L2 ' , a ukupna verovatnoća

greške postaje ' A B C D. Kako je D veće od nule, jasno je da važi relacija ' . Analogan rezultat

se može dobiti ukoliko se granica odlučivanja t pomeri udesno. Ovakav način razmišljanja se može proširiti

i na n-dimenzione merne vektore.

Izračunavanje Bajesove verovatnoće greške je vrlo kompleksan problem, jer se ova verovatnoća

sračunava integraljenjem funkcije gustine verovatnoće, koja je funkcija više promenljivih, po vrlo

kompleksnim oblastima. Zbog toga je, vrlo često, mnogo zahvalnije problem posmatrati u domenu

diskriminacione funkcije, i integraljenje vršiti po njoj. Kako je u pitanju skalarna slučajana promenljiva,

problem integraljenja se svodi na integraljenje u jednodimenzionom prostoru. Drugim rečima:

1 2ln /

1 1/P P

hf h dh

(4.9)

31

1 2

2 2ln /

/hP P

f h dh

(4.10)

gde je /h if h aposteriorna funkcija gustine verovatnoće vrednosti diskriminacione funckije h za

odbirke koji dolaze iz klase 𝜔𝑖.

Primer 4.1: Ako su aposteriorne funkcije gustine if X , 𝑖 = 1,2, normalne sa vektorima matematičkog

očekivanja Mi i kovarijacionim matricama i , Bajesovsko pravilo odlučivanja minimalne verovatnoće

greške postaje:

11

2

12

2

ln

ln

Ph X X

P

Ph X X

P

(4.11)

gde je

11 1

1 1 1 2 2 2

2

ln

1 1 1ln

2 2 2

t t

h X l X

X M X M X M X M

(4.12)

Poslednja relacija pokazuje da je granica odlučivanja kvadratna funkcija po X. Ukoliko je 1 2 ,

granica odlučivanja postaje linearna funkcija po X :

1 1 1

2 1 1 1 2 2

1

2

t T th X M M X M M M M (4.13)

Na sledećoj slici, 4.2, su prikazana četiri karakteristična primera dveju Gausovski raspodeljenih klasa sa

odgovarjućim 𝑑2 krivama i krivama Bajesovskog klasifikatora. U zavisnosti od statistika raspodela klasa,

kao klasifikator se može dobiti (a) parabola, (b) prava, (c) hiperbola ili (d) elipsa.

32

𝜔1

𝜔2

𝑀1

𝑥1

𝑥2

𝑥1

𝑥2

𝑀1

𝑀2 𝑀2

𝜔2

𝜔1

ℎ(𝑥1, 𝑥2) = 0 ℎ(𝑥1, 𝑥2) = 0

𝜔1

𝜔2 𝑀1

𝑥1

𝑥2

𝑀2

ℎ(𝑥1, 𝑥2) = 0

ℎ(𝑥1, 𝑥2) = 0

𝑥2

𝑥1

𝜔1 𝜔2

ℎ(𝑥1, 𝑥2) = 0

𝑀1=𝑀2

Slika 4.2: Karakteristični oblici Bajesovskih klasifikatora zavisno od statistika raspodela klasa

Bajesovo pravilo odlučivanja minimalne cene

Vrlo često, u praksi, minimizacija verovatnoće greške nije najbolji kriterijum za projektovanje

pravila odlučivanja. Naime, često je slučaj da da greška kada se merni vektor iz prve klase pridruži drugoj

nema istu težinu kao kada se merni vektor iz druge klase pridruži prvoj. Dobar primer za ilustraciju ovakve

situacije jeste prepoznavanje oboljenja u medicini. Zbog toga se uvode cene za svaku od mogućih odluka,

na sledeći način:

c X Xij i j cena odluke kada zapravo

Tada uslovna cena odluke X i , kada je dat merni vektor X, označimo je sa ir X , iznosi:

33

1 1 2 2i i ir X c q X c q X (4.14)

Logično je, da shodno ovako definisanom kriterijumu, pravilo odlučivanja dobije formu:

1 2 1

1 2 2

r X r X X

r X r X X

(4.15)

a tada apriorni rizik dobija oblika:

1 2min ,r X r X r X (4.16)

Ukupna cena (rizik) ovakvog odlučivanja se može sračunati na sledeći način:

1 2

1 2

11 1 12 2 21 1 22 2

11 1 1 12 2 2 21 1 1 22 2 2

11 1 1 12 2 2 21 1 1 22 2 2

min ,

min ,

min ,

L L

r E r X r X r X f X dX

c q X c q X c q X c q X f X dX

c P f X c P f X c P f X c P f X dX

c P f X c P f X dX c P f X c P f X dX

(4.17)

gde su sa L1 i L2 označene oblasti u prostoru vektora merenja, iz kojih pravilo klasifikacije merne vektore

klasifikuje u prvu, odnosno u drugu klasu.

Pravilo odlučivanja koje će minimizirati ukupnu cenu odlučivanja r može se isprojektovati na

sledeći način. Prepišimo poslednju relaciju tako da ona ostane samo funkcija od oblasti L1, uzimajući u

obzir jednakost

2 1

1i i

L L

f X dX f X dX , 𝑖 = 1,2 (4.18)

koja važi usled činjenica L L L LX1 2 1 2 i . Tada ukupna cena postaje:

1

21 1 22 2 11 21 1 1 12 22 2 2

L

r c P c P c c P f X c c P f X dX (4.19)

Sada se problem minimizacije cene r svodi na problem određivanja optimalne oblasti L1 . Pretpostavimo

da je za neki merni vektor X podintegralna funkcija u poslednjoj relaciji negativna. Takav merni vektor

treba pridružiti prvoj klasi jer se na taj način smanjuje ukupna cena r. Obrnuto, ukoliko za merni vektor X

podintegralna funkcija ima pozitivnu vrednost, taj vektor ne treba da se nalazi u oblasti L1 jer bi se na taj

način povećavala cena odlučivanja. Shodno tome, zaključujemo da granicu odlučivanja treba da čini

geometrijsko mesto slučajnih vektora za koje podintegralna funkcija ima vrednost nula, odnosno

optimalno pravilo odlučivanja koje minimizira cenu odlučivanja ima formu:

34

12 22 2 2 21 11 1 1 1

12 22 2 2 21 11 1 1 2

c c P f X c c P f X X

c c P f X c c P f X X

(4.20)

ili drugačije zapisano

1 12 22 2

1

2 21 11 1

1 12 22 2

2

2 21 11 1

f X c c PX

f X c c P

f X c c PX

f X c c P

(4.21)

Ovakvo se pravilo odlučivanja naziva Bajesovim pravilom odlučivanja minimalne cene. Primetimo da se

ovakvo pravilo odlučivanja može smatrati Bajesovim pravilom odlučivanja minimalne greške samo sa

promenjenim pragom odlučivanja. Minimalna cena postaje isto što i minimalna verovatnoća greške

odlučivanja ukoliko se primene takozvane simetrične cene odlučivanja:

c c c c21 11 12 22 (4.22)

Različite cene odluka se primenjuju onda kada je pogrešna odluka za jednu klasu mnogo kritičnija od

pogrešne odluke za drugu klasu.

Na slici 4.3 je prikazan primer koji ilustruje značaj i efekat promene ovih cena. Prilikom realizacije

ovog primera usvojeno je da su cene tačnih odluka jednake nuli (𝑐11 = 𝑐22 = 0) i sračunate su

klasifikacione linije za tri različita odnosa odnosa cena pogrešnih odluka: 𝑐12 = 𝑐21,

𝑐12 = 3𝑐21 i 3𝑐12 = 𝑐21. Slučaj 𝑐12 = 𝑐21 zapravo odgovara Bajesovskom pravilu minimalne

verovatnoće greške, a povećavanje cene 𝑐21 pomera granicu odlučivanja dalje od klase 𝜔1 prema klasi

𝜔2 jer je cena koja se plaća kada se oblik iz prve klase pogrešno klasifikuje značajno veća od cene drugog

tipa greške.

35

𝜔1

𝜔2

𝑀2

𝑀1

𝑐11 = 𝑐22 = 0

𝑐21 = 3𝑐12

𝑐12 = 3𝑐21

𝑐21 = 𝑐12

Slika 4.3: Ilustracija klasifikatora minimalne cene

Neyman-Pearson-ov test

Neyman-Pearson-ov test predstavlja treće moguće rešenje problema testiranja hipoteza.

Podsetimo se da prilikom donošenja odluke kojoj od dve moguće klase posmatrani merni vektor pripada,

postoje dva tipa greške. Ponovo označimo ove dve greške kao 1 i 2

. Neyman-Pearson-ov test za svoj cilj

postavlja minimizaciju jedne od njih, recimo 1, dok drugu 2

čuva konstantnom, recimo 2 0 . Dakle,

kreće se od minimizacije kriterijuma:

1 2 0r (4.23)

gde je sa označen Lagranžev multiplikator. Uvrštavajući izraze za 1 i 2

u poslednju relaciju, dobijamo

da kriterijumska funkcija postaje

2 1

1

1 2 0

0 2 11

L L

L

r f X dX f X dX

f X f X dX

(4.24)

Cilj nam je da minimiziramo rizik iz prethodne relacije. Taj rizik se sastoji od dva sabirka od kojih je prvi

konstantan, dok na drugi imamo uticaja. Koristeći potpuno iste argumente kakvi su korišćeni za formiranje

36

pravila Bajesovog odlučivanja minimalne cene, formira se Neyman-Perason-ovo pravilo odlučivanja na

sledeći način:

2 1 1

2 1 2

f X f X X

f X f X X

(4.25)

ili, drugačije zapisano

1

1

2

1

2

2

f XX

f X

f XX

f X

(4.26)

Na osnovu poslednje relacije se opet može doneti zaključak da Neyman-Pearson-ov test nije ništa drugo

do Bajesov test hipoteza sa promenjenim pragom odlučivanja. Drugim rečima, prethodna analiza pokazuje

da se test količnika verodostojnosti može protumačiti i kao test koji minimizira jedan tip greške dok

verovatnoću geške drugog tipa čuva konstantnom. Prag se, za zadato 0, dobija iz sledeće jednakosti

1

2 2 0

L

f X dX (4.27)

gde parametar figuriše u površini po kojoj se integrali, drugim rečima 1 1L L . Očigledno je da

poslednja relacija ne daje eksplicitan metod da se odredi nepoznata vrednost Lagranžeovog

multiplikatora, odnosno praga odlučivanja , što je ključno u procesu projektovanja klasifikatora. Otuda

se, često, u cilju nalaženja odgovarajuće vrednosti parametra , poslednja relacija napiše u domenu

diskriminacione funkcije 1 2ln /h X f X f X . Pod pretpostavkom da nam je poznata

aposteriona funkcija gustine verovatnoće slučajne promenljive h za oblike iz druge klase, relacija (4.27) se

može napisati na sledeći način:

ln

2 2 0/hf h dh

(4.28)

Ni relacija (4.28) ne daje mogućnost da se eksplicitno reši problem i odredi napoznati parametar , već

se rešenje traži pomoću numeričkih metoda. Kako je 2/ 0hf h , 2 je monotono opadajuća funkcija

parametra , otuda se izračunavanjem ove funkcije za nekoliko vrednosti parametara, vrlo tačno može

odrediti željeno , za koje će biti zadovoljena relacija 2 0 . Ovaj postupak je ilustrovan sledećim

primerima.

37

Primer 4.2: Posmatrajmo slučaj dveju klasa sa dvodimenzionim normalnim raspodelama, sledećih

parametara: Mt

1 1 0 ; Mt

2 1 0 ; 1 2 I ; P P1 2 0 5 . . Tada diskriminaciona funkcija

postaje:

1

2 2 21/ 2

22

111 1 11/ 2

1

2 2 1 1 1

1 1exp

22ln ln

1 1exp

22

1 12

2 2

t

t

t t

X M X Mf X

h Xf X

X M X M

X M X M X M X M x

(4.29)

gde je sa x1 označena prva koordinata slučajnog vektora X. Tada Neyman-Pearson-ovo pravilo odlučivanja

postaje:

1 1

1 2

2 ln

2 ln

x X

x X

(4.30)

Jasno je da za različite vrednosti parametra , diskriminaciona funkcija postaje u 1 2,x x ravni, prava

upravna na x1 osu sa apscisom ln / 2 , kako je to prikazano na sledećoj slici 4.4:

𝑥1

𝑥2

1 -1

𝜔1 𝜔2

𝜇 = 4 𝜇 = 0.25

𝜇 = 2 𝜇 = 0.5

Slika 4.4: Ilustracija Neuman-Perasonovog metoda klasifikacije opisanog u primeru 4.2

U sledećoj tabeli su naznačene odgovarajuće vrednosti parametra za neke karakteristične vrednosti

verovatnoće greške 2 :

4 2 1 0.5 0.25

2 0.04 0.09 0.16 0.25 0.38

38

Primer 4.3: Posmatrajmo slučaj dve klase dvodimenzionalnih oblika čije su funkcije gustine verovatnoće

poznate i date u obliku bimodalnih Gausovskih raspodela:

𝑓1(𝑋) = 𝑃11 × 𝑁(𝑀11, Σ11) + 𝑃12 × 𝑁(𝑀12, Σ12)

𝑓2(𝑋) = 𝑃21 × 𝑁(𝑀21, Σ21) + 𝑃22 × 𝑁(𝑀22, Σ22)

gde je

𝑃11 = 0.6, 𝑃12 = 0.4, 𝑀11 = [11

] , Σ11 = [4 1.1

1.1 2] , 𝑀12 = [

64

] , Σ12 = [3 −0.8

−0.8 1.5]

𝑃21 = 0.55, 𝑃22 = 0.45, 𝑀21 = [7

−4] , Σ21 = [

2 1.11.1 4

] , 𝑀22 = [60

] , Σ22 = [3 0.8

0.8 0.5]

Na slici 4.5 su prikazane ove dve klase pomoću krivih koje predstavljaju geometrijska mesta tačaka sa

konstantnom vrednošću funkcije gustine verovatnoće. Pošto raspodele nisu normalne ni ove krive neće

biti elipse, a vrednosti konstantnih funkcija gustine verovatnoće za koje su krive prikazane su izabrane kao

određeni procenat maksimalne vrednosti 𝑓_𝑚𝑎𝑥.

𝑥1

𝑥2 𝜔1

𝜔2

0.8𝑓𝑚𝑎𝑥

0.6𝑓𝑚𝑎𝑥

0.3𝑓𝑚𝑎𝑥

0.8𝑓𝑚𝑎𝑥

0.2𝑓𝑚𝑎𝑥

0.05𝑓𝑚𝑎𝑥

Slika 4.5: Geometrijska mesta tačaka sa konstantnom funkcijom gustine verovatnoće za zadate klase u

dvodimenzionom prostoru

U cilju projektovanja Neuman-Pearson-ovog testa, neophodno je odrediti parametar 𝜇 koji se pak,

najjednostavnije dobija iz uslova

39

∫ 𝑓ℎ(ℎ/𝜔2)−ln (𝜇)

−∞

𝑑ℎ = 𝜀0

Poslednja relacija govori o tome da je potrebno poznavati funkciju gustine verovatnoće slučajne

promeniljive ℎ(𝑋) = −ln (𝑓1(𝑋)

𝑓2(𝑋)) pod uslovom da vektor dolazi iz druge klase. Kako je ovu funkciju gustine

verovatnoće teško, a ponekada i nemoguće, analitički odrediti, do nje ćemo doći esperimentom.

Generisaćemo veliki broj slučajnih vektora iz druge klase i za svaki od njih odrediti vrednost

diskriminacione funkcije, a zatim, primenom histograma, proceniti funkciju gustine verovatnoće

𝑓ℎ(ℎ/𝜔2). Ovakva procena funkcije gustine verovatnoće, korišćenjem tehnike histograma, je prikazana

na slici 4.6.

h

𝑓ℎ (ℎ/𝜔2)

Slika 4.6: Procena funkcije gustine verovatnoće diskriminacione funkcije za odbirke iz druge glase

primenom histograma

Sada je na osnovu ovako dobijene procene funkcije gustine verovatnoće moguće formirati zavisnost

verovatnoće greške drugog tipa 𝜀0 od parametra 𝜇. Ova se zavisnost dobija na osnovu relacije (4.28) i neke

od tehnika za numeričku integraciju funkcija jedne promenljive. Primenom trapeznog pravila dobija se

rezultat koji je prikazan na slici 4.7. Sa ove slike se vidi, da je za proizvoljnu zadatu, željenu grešku drugog

tipa, moguće jednostavno odrediti parametar 𝜇 koji nam je potreban za definisanje klasifikatora 4.26.

40

𝜇

𝜀0

Slika 4.7: Zavisnost verovatnoće greške drugog tipa od parametra 𝜇

Na osnovu ovog dijagrama je moguće jednostavno zaključiti kolika vrednost praga odlučivanja 𝜇 za

posledicu ima koliku vrednost verovatnoće greške drugog tipa 𝜀2.

ℎ(𝑋) = −𝑙𝑛𝜇

𝑥1

𝑥2

𝜔1

𝜔2

Slika 4.8: Odbirci klasa u dvodimenzionom prostoru sa Neyman-Pearson-ovim klasifikatorom

41

Tako je na primer moguće videti da za željenu grešku drugog tipa od 𝜀2 = 𝜀0 = 0.05, parametar 𝜇 iznosi

0.2349. Na taj način je moguće isprojektovati klasifikator, a njegova lokacija, zajedno sa odbircima iz obeju

klasa je prikazana na slici 4.8. U želji da se proveri u kojoj meri ovakav klasifikator zaista obezbeđuje

zahtevanu grešku drugog reda, izgenerisano je po 10000 odbiraka iz obeju klasa i, na osnovu broja

pogrešno procenjenih odbiraka, dobijene su s procene 𝜀1̂ = 0.0131 i 𝜀2̂ = 0.0492.

Minimax test

Podsetimo se da je u Bajesovom testu minimalne verovatnoće greške kao i u testu minimalne cene,

količnik verodostojnosti poređen sa vrednošću praga koji je neka funkcija apriornih verovatnoća pojave

klasa 𝑃1 i 𝑃2. Dakle, prilikom projektovanja ovih pravila odlučivanja neophodno je prethodno poznavati

ove verovatnoće i posle završenog projektovanja procedura će ostati optimalna samo pod uslovom da se

ove verovatnoće ne menjaju. Na nesreću, u praksi se ovakav scenario gotovo nikada ne događa. Naprotiv,

ove se verovatnoće uglavnom ne znaju a i da su poznate u jednom trenutku, nije verovatno da se one

tokom vremena neće menjati. Minimaxni test se projektuje tako da zaštiti performanse pravila odlučivanja

čak iako se ove verovatnoće menjaju drastično i po potpuno nepoznatim zakonitostima. U daljem tekstu

ćemo analizirati Bajesov test minimalne cene i pokušaćemo da ga učinimo nezavisnim od aprironih

verovatnoća pojavljivanja. Podsetimo se izraza (4.19) za ukupnu cenu prilikom odlučivanja:

1

21 1 22 2 11 21 1 1 12 22 2 2

L

r c P c P c c P f X c c P f X dX (4.31)

Ukoliko se u poslednjem izrazu uzme u obzir da je P P2 11 i 1 2

1 21L L

f X dX f X dX , dobija se

sledeći rezultat:

1

2 1

22 12 22 2

1 11 22 21 11 1 12 22 2

L

L L

r c c c f X dX

P c c c c f X dX c c f X dX

(4.32)

Poslednja relacija pokazuje, da je rizik r, onog momenta kada se granice L1 i L2 odrede, linearna funkcija

verovatnoće P1.

Shodno tome možemo napraviti dva misaona eksperimenta. U jednom od njih bismo dozvolili da

se apriorna verovatnoće 𝑃1 menja u intervalu od 0 do 1 sa nekim malim koracima, i za svaku od tih

42

verovatnoća bi mogli da isprojektujemo optimalni klasifikator minimalne cene i da za svaki od njih

sračunamo rizik 𝑟𝑜𝑝𝑡(𝑃1). Tada bismo mogli na jednom dijagramu, kakav je prikazan na slici 4.9, da

prikažemo kako izgleda ova zavisnost optimalnog rizika od promenljive verovatnoće 𝑃1. Ovaj dijagram,

označen kao 𝑟𝑜𝑝𝑡(𝑃1), je prikazan punom linijom i generisan je za slučaj dveju klasa definisanih u

prethodnom primeru 4.3 i za sistem cena 𝑐11 = 𝑐22 = 0, 𝑐12 = 2𝑐21 = 1. Primetimo da ova kriva ima tri

očekivane osobine. Prvo, sve vreme je pozitivna, što je očekivano s obzirom na prirodu definicije rizika

(integral funkcije gustine verovatnoće pomnožene nekom nenegativnom realnom vrednošću (cenom)).

Dalje, logično je da 𝑟𝑜𝑝𝑡(𝑃1 = 0) i 𝑟𝑜𝑝𝑡(𝑃1 = 1) bude nula, jer u ovim situacijama imamo problem samo

jedne klase (druga se pojavljuje sa verovatnoćom nula), pa i nema rizika.

𝑃1

𝑟𝑜𝑝𝑡 (𝑃1)

𝑟(𝑃1)

A

B

C

𝑃1∗

Slika 4.9: Zavisnost rizika od vrednosti apriorne verovatnoće 1P

Drugi misaoni ekspriment bi se sastojao u tome da se sračuna diskriminaciona funkcija za neku konkretnu

vrednost apriorne verovatnoće 𝑃1, recimo 𝑃1 = 0.3, da se ova funkcija fiksira a da se zatim promene

apriorne verovatnoće 𝑃1 i 𝑃2. Jasno je da takav klasifikator ne bi bio optimalan, jer prilikom projektovanja

diskriminacione funkcije nisu uzete u obzir aktuelne apriorne verovatnoće, i na osnovu relacije (4.32)

postaje jasno, da bi u tom slučaju, funkcija 𝑟(𝑃1) bila linearna. Sa druge strane, lako se pokazuje da je prvi

izvod rizika po 𝑃1 zadatog relacijom (4.31) jednak koeficijentu koji množi 𝑃1 u (4.32), što nas dovodi do

43

zaključka da kriva, označena sa 𝑟(𝑃1), treba da tangira krivu 𝑟𝑜𝑝𝑡(𝑃1) u tački 𝑃1 = 0.3, označenoj kao

tačka A. Ovakav rezultat nas dovodi do zaključka da nepoznavanje apriorne verovatnoće pojavljivanja

klasa, ili njihova nestacionarnost u vremenu, mogu da rezultuju primenom klasifikatora sa velikim rizikom.

Dobar primer je tačka B na dijagramu koja pokazuje vrlo veliki rizik u uslovima kada, recimo, verovatnoća

𝑃1 postaje bliska vrednosti 1, a klasifikator je isprojektovan pod pretpostavkom 𝑃1 ≈ 0.3.

U želji da se ovakva destrukcija performansi pravila odlučivanja spreči, jedan od mogućih pristupa

je da se na dijagramu 𝑟𝑜𝑝𝑡(𝑃1) među svim stacionarnim tačkama koje zadovoljavaju uslov nultog izvoda

(𝑑𝑟𝑜𝑝𝑡(𝑃1)

𝑑𝑃1= 0), izabere stacionarna tačka 𝑃1

∗ čija je vrednost rizika minimalna. Na dijagramu je ova tačka

označena sa C. Takvim izborom se sa promenom verovatnoće 𝑃1 neće menjati ukupna cena odlučivanja.

Shodno ovom razmišljanju, granice odlučivanja treba postaviti tako da koeficijent koji množi verovatnoću

P1 u poslednjoj relaciji bude jednak nuli:

2 1

11 22 21 11 1 12 22 2 0L L

c c c c f X dX c c f X dX (4.33)

što drugim rečima znači da se oblasti L1 i L2 odrede tako da bude zadovoljena sledeća relacija:

1

21 11 1 12 22 2 21 22

L

c c f X c c f X dX c c (4.34)

što opet predstavlja problem koji treba numerički rešavati. U specijalnom slučaju, kada je c c11 22 i

c c12 21 , minimax-no pravilo odlučivanja postaje:

2 1 1

1 2 1 21L L L

f X dX f X dX f X f X dX (4.35)

što će rezultovati pravilom odlučivanja u kome su verovatnoće greške prvog i drugog tipa jednake:

1 2 (4.36)

Ovaj metod je dobio ime min-max test hipoteza jer se realizuje tako što se na grafiku optimalnog rizika

potraži tačka maksimuma, što je po pitanju optimalnog rizika najgori mogući slučaj, ali se zato, na taj način,

minimizira šteta koja može nastati promenom apriorne verovatnoće pojave klasa.

Documents

4. TESTIRANJE HIPOTEZA testiranjem hipotezaautomatika.etf.bg.ac.rs/images/FAJLOVI_srpski/predmeti/izborni_kur… · Poslednja relacija pokazuje da je granica odlučivanja kvadratna