Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
27
4. TESTIRANJE HIPOTEZA
Osnovni cilj prepoznavanja oblika jeste da se donese odluka kojoj kategoriji posmatrani uzorak
pripada a na osnovu opservacija ili merenja formira se vektor merenja. Ovaj vektor služi kao ulaz u pravilo
odlučivanja kroz koje se ovaj vektor pridružuje nekoj od analiziranih klasa. Pod testiranjem hipoteza se
podrazumeva čitava familija metoda koje rešavaju ovaj problem. Nije preterivanje ako kažemo da su to
najmoćnije metode za prepoznavanje oblika. Međutim, one nisu uvek lako primenjive jer podrazumevaju
poznavanje združenih funkcija gustine verovatnoća oblika iz svih klasa ponaosob. Ovo je, često,
informacija koja nije dostupna i zato su se istraživači u ovoj oblasti pobrinuli da isprojektuju i drugačije
pristupe, koji možda nisu tako moćni, ali su zato primenjivi i onda kada funkcije gustine verovatnoća nisu
poznate. U svakom slučaju, u ovom delu teksta će biti prikazani osnovni principi i rešenja u primeni
metodologije testiranja hipoteza za rešavanje problema prepoznavanja oblika.
Pretpostavimo da je merni vektor slučajni vektor čija uslovna funkcija gustine verovatnoće zavisi
od klase iz koje oblik dolazi. Ukoliko su ove uslovne funkcije gustina verovatnoće poznate, tada se problem
prepoznavanja oblika svodi na problem statističkog testiranja hipoteza. Posmatrajmo za početak slučaj
dveju klasa 1 i 2
čije su nam apriorne verovatnoće pojavljivanja (𝑃1 i 𝑃2) poznate kao i odgovarajuće
aposteriorne funkcije gustine verovatnoće mernih vektora (𝑓1(𝑋) = 𝑓(𝑋/𝜔1) i 𝑓2(𝑋) = 𝑓(𝑋/𝜔2)).
Bajesovo pravilo odlučivanja minimalne greške
Neka je X merni vektor i neka je naš trenutni zadatak da odredimo kojoj od dveju analiziranih klasa
ovaj vektor pripada. Jednostavno pravilo odlučivanja može se bazirati na osnovu uslovnih verovatnoća
1 1Pr /q X X i 2 2Pr /q X na sledeći način:
1 2 1
1 2 2
q X q X X
q X q X X
(4.1)
Aposteriorne verovatnoće iq X predstavljaju uslovnu verovatnoću da oblik X dolazi iz klase 𝜔𝑖 ako je
poznata njegova numerička vrednost, odnosno realizacija. Ove se verovatnoće mogu sračunati na osnovu
apriornih verovatnoća pojava klasa Pi i aposteriornih funkcija gustina verovatnoća mernih vektora
/i X if X f X , koristeći Bajesovu teoremu:
28
1 1 2 2
i i i i
i
f X P f X Pq X
f X f X P f X P
(4.2)
Kako je miksovana ( apriorna ) funkcija gustine verovatnoće pozitivna i zajednička za obe aposteriorne
verovatnoće, pravilo odlučivanja se može napisati u sledećoj formi:
1 1 2 2 1
1 1 2 2 2
P f X P f X X
P f X P f X X
(4.3)
ili
1 21
2 1
1 22
2 1
f X Pl X X
f X P
f X Pl X X
f X P
(4.4)
Izraz l X se naziva količnik verodostojnosti ( likelihood ratio ) i to je vrlo važna veličina u prepoznavanju
oblika. Količnik P P2 1/ naziva se vrednošću praga ( threshold value ) u odlučivanju. Uobičajeno je da se na
količnik verodostojnosti primeni funkcija negativnog prirodnog logaritma, i tada pravilo odlučivanja dobija
formu:
11 2 1
2
11 2 2
2
ln ln ln ln
ln ln ln ln
Ph X l X f X f X X
P
Ph X l X f X f X X
P
(4.5)
Znak nejednakosti je promenio smer jer smo primenili funkciju negativnog algoritma. Izraz h X se
naziva diskriminacionom funkcijom. Dalje ćemo podrazumevati da je 1 2 1 20.5 ln / 0P P P P ,
ukoliko drugačije ne bude bilo naglašeno. Navedena pravila odlučivanja se nazivaju Bajesovim pravilom
ili testom odlučivanja minimalne greške.
U analizi navedenog pravila vrlo je važno odrediti verovatnoću greške odlučivanja. Jasno je da
ovakvo i svako drugo pravilo ne obezbeđuje savršeno klasifikovanje. Pod verovatnoćom greške se
podrazumeva verovatnoća događaja da će pravilo doneti pogrešnu odluku o pripadanju mernog vektora
klasi. Uslovna verovatnoća greške za zadati merni vektor X, označimo je sa 𝑟(𝑋), jednaka je manjoj od
verovatnoća 1q X i 2q X , tj.
29
1 2min ,r X q X q X (4.6)
Ukupna greška koja se naziva Bajesovom greškom, označimo je sa , računa se na sledeći način:
2 1
1 2
1 1 2 2 1 1 2 2
1 1 2 2
min ,
min ,L L
E r X r X f X dX q X q X f X dX
P f X P f X dX P f X dX P f X dX
P P
(4.7)
gde je
2 1
1 1 2 2;L L
f X dX f X dX (4.8)
Verovatnoća 𝜀1 se naziva verovatnoćom greške prvog tipa i predstavlja verovatnoću da oblik koji dolazi iz
prve klase bude pogrešno klasifikovan. Slično tome, verovatnoća 𝜀2 se naziva verovatnoćom greške
drugog tipa i predstavlja verovatnoću da oblik koji dolazi iz druge klase bude pogrešno klasifikovan.
Relacija (4.7) omogućava nekoliko načina da se odredi Bajesova greška . Prva jednakost predstavlja
definiciju ove greške, dok je druga dobijena primenom Bajesove teoreme. Oblast integracije L1 je ona
oblast iz koje pravilo odlučivanja merne vektore X pridružuje klasi 1 i analogno tome oblast integracije
L2 odgovara onim vektorima X koje pravilo odlučivanja klasifikuje u klasu 2. Shodno tome ove se oblasti
često nazivaju 1-oblast i 2
-oblast, respektivno. Za merne vektore iz oblasti L1 važi relacija
1 1 2 2P f X P f X i prema tome uslovna verovatnoća greške iznosi 2 2 /r X P f X f X , i
analogno tome za vektore iz oblasti L2 važi 1 1 /r X P f X f X . Na osnovu toga možemo reći da se
Bajesova verovatnoća greške sastoji iz dva člana. Jedan od njih se odnosi na loše klasifikovane vektore iz
klase 1, dok se drugi odnosi na loše klasifikovane vektore iz klase 2.
30
𝐿1′ 𝐿2
′
𝐿1 𝐿2
𝑡 𝑡′
𝐴 𝐵 𝐶
𝐷
𝑃1𝑓1(𝑥) 𝑃2𝑓2(𝑥)
𝑥
Slika 4.1: Ilustracija klasifikacije jednodimenzionih slučajnih promenljivih
Na slici 4.1 je ilustrovano Bejesovo pravilo odlučivanja jednodimenzionalnih mernih vektora: Granica
odluke je postavljena na x = t, а to je tačka u kojoj je je 1 1 2 2P f x P f x a oblasti x t i x t su
označene kao 𝐿1 i 𝐿2, respektivno. Na taj način verovatnoće greški postaju P B C1 1 i P A2 2 a
ukupna Bajesova greška postaje A B C, gde A, B i C označavaju naznačene površine, na primer :
'
1 1
t
tB P f x dx .
Ovakvo pravilo odlučivanja generiše najmanju moguću verovatnoću greške odlučivanja. Ovo se
tvrđenje vrlo jednostavno može dokazati. Pretpostavimo da je granica odlučivanja pomerena iz tačke t u
tačku t'. Tada se oblast mernog vektora X deli u regione označene kao L1 ' i L2 ' , a ukupna verovatnoća
greške postaje ' A B C D. Kako je D veće od nule, jasno je da važi relacija ' . Analogan rezultat
se može dobiti ukoliko se granica odlučivanja t pomeri udesno. Ovakav način razmišljanja se može proširiti
i na n-dimenzione merne vektore.
Izračunavanje Bajesove verovatnoće greške je vrlo kompleksan problem, jer se ova verovatnoća
sračunava integraljenjem funkcije gustine verovatnoće, koja je funkcija više promenljivih, po vrlo
kompleksnim oblastima. Zbog toga je, vrlo često, mnogo zahvalnije problem posmatrati u domenu
diskriminacione funkcije, i integraljenje vršiti po njoj. Kako je u pitanju skalarna slučajana promenljiva,
problem integraljenja se svodi na integraljenje u jednodimenzionom prostoru. Drugim rečima:
1 2ln /
1 1/P P
hf h dh
(4.9)
31
1 2
2 2ln /
/hP P
f h dh
(4.10)
gde je /h if h aposteriorna funkcija gustine verovatnoće vrednosti diskriminacione funckije h za
odbirke koji dolaze iz klase 𝜔𝑖.
Primer 4.1: Ako su aposteriorne funkcije gustine if X , 𝑖 = 1,2, normalne sa vektorima matematičkog
očekivanja Mi i kovarijacionim matricama i , Bajesovsko pravilo odlučivanja minimalne verovatnoće
greške postaje:
11
2
12
2
ln
ln
Ph X X
P
Ph X X
P
(4.11)
gde je
11 1
1 1 1 2 2 2
2
ln
1 1 1ln
2 2 2
t t
h X l X
X M X M X M X M
(4.12)
Poslednja relacija pokazuje da je granica odlučivanja kvadratna funkcija po X. Ukoliko je 1 2 ,
granica odlučivanja postaje linearna funkcija po X :
1 1 1
2 1 1 1 2 2
1
2
t T th X M M X M M M M (4.13)
Na sledećoj slici, 4.2, su prikazana četiri karakteristična primera dveju Gausovski raspodeljenih klasa sa
odgovarjućim 𝑑2 krivama i krivama Bajesovskog klasifikatora. U zavisnosti od statistika raspodela klasa,
kao klasifikator se može dobiti (a) parabola, (b) prava, (c) hiperbola ili (d) elipsa.
32
𝜔1
𝜔2
𝑀1
𝑥1
𝑥2
𝑥1
𝑥2
𝑀1
𝑀2 𝑀2
𝜔2
𝜔1
ℎ(𝑥1, 𝑥2) = 0 ℎ(𝑥1, 𝑥2) = 0
𝜔1
𝜔2 𝑀1
𝑥1
𝑥2
𝑀2
ℎ(𝑥1, 𝑥2) = 0
ℎ(𝑥1, 𝑥2) = 0
𝑥2
𝑥1
𝜔1 𝜔2
ℎ(𝑥1, 𝑥2) = 0
𝑀1=𝑀2
Slika 4.2: Karakteristični oblici Bajesovskih klasifikatora zavisno od statistika raspodela klasa
Bajesovo pravilo odlučivanja minimalne cene
Vrlo često, u praksi, minimizacija verovatnoće greške nije najbolji kriterijum za projektovanje
pravila odlučivanja. Naime, često je slučaj da da greška kada se merni vektor iz prve klase pridruži drugoj
nema istu težinu kao kada se merni vektor iz druge klase pridruži prvoj. Dobar primer za ilustraciju ovakve
situacije jeste prepoznavanje oboljenja u medicini. Zbog toga se uvode cene za svaku od mogućih odluka,
na sledeći način:
c X Xij i j cena odluke kada zapravo
Tada uslovna cena odluke X i , kada je dat merni vektor X, označimo je sa ir X , iznosi:
33
1 1 2 2i i ir X c q X c q X (4.14)
Logično je, da shodno ovako definisanom kriterijumu, pravilo odlučivanja dobije formu:
1 2 1
1 2 2
r X r X X
r X r X X
(4.15)
a tada apriorni rizik dobija oblika:
1 2min ,r X r X r X (4.16)
Ukupna cena (rizik) ovakvog odlučivanja se može sračunati na sledeći način:
1 2
1 2
11 1 12 2 21 1 22 2
11 1 1 12 2 2 21 1 1 22 2 2
11 1 1 12 2 2 21 1 1 22 2 2
min ,
min ,
min ,
L L
r E r X r X r X f X dX
c q X c q X c q X c q X f X dX
c P f X c P f X c P f X c P f X dX
c P f X c P f X dX c P f X c P f X dX
(4.17)
gde su sa L1 i L2 označene oblasti u prostoru vektora merenja, iz kojih pravilo klasifikacije merne vektore
klasifikuje u prvu, odnosno u drugu klasu.
Pravilo odlučivanja koje će minimizirati ukupnu cenu odlučivanja r može se isprojektovati na
sledeći način. Prepišimo poslednju relaciju tako da ona ostane samo funkcija od oblasti L1, uzimajući u
obzir jednakost
2 1
1i i
L L
f X dX f X dX , 𝑖 = 1,2 (4.18)
koja važi usled činjenica L L L LX1 2 1 2 i . Tada ukupna cena postaje:
1
21 1 22 2 11 21 1 1 12 22 2 2
L
r c P c P c c P f X c c P f X dX (4.19)
Sada se problem minimizacije cene r svodi na problem određivanja optimalne oblasti L1 . Pretpostavimo
da je za neki merni vektor X podintegralna funkcija u poslednjoj relaciji negativna. Takav merni vektor
treba pridružiti prvoj klasi jer se na taj način smanjuje ukupna cena r. Obrnuto, ukoliko za merni vektor X
podintegralna funkcija ima pozitivnu vrednost, taj vektor ne treba da se nalazi u oblasti L1 jer bi se na taj
način povećavala cena odlučivanja. Shodno tome, zaključujemo da granicu odlučivanja treba da čini
geometrijsko mesto slučajnih vektora za koje podintegralna funkcija ima vrednost nula, odnosno
optimalno pravilo odlučivanja koje minimizira cenu odlučivanja ima formu:
34
12 22 2 2 21 11 1 1 1
12 22 2 2 21 11 1 1 2
c c P f X c c P f X X
c c P f X c c P f X X
(4.20)
ili drugačije zapisano
1 12 22 2
1
2 21 11 1
1 12 22 2
2
2 21 11 1
f X c c PX
f X c c P
f X c c PX
f X c c P
(4.21)
Ovakvo se pravilo odlučivanja naziva Bajesovim pravilom odlučivanja minimalne cene. Primetimo da se
ovakvo pravilo odlučivanja može smatrati Bajesovim pravilom odlučivanja minimalne greške samo sa
promenjenim pragom odlučivanja. Minimalna cena postaje isto što i minimalna verovatnoća greške
odlučivanja ukoliko se primene takozvane simetrične cene odlučivanja:
c c c c21 11 12 22 (4.22)
Različite cene odluka se primenjuju onda kada je pogrešna odluka za jednu klasu mnogo kritičnija od
pogrešne odluke za drugu klasu.
Na slici 4.3 je prikazan primer koji ilustruje značaj i efekat promene ovih cena. Prilikom realizacije
ovog primera usvojeno je da su cene tačnih odluka jednake nuli (𝑐11 = 𝑐22 = 0) i sračunate su
klasifikacione linije za tri različita odnosa odnosa cena pogrešnih odluka: 𝑐12 = 𝑐21,
𝑐12 = 3𝑐21 i 3𝑐12 = 𝑐21. Slučaj 𝑐12 = 𝑐21 zapravo odgovara Bajesovskom pravilu minimalne
verovatnoće greške, a povećavanje cene 𝑐21 pomera granicu odlučivanja dalje od klase 𝜔1 prema klasi
𝜔2 jer je cena koja se plaća kada se oblik iz prve klase pogrešno klasifikuje značajno veća od cene drugog
tipa greške.
35
𝜔1
𝜔2
𝑀2
𝑀1
𝑐11 = 𝑐22 = 0
𝑐21 = 3𝑐12
𝑐12 = 3𝑐21
𝑐21 = 𝑐12
Slika 4.3: Ilustracija klasifikatora minimalne cene
Neyman-Pearson-ov test
Neyman-Pearson-ov test predstavlja treće moguće rešenje problema testiranja hipoteza.
Podsetimo se da prilikom donošenja odluke kojoj od dve moguće klase posmatrani merni vektor pripada,
postoje dva tipa greške. Ponovo označimo ove dve greške kao 1 i 2
. Neyman-Pearson-ov test za svoj cilj
postavlja minimizaciju jedne od njih, recimo 1, dok drugu 2
čuva konstantnom, recimo 2 0 . Dakle,
kreće se od minimizacije kriterijuma:
1 2 0r (4.23)
gde je sa označen Lagranžev multiplikator. Uvrštavajući izraze za 1 i 2
u poslednju relaciju, dobijamo
da kriterijumska funkcija postaje
2 1
1
1 2 0
0 2 11
L L
L
r f X dX f X dX
f X f X dX
(4.24)
Cilj nam je da minimiziramo rizik iz prethodne relacije. Taj rizik se sastoji od dva sabirka od kojih je prvi
konstantan, dok na drugi imamo uticaja. Koristeći potpuno iste argumente kakvi su korišćeni za formiranje
36
pravila Bajesovog odlučivanja minimalne cene, formira se Neyman-Perason-ovo pravilo odlučivanja na
sledeći način:
2 1 1
2 1 2
f X f X X
f X f X X
(4.25)
ili, drugačije zapisano
1
1
2
1
2
2
f XX
f X
f XX
f X
(4.26)
Na osnovu poslednje relacije se opet može doneti zaključak da Neyman-Pearson-ov test nije ništa drugo
do Bajesov test hipoteza sa promenjenim pragom odlučivanja. Drugim rečima, prethodna analiza pokazuje
da se test količnika verodostojnosti može protumačiti i kao test koji minimizira jedan tip greške dok
verovatnoću geške drugog tipa čuva konstantnom. Prag se, za zadato 0, dobija iz sledeće jednakosti
1
2 2 0
L
f X dX (4.27)
gde parametar figuriše u površini po kojoj se integrali, drugim rečima 1 1L L . Očigledno je da
poslednja relacija ne daje eksplicitan metod da se odredi nepoznata vrednost Lagranžeovog
multiplikatora, odnosno praga odlučivanja , što je ključno u procesu projektovanja klasifikatora. Otuda
se, često, u cilju nalaženja odgovarajuće vrednosti parametra , poslednja relacija napiše u domenu
diskriminacione funkcije 1 2ln /h X f X f X . Pod pretpostavkom da nam je poznata
aposteriona funkcija gustine verovatnoće slučajne promenljive h za oblike iz druge klase, relacija (4.27) se
može napisati na sledeći način:
ln
2 2 0/hf h dh
(4.28)
Ni relacija (4.28) ne daje mogućnost da se eksplicitno reši problem i odredi napoznati parametar , već
se rešenje traži pomoću numeričkih metoda. Kako je 2/ 0hf h , 2 je monotono opadajuća funkcija
parametra , otuda se izračunavanjem ove funkcije za nekoliko vrednosti parametara, vrlo tačno može
odrediti željeno , za koje će biti zadovoljena relacija 2 0 . Ovaj postupak je ilustrovan sledećim
primerima.
37
Primer 4.2: Posmatrajmo slučaj dveju klasa sa dvodimenzionim normalnim raspodelama, sledećih
parametara: Mt
1 1 0 ; Mt
2 1 0 ; 1 2 I ; P P1 2 0 5 . . Tada diskriminaciona funkcija
postaje:
1
2 2 21/ 2
22
111 1 11/ 2
1
2 2 1 1 1
1 1exp
22ln ln
1 1exp
22
1 12
2 2
t
t
t t
X M X Mf X
h Xf X
X M X M
X M X M X M X M x
(4.29)
gde je sa x1 označena prva koordinata slučajnog vektora X. Tada Neyman-Pearson-ovo pravilo odlučivanja
postaje:
1 1
1 2
2 ln
2 ln
x X
x X
(4.30)
Jasno je da za različite vrednosti parametra , diskriminaciona funkcija postaje u 1 2,x x ravni, prava
upravna na x1 osu sa apscisom ln / 2 , kako je to prikazano na sledećoj slici 4.4:
𝑥1
𝑥2
1 -1
𝜔1 𝜔2
𝜇 = 4 𝜇 = 0.25
𝜇 = 2 𝜇 = 0.5
Slika 4.4: Ilustracija Neuman-Perasonovog metoda klasifikacije opisanog u primeru 4.2
U sledećoj tabeli su naznačene odgovarajuće vrednosti parametra za neke karakteristične vrednosti
verovatnoće greške 2 :
4 2 1 0.5 0.25
2 0.04 0.09 0.16 0.25 0.38
38
Primer 4.3: Posmatrajmo slučaj dve klase dvodimenzionalnih oblika čije su funkcije gustine verovatnoće
poznate i date u obliku bimodalnih Gausovskih raspodela:
𝑓1(𝑋) = 𝑃11 × 𝑁(𝑀11, Σ11) + 𝑃12 × 𝑁(𝑀12, Σ12)
𝑓2(𝑋) = 𝑃21 × 𝑁(𝑀21, Σ21) + 𝑃22 × 𝑁(𝑀22, Σ22)
gde je
𝑃11 = 0.6, 𝑃12 = 0.4, 𝑀11 = [11
] , Σ11 = [4 1.1
1.1 2] , 𝑀12 = [
64
] , Σ12 = [3 −0.8
−0.8 1.5]
𝑃21 = 0.55, 𝑃22 = 0.45, 𝑀21 = [7
−4] , Σ21 = [
2 1.11.1 4
] , 𝑀22 = [60
] , Σ22 = [3 0.8
0.8 0.5]
Na slici 4.5 su prikazane ove dve klase pomoću krivih koje predstavljaju geometrijska mesta tačaka sa
konstantnom vrednošću funkcije gustine verovatnoće. Pošto raspodele nisu normalne ni ove krive neće
biti elipse, a vrednosti konstantnih funkcija gustine verovatnoće za koje su krive prikazane su izabrane kao
određeni procenat maksimalne vrednosti 𝑓_𝑚𝑎𝑥.
𝑥1
𝑥2 𝜔1
𝜔2
0.8𝑓𝑚𝑎𝑥
0.6𝑓𝑚𝑎𝑥
0.3𝑓𝑚𝑎𝑥
0.8𝑓𝑚𝑎𝑥
0.2𝑓𝑚𝑎𝑥
0.05𝑓𝑚𝑎𝑥
Slika 4.5: Geometrijska mesta tačaka sa konstantnom funkcijom gustine verovatnoće za zadate klase u
dvodimenzionom prostoru
U cilju projektovanja Neuman-Pearson-ovog testa, neophodno je odrediti parametar 𝜇 koji se pak,
najjednostavnije dobija iz uslova
39
∫ 𝑓ℎ(ℎ/𝜔2)−ln (𝜇)
−∞
𝑑ℎ = 𝜀0
Poslednja relacija govori o tome da je potrebno poznavati funkciju gustine verovatnoće slučajne
promeniljive ℎ(𝑋) = −ln (𝑓1(𝑋)
𝑓2(𝑋)) pod uslovom da vektor dolazi iz druge klase. Kako je ovu funkciju gustine
verovatnoće teško, a ponekada i nemoguće, analitički odrediti, do nje ćemo doći esperimentom.
Generisaćemo veliki broj slučajnih vektora iz druge klase i za svaki od njih odrediti vrednost
diskriminacione funkcije, a zatim, primenom histograma, proceniti funkciju gustine verovatnoće
𝑓ℎ(ℎ/𝜔2). Ovakva procena funkcije gustine verovatnoće, korišćenjem tehnike histograma, je prikazana
na slici 4.6.
h
𝑓ℎ (ℎ/𝜔2)
Slika 4.6: Procena funkcije gustine verovatnoće diskriminacione funkcije za odbirke iz druge glase
primenom histograma
Sada je na osnovu ovako dobijene procene funkcije gustine verovatnoće moguće formirati zavisnost
verovatnoće greške drugog tipa 𝜀0 od parametra 𝜇. Ova se zavisnost dobija na osnovu relacije (4.28) i neke
od tehnika za numeričku integraciju funkcija jedne promenljive. Primenom trapeznog pravila dobija se
rezultat koji je prikazan na slici 4.7. Sa ove slike se vidi, da je za proizvoljnu zadatu, željenu grešku drugog
tipa, moguće jednostavno odrediti parametar 𝜇 koji nam je potreban za definisanje klasifikatora 4.26.
40
𝜇
𝜀0
Slika 4.7: Zavisnost verovatnoće greške drugog tipa od parametra 𝜇
Na osnovu ovog dijagrama je moguće jednostavno zaključiti kolika vrednost praga odlučivanja 𝜇 za
posledicu ima koliku vrednost verovatnoće greške drugog tipa 𝜀2.
ℎ(𝑋) = −𝑙𝑛𝜇
𝑥1
𝑥2
𝜔1
𝜔2
Slika 4.8: Odbirci klasa u dvodimenzionom prostoru sa Neyman-Pearson-ovim klasifikatorom
41
Tako je na primer moguće videti da za željenu grešku drugog tipa od 𝜀2 = 𝜀0 = 0.05, parametar 𝜇 iznosi
0.2349. Na taj način je moguće isprojektovati klasifikator, a njegova lokacija, zajedno sa odbircima iz obeju
klasa je prikazana na slici 4.8. U želji da se proveri u kojoj meri ovakav klasifikator zaista obezbeđuje
zahtevanu grešku drugog reda, izgenerisano je po 10000 odbiraka iz obeju klasa i, na osnovu broja
pogrešno procenjenih odbiraka, dobijene su s procene 𝜀1̂ = 0.0131 i 𝜀2̂ = 0.0492.
Minimax test
Podsetimo se da je u Bajesovom testu minimalne verovatnoće greške kao i u testu minimalne cene,
količnik verodostojnosti poređen sa vrednošću praga koji je neka funkcija apriornih verovatnoća pojave
klasa 𝑃1 i 𝑃2. Dakle, prilikom projektovanja ovih pravila odlučivanja neophodno je prethodno poznavati
ove verovatnoće i posle završenog projektovanja procedura će ostati optimalna samo pod uslovom da se
ove verovatnoće ne menjaju. Na nesreću, u praksi se ovakav scenario gotovo nikada ne događa. Naprotiv,
ove se verovatnoće uglavnom ne znaju a i da su poznate u jednom trenutku, nije verovatno da se one
tokom vremena neće menjati. Minimaxni test se projektuje tako da zaštiti performanse pravila odlučivanja
čak iako se ove verovatnoće menjaju drastično i po potpuno nepoznatim zakonitostima. U daljem tekstu
ćemo analizirati Bajesov test minimalne cene i pokušaćemo da ga učinimo nezavisnim od aprironih
verovatnoća pojavljivanja. Podsetimo se izraza (4.19) za ukupnu cenu prilikom odlučivanja:
1
21 1 22 2 11 21 1 1 12 22 2 2
L
r c P c P c c P f X c c P f X dX (4.31)
Ukoliko se u poslednjem izrazu uzme u obzir da je P P2 11 i 1 2
1 21L L
f X dX f X dX , dobija se
sledeći rezultat:
1
2 1
22 12 22 2
1 11 22 21 11 1 12 22 2
L
L L
r c c c f X dX
P c c c c f X dX c c f X dX
(4.32)
Poslednja relacija pokazuje, da je rizik r, onog momenta kada se granice L1 i L2 odrede, linearna funkcija
verovatnoće P1.
Shodno tome možemo napraviti dva misaona eksperimenta. U jednom od njih bismo dozvolili da
se apriorna verovatnoće 𝑃1 menja u intervalu od 0 do 1 sa nekim malim koracima, i za svaku od tih
42
verovatnoća bi mogli da isprojektujemo optimalni klasifikator minimalne cene i da za svaki od njih
sračunamo rizik 𝑟𝑜𝑝𝑡(𝑃1). Tada bismo mogli na jednom dijagramu, kakav je prikazan na slici 4.9, da
prikažemo kako izgleda ova zavisnost optimalnog rizika od promenljive verovatnoće 𝑃1. Ovaj dijagram,
označen kao 𝑟𝑜𝑝𝑡(𝑃1), je prikazan punom linijom i generisan je za slučaj dveju klasa definisanih u
prethodnom primeru 4.3 i za sistem cena 𝑐11 = 𝑐22 = 0, 𝑐12 = 2𝑐21 = 1. Primetimo da ova kriva ima tri
očekivane osobine. Prvo, sve vreme je pozitivna, što je očekivano s obzirom na prirodu definicije rizika
(integral funkcije gustine verovatnoće pomnožene nekom nenegativnom realnom vrednošću (cenom)).
Dalje, logično je da 𝑟𝑜𝑝𝑡(𝑃1 = 0) i 𝑟𝑜𝑝𝑡(𝑃1 = 1) bude nula, jer u ovim situacijama imamo problem samo
jedne klase (druga se pojavljuje sa verovatnoćom nula), pa i nema rizika.
𝑃1
𝑟𝑜𝑝𝑡 (𝑃1)
𝑟(𝑃1)
A
B
C
𝑃1∗
Slika 4.9: Zavisnost rizika od vrednosti apriorne verovatnoće 1P
Drugi misaoni ekspriment bi se sastojao u tome da se sračuna diskriminaciona funkcija za neku konkretnu
vrednost apriorne verovatnoće 𝑃1, recimo 𝑃1 = 0.3, da se ova funkcija fiksira a da se zatim promene
apriorne verovatnoće 𝑃1 i 𝑃2. Jasno je da takav klasifikator ne bi bio optimalan, jer prilikom projektovanja
diskriminacione funkcije nisu uzete u obzir aktuelne apriorne verovatnoće, i na osnovu relacije (4.32)
postaje jasno, da bi u tom slučaju, funkcija 𝑟(𝑃1) bila linearna. Sa druge strane, lako se pokazuje da je prvi
izvod rizika po 𝑃1 zadatog relacijom (4.31) jednak koeficijentu koji množi 𝑃1 u (4.32), što nas dovodi do
43
zaključka da kriva, označena sa 𝑟(𝑃1), treba da tangira krivu 𝑟𝑜𝑝𝑡(𝑃1) u tački 𝑃1 = 0.3, označenoj kao
tačka A. Ovakav rezultat nas dovodi do zaključka da nepoznavanje apriorne verovatnoće pojavljivanja
klasa, ili njihova nestacionarnost u vremenu, mogu da rezultuju primenom klasifikatora sa velikim rizikom.
Dobar primer je tačka B na dijagramu koja pokazuje vrlo veliki rizik u uslovima kada, recimo, verovatnoća
𝑃1 postaje bliska vrednosti 1, a klasifikator je isprojektovan pod pretpostavkom 𝑃1 ≈ 0.3.
U želji da se ovakva destrukcija performansi pravila odlučivanja spreči, jedan od mogućih pristupa
je da se na dijagramu 𝑟𝑜𝑝𝑡(𝑃1) među svim stacionarnim tačkama koje zadovoljavaju uslov nultog izvoda
(𝑑𝑟𝑜𝑝𝑡(𝑃1)
𝑑𝑃1= 0), izabere stacionarna tačka 𝑃1
∗ čija je vrednost rizika minimalna. Na dijagramu je ova tačka
označena sa C. Takvim izborom se sa promenom verovatnoće 𝑃1 neće menjati ukupna cena odlučivanja.
Shodno ovom razmišljanju, granice odlučivanja treba postaviti tako da koeficijent koji množi verovatnoću
P1 u poslednjoj relaciji bude jednak nuli:
2 1
11 22 21 11 1 12 22 2 0L L
c c c c f X dX c c f X dX (4.33)
što drugim rečima znači da se oblasti L1 i L2 odrede tako da bude zadovoljena sledeća relacija:
1
21 11 1 12 22 2 21 22
L
c c f X c c f X dX c c (4.34)
što opet predstavlja problem koji treba numerički rešavati. U specijalnom slučaju, kada je c c11 22 i
c c12 21 , minimax-no pravilo odlučivanja postaje:
2 1 1
1 2 1 21L L L
f X dX f X dX f X f X dX (4.35)
što će rezultovati pravilom odlučivanja u kome su verovatnoće greške prvog i drugog tipa jednake:
1 2 (4.36)
Ovaj metod je dobio ime min-max test hipoteza jer se realizuje tako što se na grafiku optimalnog rizika
potraži tačka maksimuma, što je po pitanju optimalnog rizika najgori mogući slučaj, ali se zato, na taj način,
minimizira šteta koja može nastati promenom apriorne verovatnoće pojave klasa.