Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
1
PREPOZNAVANJE UZORAKA
Metode klasifikacijeMetode grupisanja
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
1
Vanr.prof. Dr. Lejla Banjanović- Mehmedovićwww.lejla-bm.com
Metode klasifikacije Algoritmi klasifikacije vrše raspodjelu uzoraka
u odgovarajuće klase ili grupe uzoraka prema u odgovarajuće klase ili grupe uzoraka prema klasifikacijskoj šemi.
Uzorak može sadržavati jedan ili više atributa (obilježja).
Klase uzoraka su skupovi (familije) uzoraka koji djele neke zajedničke osobine.
Tačnost klasifikacije uzoraka značajno ovisi o
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
2
Tačnost klasifikacije uzoraka značajno ovisi o izboru odgovarajućih atributa, koja će omogućiti podjelu uzoraka u klase.
2
Metode klasifikacije Razlikujemo dvije šeme klasifikacije:
Nadgledane metode klasifikacije zasnivaju se na Nadgledane metode klasifikacije zasnivaju se na skupu uzoraka, koji je već ranije klasifikovan ili prepoznat, tj. zna se kojoj klasi pripada. Ovaj skup uzoraka naziva se skup za treniranje, a sam proces se naziva učenje.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
3
Nenadgledana šema klasifikacije koristi objektivnu mjeru sličnosti između podataka za klasifikaciju bez unaprijed poznatih klasa.
Metode klasifikacije
Različiti inteligentni sistemi koriste brojne klasifikacione metode: Stabla odlučivanja Metode grupisanja Bayesov klasifikator Neuronske mreže
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
4
3
Nadzirano učenje
Klasifikacija Regresija Neuronske mreže
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
5
Nenadzirano učenje
Metode grupisanja (klasterizacije) Neki tipovi neuronskih mreža: Kohonenova samoorganizirajuća mreža Hopfieldova mreža
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
6
4
Metode grupisanja
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
7
Metode grupisanja
Metod udaljenostiAlgoritmi grupisanja (grupisanja):Inkrementalno (sekvencijalno) grupisanjeHijerarhijsko grupisanje
• Aglomerativno grupisanje• Divizijsko grupisanje
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
8
Parcijalno grupisanje (K-means, Fuzzy K-means grupisanje)K-najbliži susjed
5
Metode grupisanja
Grupisanje podataka (segmentiranje Grupisanje podataka (segmentiranje,grupiranje, klasterizacija, grupisanje, eng.clustering) spada u metodu klasifikacije čiji jecilj ''otkrivanje'' organizacije objekata u oblikugrupa (eng. clusters), na osnovu kriterijasličnosti ili razlike između objekata, čime sedolazi do korisnih zaključaka o promatranimobjektima.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
9
Grupisanje (grupiranje) spada u nesuperviziranu metodu klasifikacije. (eng. cluster = grupa)
Metode grupisanja
Metode grupisanja predstavljaju skupg p j p j j pmetodologija za automatsko klasificiranjeuzoraka u grupe koristeći mjere asocijacijetako da uzorci u istoj grupi su što više slični auzorci u različitim grupama što više različiti.
Ulaz u sistem klaster analize je skup uzoraka.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
10
Izlaz iz klaster analize je broj grupa koji formirajuparticiju ili strukturnu particiju u skupu podataka.
6
Metode grupisanja Predstavljaju glavni alat koji se koristi u
i č i bl ti mnogim naučnim oblastima.
Postoji više pravca, gdje se koristi grupisanje, ali su dva posebno interesantna: Redukcija podataka
Predikcija (etimacija) zasnovana na grupama
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
11
j ( j ) g p
Primjena metoda grupisanja Inžinjerstvo: analiza podataka u cilju
usporedbe i primjene u roboticiusporedbe i primjene u robotici,... Inteligentna analiza Ispitivanje tržišta: grupisanje kupaca sa
sličnim ponašanjem na osnovu neke baze podataka koja govori o njihovim osobinama i posljednjim kupovinama
Biologija: klasifikacija biljaka i životinja na h h b
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
12
osnovu njihovih osobina Medicina Socijalna istraživanja
7
Definicija grupisanja Vektori se posmatraju kao tačke u l-
di i l t i j i dimenzionalnom prostoru i grupa je opisana kao: ''neprekidna oblast prostora sa velikom gustinom
tačaka, odvojena od drugih, istih takvih oblasti sa oblastima prostora sa relativnom malom gustinom tačaka''. Grupa opisana na ovakav način se često zove prirodna grupa.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
13
Klaster analiza
Inteligentni sistemi_3 Copyright: Lejla Banjanović-Mehmedović
14
8
Definicija grupisanja Posmatrajmo matematski formu formu grupisanja. Neka
je X skup podataka definisan kao: je X skup podataka definisan kao:
Grupisanje skupa X predstavlja njegovu podjelu u kpodskupova (grupa) G1,G2,…,Gk tako da su zadovoljena sljedeća tri uslova:
1 2, ,..., NX x x x
, 1,2,...,iG i k k
G X
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
15
1i
i
G X
, , 1,2,...,i jG G i j j k
Klaster analiza tačaka u 2D prostoru u ovisnosti od broja grupa
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
16
9
Vrste grupa
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
17
a) kompaktni klasteri, c) izduženi klasteri, b) sferični i elipsoidalni klasteri
Osnovni koraci pri grupisanju podataka
Ako pretpostavimo da su svi objekti predstavljeni preko svojih osobina koje predstavljeni preko svojih osobina, koje formiraju l-dimenzionalni vektor osobina, osnovni koraci koje ekspert preuzima prilikom grupisanja podataka su: Biranje osobina (značajki) objekata Određivanje mjere sličnosti. Kriterij grupisanja podataka.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
18
Algoritam grupisanja podataka. Validacija rezultata Interpretacija rezultata
10
Različita rješenja grupisanja podataka
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
19
Prikaz dva načina grupisanja za dati skup tačaka
Metod udaljenosti
Mjere udaljenosti (engl distance measure) Mjere udaljenosti (engl. distance measure) pronalaze različitosti, odnosno sličnosti između elemenata ili objekata, unutar skupa podataka.
Posmatrano u širem kontekstu, mjera udaljenosti je gradivni element većine metoda grupisanja podataka.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
20
11
Mjere različitosti Minkowski metrika 1
( )p pd
d
Euklidska udaljenost
L1 metrika
12 2
2 , ,1
( , )d
i j i k j kK
d x x x x
, ,1
( , )p i j i k j kK
d x x x x
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
21
11
,m
L i j ik jkk
d x x x x
Mjere sličnosti Unutrašnji proizvod
l
Tanimoto distanca
1
,l
Tu i i
i
s x y x y x y
yxyx
yxyxs
T
T
T
22,
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
22
12
Algoritmi grupisanja podataka
Inkrementalno (sekvencijalno) i j d kgrupisanje podataka
Hijerarhijsko grupisanje podataka Iterativno grupisanje podataka bazirano
na kvadratu greške (k-means algoritam, k-mediod algoritam, Fuzzy k-means algoritam)
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
23
algoritam) Grupisanje po principu k-najbližih
susjeda (eng. k-neighboard)
K-means parcijalno grupisanje
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
24
13
Grupisanje objekata sličnih karakteristika, k i t ći d ti k t ib t
K-means parcijalno grupisanje
koristeći zadati skup atributa Dva kriterija:
primjeri koji pripadaju istoj grupi su međusobno slični primjeri koji pripadaju određenoj grupi značajno se
CentroidCentroid
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
25
razlikuju od primjera koji pripadaju ostalim grupama
Centroid
Centroid
K-means parcijalno grupisanje Glavna pretpostavka je da funkcija pripadnosti
i ij ž i ti ij d ti 0 ili 1 grupi μij može imati samo vrijednosti 0 ili 1 (eng. hard clustering).
0,1 , 1,...ij j k
1k
ij
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
26
1
1iji
14
K-means parcijalno grupisanje
K-means grupisanje predstavlja dijeljenje osnovne populacije u K klastera
Svaki klaster ima nk uzoraka i vrijedi
Srednja vrijednost u algoritmu odnosi se na "prosječnu lokaciju“, tj. srednja vrijednost Mk klastera Ck d f š k d kl
1 2, ,..., kC C C
, 1,...kn N k K
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
27
definiše se kao centroid klastera
1
1 /kn
k k iki
M n x
K-means parcijalno grupisanje
Kvadratna greška klastera Ck je suma Kvadratna greška klastera Ck je suma kvadratnih distanci izmedju svakog uzorka u klasteru i njegovog centroida (varijacija unutar klastera):
Ukupna kvadratna greška cijelog prostora
2
2
1
kn
k ik ki
e x M
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
28
p g j g pkoji sadrži svih K klastera je
2 2
1
kn
k ki
E e
15
1. Izabrati proizvoljno k <N grupa2. Odrediti središte za svaku od k grupa
Algoritam K-means parcijalnog grupisanja
2. Odrediti središte za svaku od k grupa3. Ponavljati:
pridružiti pomoću funkcije udaljenosti sve elemente populacije njihovim najbližim grupama (proračun se vrši na osnovu centralnih vrijednosti)
izračunati novu vrijednost središta grupe za svaku grupu pojedinačno kao prosječnu vrijednost objekata sadržanih unutar svake grupe
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
29
sadržanih unutar svake grupe ponavljati sve dok se mijenjaju vrijednosti središta
grupe (stabilnost klasterske pripadnosti, tj. kada nema prebacivanja bilo kojeg uzorka iz jednog klastera u drugi, a što uzrokuje umanjenje ukupne kvadratne greške).
K-means parcijalno grupisanje
grupisanje svakom slogu dodjeljuje vrijednost pripadnosti kl t t i l id ž j ij d t d lj ti d klasteru, te opcionalno pridružuje vrijednost udaljenosti od centra klastera.
Vrijednosti atributa moraju biti numeričke!
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
30
Centri rezultujućih grupa sa pripadajućim objektimakorištenjem k – means algoritma
16
K-means parcijalno grupisanje
Ekvivalentan algoritmu u domenu neuralnih ž K h žmreža- Kohenenova mreže
Popularnost uslijed: Vremenska kompleksnost: O(nkl), algoritam u
linearnoj ovisnosti o veličini seta podataka Prostorna kompleksnost: O(k+n), svi podaci u
glavnoj memoriji => pristup brz i algoritam
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
31
efikasan Neovisnost o redu prezentacije uzoraka
K-means parcijalno grupisanje
Jednostavan za implementacijuKompleksnost i vrijeme nije
problematičnoNeizvjesnost sa:podešavanjem broja klasterastop kriterijumom => može konvergirati
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
32
stop-kriterijumom => može konvergirati lok. minimumu, uslijed lošeg izbora inicijalne particije
17
K-means parcijalno grupisanje
Senzitivan na šum i izuzetke!!!Senzitivan na šum i izuzetke!!!Preporuka: K-mediods: umjesto mean-a, koristi najčešće locirani
centralni objekt u klasteru. nije osjetljiv na šum i izuzetke.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
33
Fuzzy grupisanje
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
34
18
Fuzzy k - means algoritam
Fuzzy k - means algoritam je dizajniran tako da proizvede grupe gdje je za svaki objekat da proizvede grupe, gdje je za svaki objekat proračunata mjera pripadnosti pojedinoj grupi.
Na početku ovog algoritma pretpostavljamo oblik i broj grupa.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
35
Fuzzy k - means algoritam Neka je skup od N vektora, koji
predstavljaju podatke. 1,..., NX x x
Fuzzy clustering od X u c clustera se sastoji od funkcija , pri čemu vrijedi
za svako . Ove funkcije se nazivaju funkcijama pripadnosti i imaju vrijednost između 0 i 1.
Fc-M algoritam je dizajniran tako da proizvede fuzzy clustere na isti način kao što se podrazumijeva da k-
1,..., c
: 0,1i X ( ) 1ii x
Xx
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
36
p jmeans proizvede tzv. ''hard'' clustere, preko minimizacije funkcije cilja:
2 0m
ik k iki
x
19
Fuzzy k - means algoritam
predstavlja vrijednost i-te funkcije pripadnosti u k toj tački podataka ipripadnosti u k-toj tački podataka .
vektori predstavljaju centre clustera.
Da bi se minimizirala funkcija cilja, centri clustera i funkcije pripadnosti su dizajnirane tako da se najveća pripadnost javlja u tačkama blizu odgovarajućih centara
1,..., cv v
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
37
tačkama blizu odgovarajućih centara clustera.
m se naziva eksponencijalna težina i koristi se da priguši šum u podacima.
Fuzzy k - means algoritam
• Algoritam radi minimizaciju funkcije cilja • Algoritam radi minimizaciju funkcije cilja koja je postignuta na sljedeći način:
• Centri klastera m m
i ik k ikk k
v x
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
38
• Funkcije pripadnosti
1/ 12
1/ 12
1/
1/
m
k i
ik m
k jj
x
x
20
Fuzzy k - means algoritam1. Slučajno se bira k centara
clusterač2. Izračuna se Euklidova distancu
izmedju centara clustera isvakog vektora
3. Uzima se da m u formuli imavrijednost 2
4. Izračuna se vrijednost funkcijepripadnosti
5. Dodijele se vektori onomclusteru za koji funkcijapripadnosti ima najveću
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
39
pripadnosti ima najvećuvrijednost
6. Ponovo se računaju centriklastera i algoritam ponavljaiterativno sa korakom 2 sve dokstop-kriterij ne bude ispunjen
Primjer
1
1.5
TipStandardizirani podatak o cijeni
Standandizirani podatak o dužini kočionog puta
Audi 0,866 0,208BMW 0,496 -0,602
Corvette 1,235 -1,811Ford -0,706 -1,542
Honda -0,429 0,410Mazda 0,126 0,679
Mercedes 1,051 0,006Nissan -0,429 0,073
Porcshe 3,454 -2,215Toyota -0,059 1,218
VW -0,706 -0,128Volvo 0,219 0,612 -2
-1.5
-1
-0.5
0
0.5
1
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
40
Primjena K-means algoritma za k=3 grupa i matricu podataka X
Vrijednosti testnih parametara grupisanih po tipu vozila
-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5-2.5
21
Primjer
1
1.5
-2
-1.5
-1
-0.5
0
0.5
1
TipStandardizirani podatak o cijeni
Standandizirani podatak o dužini kočionog puta
Audi 0,866 0,208BMW 0,496 -0,602
Corvette 1,235 -1,811Ford -0,706 -1,542
Honda -0,429 0,410Mazda 0,126 0,679
Mercedes 1,051 0,006Nissan -0,429 0,073
Porcshe 3,454 -2,215Toyota -0,059 1,218
VW -0,706 -0,128Volvo 0,219 0,612
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
41
-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5-2.5
Primjena FKM algoritma za k=3 grupa i matricu podataka X
Vrijednosti testnih parametara grupisanih po tipu vozila
Primjer primjene k-means, k-mediods i fuzzy-k-means algoritma
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
42
Mapa okruženja mobilnog robota korištena kao ulaz za grupisanje
22
Primjer primjene k-means, k-mediods i fuzzy-k-means algoritma
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
43
Rezultati primjene k - means algoritma na robotsku mapu, 6 iteracija
Primjer primjene k-means, k-mediods i fuzzy-k-means algoritma
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
44
Rezultati primjene fuzzy k - means algoritma na robotsku mapu, 65 iteracija
23
Primjena fuzzy K means-grupisanja Automatizacija kuća i zgrada Korištenjem uzoraka omogućava se
unapređenje sistema upravljanja sa osobenostima predikcije.
Uzorci predstavljaju zauzetost prostora ukućanima u predhodnih par godina u cilju automatske kontrole temperature
Metode bazirane na Fuzzy C-means i eXclusive Self-Organizing Maps daju najbolje perfomase u upravljanju.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
45
Zaključak klaster analize
Algoritmi grupisanja se razlikuju u mnogim aspektima: brzina učenja, količina podataka za treniranje, brzina klasifikacije, robusnost, itd.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
46
,
24
Zaključak klaster analize
K-means metoda je jednostavna, nije vremenski zahtjevna i nezavnisna je od rasporeda uzoraka zahtjevna i nezavnisna je od rasporeda uzoraka.
Negativne strane se odnose na činjenicu da sama selekcija broja klastera utiče na rezultat.
Kao alternativna metoda preporučuje K-mediods, koja umjesto mean-a, koristi najčešće locirani centar objekt u klasteru i nije osjetljiv na šum.
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
47
Fuzzy K-means grupisanje pri istom ulaznom setu podataka vrši bolje grupisanje od K-means algoritma.
Potrebno je više vremena za FCM grupisanje nego za K-means grupisanje istog seta podataka.
Zaključak klaster analize
Nema najboljeg algoritma grupisanja podataka.j j g g g p j p Preporuka: isprobati više algoritama na datom
skupu podataka!!!
Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović
48