PU 2 Grupisanje.ppt - lejla-bm.com.ba · 11 j( j) g p Primjena metoda grupisanja Inžinjerstvo: analiza podataka u cilju usporedbe i primjene u robotici,... Inteligentna analiza Ispitivanje

1

PREPOZNAVANJE UZORAKA

Metode klasifikacijeMetode grupisanja

Prepoznavanje uzoraka Copyright: Lejla Banjanović-Mehmedović

1

Vanr.prof. Dr. Lejla Banjanović- Mehmedovićwww.lejla-bm.com

Metode klasifikacije Algoritmi klasifikacije vrše raspodjelu uzoraka

u odgovarajuće klase ili grupe uzoraka prema u odgovarajuće klase ili grupe uzoraka prema klasifikacijskoj šemi.

Uzorak može sadržavati jedan ili više atributa (obilježja).

Klase uzoraka su skupovi (familije) uzoraka koji djele neke zajedničke osobine.

Tačnost klasifikacije uzoraka značajno ovisi o


2

Tačnost klasifikacije uzoraka značajno ovisi o izboru odgovarajućih atributa, koja će omogućiti podjelu uzoraka u klase.

2

Metode klasifikacije Razlikujemo dvije šeme klasifikacije:

Nadgledane metode klasifikacije zasnivaju se na Nadgledane metode klasifikacije zasnivaju se na skupu uzoraka, koji je već ranije klasifikovan ili prepoznat, tj. zna se kojoj klasi pripada. Ovaj skup uzoraka naziva se skup za treniranje, a sam proces se naziva učenje.


3

Nenadgledana šema klasifikacije koristi objektivnu mjeru sličnosti između podataka za klasifikaciju bez unaprijed poznatih klasa.

Metode klasifikacije

Različiti inteligentni sistemi koriste brojne klasifikacione metode: Stabla odlučivanja Metode grupisanja Bayesov klasifikator Neuronske mreže


4

3

Nadzirano učenje

Klasifikacija Regresija Neuronske mreže


5

Nenadzirano učenje

Metode grupisanja (klasterizacije) Neki tipovi neuronskih mreža: Kohonenova samoorganizirajuća mreža Hopfieldova mreža


6

4

Metode grupisanja


7

Metode grupisanja

Metod udaljenostiAlgoritmi grupisanja (grupisanja):Inkrementalno (sekvencijalno) grupisanjeHijerarhijsko grupisanje

• Aglomerativno grupisanje• Divizijsko grupisanje


8

Parcijalno grupisanje (K-means, Fuzzy K-means grupisanje)K-najbliži susjed

5

Metode grupisanja

Grupisanje podataka (segmentiranje Grupisanje podataka (segmentiranje,grupiranje, klasterizacija, grupisanje, eng.clustering) spada u metodu klasifikacije čiji jecilj ''otkrivanje'' organizacije objekata u oblikugrupa (eng. clusters), na osnovu kriterijasličnosti ili razlike između objekata, čime sedolazi do korisnih zaključaka o promatranimobjektima.


9

Grupisanje (grupiranje) spada u nesuperviziranu metodu klasifikacije. (eng. cluster = grupa)

Metode grupisanja

Metode grupisanja predstavljaju skupg p j p j j pmetodologija za automatsko klasificiranjeuzoraka u grupe koristeći mjere asocijacijetako da uzorci u istoj grupi su što više slični auzorci u različitim grupama što više različiti.

Ulaz u sistem klaster analize je skup uzoraka.


10

Izlaz iz klaster analize je broj grupa koji formirajuparticiju ili strukturnu particiju u skupu podataka.

6

Metode grupisanja Predstavljaju glavni alat koji se koristi u

i č i bl ti mnogim naučnim oblastima.

Postoji više pravca, gdje se koristi grupisanje, ali su dva posebno interesantna: Redukcija podataka

Predikcija (etimacija) zasnovana na grupama


11

j ( j ) g p

Primjena metoda grupisanja Inžinjerstvo: analiza podataka u cilju

usporedbe i primjene u roboticiusporedbe i primjene u robotici,... Inteligentna analiza Ispitivanje tržišta: grupisanje kupaca sa

sličnim ponašanjem na osnovu neke baze podataka koja govori o njihovim osobinama i posljednjim kupovinama

Biologija: klasifikacija biljaka i životinja na h h b


12

osnovu njihovih osobina Medicina Socijalna istraživanja

7

Definicija grupisanja Vektori se posmatraju kao tačke u l-

di i l t i j i dimenzionalnom prostoru i grupa je opisana kao: ''neprekidna oblast prostora sa velikom gustinom

tačaka, odvojena od drugih, istih takvih oblasti sa oblastima prostora sa relativnom malom gustinom tačaka''. Grupa opisana na ovakav način se često zove prirodna grupa.


13

Klaster analiza

Inteligentni sistemi_3 Copyright: Lejla Banjanović-Mehmedović

14

8

Definicija grupisanja Posmatrajmo matematski formu formu grupisanja. Neka

je X skup podataka definisan kao: je X skup podataka definisan kao:

Grupisanje skupa X predstavlja njegovu podjelu u kpodskupova (grupa) G1,G2,…,Gk tako da su zadovoljena sljedeća tri uslova:

1 2, ,..., NX x x x

, 1,2,...,iG i k k

G X


15

1i

i

G X

, , 1,2,...,i jG G i j j k

Klaster analiza tačaka u 2D prostoru u ovisnosti od broja grupa


16

9

Vrste grupa


17

a) kompaktni klasteri, c) izduženi klasteri, b) sferični i elipsoidalni klasteri

Osnovni koraci pri grupisanju podataka

Ako pretpostavimo da su svi objekti predstavljeni preko svojih osobina koje predstavljeni preko svojih osobina, koje formiraju l-dimenzionalni vektor osobina, osnovni koraci koje ekspert preuzima prilikom grupisanja podataka su: Biranje osobina (značajki) objekata Određivanje mjere sličnosti. Kriterij grupisanja podataka.


18

Algoritam grupisanja podataka. Validacija rezultata Interpretacija rezultata

10

Različita rješenja grupisanja podataka


19

Prikaz dva načina grupisanja za dati skup tačaka

Metod udaljenosti

Mjere udaljenosti (engl distance measure) Mjere udaljenosti (engl. distance measure) pronalaze različitosti, odnosno sličnosti između elemenata ili objekata, unutar skupa podataka.

Posmatrano u širem kontekstu, mjera udaljenosti je gradivni element većine metoda grupisanja podataka.


20

11

Mjere različitosti Minkowski metrika 1

( )p pd

d

Euklidska udaljenost

L1 metrika

12 2

2 , ,1

( , )d

i j i k j kK

d x x x x

, ,1

( , )p i j i k j kK

d x x x x


21

11

,m

L i j ik jkk

d x x x x

Mjere sličnosti Unutrašnji proizvod

l

Tanimoto distanca

1

,l

Tu i i

i

s x y x y x y

yxyx

yxyxs

T

T

T

22,


22

12

Algoritmi grupisanja podataka

Inkrementalno (sekvencijalno) i j d kgrupisanje podataka

Hijerarhijsko grupisanje podataka Iterativno grupisanje podataka bazirano

na kvadratu greške (k-means algoritam, k-mediod algoritam, Fuzzy k-means algoritam)


23

algoritam) Grupisanje po principu k-najbližih

susjeda (eng. k-neighboard)

K-means parcijalno grupisanje


24

13

Grupisanje objekata sličnih karakteristika, k i t ći d ti k t ib t


koristeći zadati skup atributa Dva kriterija:

primjeri koji pripadaju istoj grupi su međusobno slični primjeri koji pripadaju određenoj grupi značajno se

CentroidCentroid


25

razlikuju od primjera koji pripadaju ostalim grupama

Centroid

Centroid

K-means parcijalno grupisanje Glavna pretpostavka je da funkcija pripadnosti

i ij ž i ti ij d ti 0 ili 1 grupi μij može imati samo vrijednosti 0 ili 1 (eng. hard clustering).

0,1 , 1,...ij j k

1k

ij


26

1

1iji

14


K-means grupisanje predstavlja dijeljenje osnovne populacije u K klastera

Svaki klaster ima nk uzoraka i vrijedi

Srednja vrijednost u algoritmu odnosi se na "prosječnu lokaciju“, tj. srednja vrijednost Mk klastera Ck d f š k d kl

1 2, ,..., kC C C

, 1,...kn N k K


27

definiše se kao centroid klastera

1

1 /kn

k k iki

M n x


Kvadratna greška klastera Ck je suma Kvadratna greška klastera Ck je suma kvadratnih distanci izmedju svakog uzorka u klasteru i njegovog centroida (varijacija unutar klastera):

Ukupna kvadratna greška cijelog prostora

2

2

1

kn

k ik ki

e x M


28

p g j g pkoji sadrži svih K klastera je

2 2

1

kn

k ki

E e

15

1. Izabrati proizvoljno k <N grupa2. Odrediti središte za svaku od k grupa

Algoritam K-means parcijalnog grupisanja

2. Odrediti središte za svaku od k grupa3. Ponavljati:

pridružiti pomoću funkcije udaljenosti sve elemente populacije njihovim najbližim grupama (proračun se vrši na osnovu centralnih vrijednosti)

izračunati novu vrijednost središta grupe za svaku grupu pojedinačno kao prosječnu vrijednost objekata sadržanih unutar svake grupe


29

sadržanih unutar svake grupe ponavljati sve dok se mijenjaju vrijednosti središta

grupe (stabilnost klasterske pripadnosti, tj. kada nema prebacivanja bilo kojeg uzorka iz jednog klastera u drugi, a što uzrokuje umanjenje ukupne kvadratne greške).


grupisanje svakom slogu dodjeljuje vrijednost pripadnosti kl t t i l id ž j ij d t d lj ti d klasteru, te opcionalno pridružuje vrijednost udaljenosti od centra klastera.

Vrijednosti atributa moraju biti numeričke!


30

Centri rezultujućih grupa sa pripadajućim objektimakorištenjem k – means algoritma

16


Ekvivalentan algoritmu u domenu neuralnih ž K h žmreža- Kohenenova mreže

Popularnost uslijed: Vremenska kompleksnost: O(nkl), algoritam u

linearnoj ovisnosti o veličini seta podataka Prostorna kompleksnost: O(k+n), svi podaci u

glavnoj memoriji => pristup brz i algoritam


31

efikasan Neovisnost o redu prezentacije uzoraka


Jednostavan za implementacijuKompleksnost i vrijeme nije

problematičnoNeizvjesnost sa:podešavanjem broja klasterastop kriterijumom => može konvergirati


32

stop-kriterijumom => može konvergirati lok. minimumu, uslijed lošeg izbora inicijalne particije

17


Senzitivan na šum i izuzetke!!!Senzitivan na šum i izuzetke!!!Preporuka: K-mediods: umjesto mean-a, koristi najčešće locirani

centralni objekt u klasteru. nije osjetljiv na šum i izuzetke.


33

Fuzzy grupisanje


34

18

Fuzzy k - means algoritam

Fuzzy k - means algoritam je dizajniran tako da proizvede grupe gdje je za svaki objekat da proizvede grupe, gdje je za svaki objekat proračunata mjera pripadnosti pojedinoj grupi.

Na početku ovog algoritma pretpostavljamo oblik i broj grupa.


35

Fuzzy k - means algoritam Neka je skup od N vektora, koji

predstavljaju podatke. 1,..., NX x x

Fuzzy clustering od X u c clustera se sastoji od funkcija , pri čemu vrijedi

za svako . Ove funkcije se nazivaju funkcijama pripadnosti i imaju vrijednost između 0 i 1.

Fc-M algoritam je dizajniran tako da proizvede fuzzy clustere na isti način kao što se podrazumijeva da k-

1,..., c

: 0,1i X ( ) 1ii x

Xx


36

p jmeans proizvede tzv. ''hard'' clustere, preko minimizacije funkcije cilja:

2 0m

ik k iki

x

19


predstavlja vrijednost i-te funkcije pripadnosti u k toj tački podataka ipripadnosti u k-toj tački podataka .

vektori predstavljaju centre clustera.

Da bi se minimizirala funkcija cilja, centri clustera i funkcije pripadnosti su dizajnirane tako da se najveća pripadnost javlja u tačkama blizu odgovarajućih centara

1,..., cv v


37

tačkama blizu odgovarajućih centara clustera.

m se naziva eksponencijalna težina i koristi se da priguši šum u podacima.


• Algoritam radi minimizaciju funkcije cilja • Algoritam radi minimizaciju funkcije cilja koja je postignuta na sljedeći način:

• Centri klastera m m

i ik k ikk k

v x


38

• Funkcije pripadnosti

1/ 12

1/ 12

1/

1/

m

k i

ik m

k jj

x

x

20

Fuzzy k - means algoritam1. Slučajno se bira k centara

clusterač2. Izračuna se Euklidova distancu

izmedju centara clustera isvakog vektora

3. Uzima se da m u formuli imavrijednost 2

4. Izračuna se vrijednost funkcijepripadnosti

5. Dodijele se vektori onomclusteru za koji funkcijapripadnosti ima najveću


39

pripadnosti ima najvećuvrijednost

6. Ponovo se računaju centriklastera i algoritam ponavljaiterativno sa korakom 2 sve dokstop-kriterij ne bude ispunjen

Primjer

1

1.5

TipStandardizirani podatak o cijeni

Standandizirani podatak o dužini kočionog puta

Audi 0,866 0,208BMW 0,496 -0,602

Corvette 1,235 -1,811Ford -0,706 -1,542

Honda -0,429 0,410Mazda 0,126 0,679

Mercedes 1,051 0,006Nissan -0,429 0,073

Porcshe 3,454 -2,215Toyota -0,059 1,218

VW -0,706 -0,128Volvo 0,219 0,612 -2

-1.5

-1

-0.5

0

0.5

1


40

Primjena K-means algoritma za k=3 grupa i matricu podataka X

Vrijednosti testnih parametara grupisanih po tipu vozila

-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5-2.5

21

Primjer

1

1.5

-2

-1.5

-1

-0.5

0

0.5

1

TipStandardizirani podatak o cijeni

Standandizirani podatak o dužini kočionog puta

Audi 0,866 0,208BMW 0,496 -0,602

Corvette 1,235 -1,811Ford -0,706 -1,542

Honda -0,429 0,410Mazda 0,126 0,679

Mercedes 1,051 0,006Nissan -0,429 0,073

Porcshe 3,454 -2,215Toyota -0,059 1,218

VW -0,706 -0,128Volvo 0,219 0,612


41

-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5-2.5

Primjena FKM algoritma za k=3 grupa i matricu podataka X

Vrijednosti testnih parametara grupisanih po tipu vozila

Primjer primjene k-means, k-mediods i fuzzy-k-means algoritma


42

Mapa okruženja mobilnog robota korištena kao ulaz za grupisanje

22



43

Rezultati primjene k - means algoritma na robotsku mapu, 6 iteracija



44

Rezultati primjene fuzzy k - means algoritma na robotsku mapu, 65 iteracija

23

Primjena fuzzy K means-grupisanja Automatizacija kuća i zgrada Korištenjem uzoraka omogućava se

unapređenje sistema upravljanja sa osobenostima predikcije.

Uzorci predstavljaju zauzetost prostora ukućanima u predhodnih par godina u cilju automatske kontrole temperature

Metode bazirane na Fuzzy C-means i eXclusive Self-Organizing Maps daju najbolje perfomase u upravljanju.


45

Zaključak klaster analize

Algoritmi grupisanja se razlikuju u mnogim aspektima: brzina učenja, količina podataka za treniranje, brzina klasifikacije, robusnost, itd.


46

,

24


K-means metoda je jednostavna, nije vremenski zahtjevna i nezavnisna je od rasporeda uzoraka zahtjevna i nezavnisna je od rasporeda uzoraka.

Negativne strane se odnose na činjenicu da sama selekcija broja klastera utiče na rezultat.

Kao alternativna metoda preporučuje K-mediods, koja umjesto mean-a, koristi najčešće locirani centar objekt u klasteru i nije osjetljiv na šum.


47

Fuzzy K-means grupisanje pri istom ulaznom setu podataka vrši bolje grupisanje od K-means algoritma.

Potrebno je više vremena za FCM grupisanje nego za K-means grupisanje istog seta podataka.


Nema najboljeg algoritma grupisanja podataka.j j g g g p j p Preporuka: isprobati više algoritama na datom

skupu podataka!!!


48

Documents

PU 2 Grupisanje.ppt - lejla-bm.com.ba · 11 j( j) g p Primjena metoda grupisanja Inžinjerstvo: analiza podataka u cilju usporedbe i primjene u robotici,... Inteligentna analiza Ispitivanje