39
UNIVERZA V LJUBLJANI FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU Mentor: prof. dr. Igor Kononenko Ljubljana, 2009

UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

UNIVERZA V LJUBLJANI

FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO

Maja Lokar

Pomembnost in interakcije atributov pri klasifikaciji

DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

Mentor: prof. dr. Igor Kononenko

Ljubljana, 2009

Page 2: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU
Page 3: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

I Z J A V A O A V T O R S T V U

diplomskega dela

Spodaj podpisana Maja Lokar, z vpisno številko 63040089, sem avtorica diplomskega dela z naslovom: Pomembnost in interakcije atributov pri klasifikaciji S svojim podpisom zagotavljam, da:

• sem diplomsko delo izdelala samostojno pod mentorstvom

prof. dr. Igor Kononenko

• so elektronska oblika diplomskega dela, naslov (slov., angl.), povzetek (slov., angl.) ter ključne besede (slov., angl.) identični s tiskano obliko diplomskega dela

• soglašam z javno objavo elektronske oblike diplomskega dela v zbirki »Dela FRI«. V Ljubljani, dne 15.9.2009 Podpis avtorice:

Page 4: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

ZAHVALA

Zahvaljujem se svojemu mentorju prof. dr. Igorju Kononenku ter mlademu raziskovalcu Eriku Štrumblju za pomoč in nasvete pri diplomski nalogi. Prav tako se zahvaljujem vsem, ki so mi stali ob strani in me podpirali v času študija.

Page 5: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

KazaloKazaloKazaloKazalo

POVZETEKPOVZETEKPOVZETEKPOVZETEK ........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ 1111

ABSTRACTABSTRACTABSTRACTABSTRACT ........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ 2222

1. UVOD1. UVOD1. UVOD1. UVOD ............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ 3333

2.METODOLOGIJA2.METODOLOGIJA2.METODOLOGIJA2.METODOLOGIJA ................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ 4444

2.1 Pregled metod strojnega učenja ..................................................................................................................... 4

2.2 Metode za ocenjevanje kvalitete atributa ...................................................................................................... 5 Informacijski prispevek atributa .................................................................................................................... 6 ReliefF ................................................................................................................................................................ 6

2.3 Merjenje odvisnosti med atributi (interakcij) ............................................................................................... 8

3. PRAKTIČNA IMPLEME3. PRAKTIČNA IMPLEME3. PRAKTIČNA IMPLEME3. PRAKTIČNA IMPLEMENTACIJANTACIJANTACIJANTACIJA ............................................................................................................................................................................................................................................................................................................................................................................................................................................ 10101010

3.1 Weka ............................................................................................................................................................... 10

3.2. Program ......................................................................................................................................................... 10

4. REZULTATI4. REZULTATI4. REZULTATI4. REZULTATI ............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ 23232323

5. SKLEP5. SKLEP5. SKLEP5. SKLEP ................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ 29292929

6. PRILOGE6. PRILOGE6. PRILOGE6. PRILOGE ............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ 30303030

VIVIVIVIRIRIRIRI .................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... 34343434

Page 6: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

1

POVZETEK

Namen te diplomske naloge je raziskati povezanost med pomembnostjo atributa in interakcijami med atributi pri strojnem učenju. Pomembnost atributa smo ocenjevali z informacijskim prispevkom in oceno ReliefF, interakcije med atributi pa z uporabo interakcijskega prispevka. Z uporabo Jave in Weke smo implementirali okolje, v katerem smo empirično analizirali 63 znanih množic podatkov. Ugotovili smo, da sta pomembnost atributa ter čistost atributa zelo povezana med seboj. Prav tako smo ugotovili, da je potrebno poznati zelo veliko atributov, če hočemo poznati večino interakcij med atributi, kar je pa v nasprotju z željenim, da je za poznavanje večine interakcij dovolj poznati manjše število najpomembnejših atributov. Atributi, ki so vezani z močnejšimi medsebojnimi interakcijami, imajo tudi večje število pozitivnih interakcij. Ključne besede: interakcijski prispevek, informacijski prispevek, ocena ReliefF.

Page 7: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

2

ABSTRACT

This masters degree provides the in-depth look of the relations between attribute importance and interactions between machine learning attributes. The importance of the attribute was calculated with information gain and ReliefF while interactions between attributes were calculated with the use of information gain. Using Java and Weka we implemented an environment in which we empirically analyzed 63 known examples. We concluded that attribute importance and attribute clarity were strongly related. It was also concluded that if we wish to know the majority of interactions between attributes, great attribute knowledge is required. This is against the desired effect which is that for knowing the majority of interactions a small number of the most important attributes is required. Attributes linked with stronger interactions also have a bigger number of positive interactions. Keywords: interaction gain, information gain, ReliefF

Page 8: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

3

1. UVOD

V zadnjem času se pojavlja velika potreba po analizi podatkov iz področja medicine, bančništva, financ, robotike, analize tekstov, računalniških iger, zavarovalništva, prepoznave objektov, govora, itd. Za različne namene želimo odkriti zakonitosti podatkov, povezave med njimi ter napovedati, kaj se bo zgodilo v prihodnosti na podlagi obstoječih podatkov, kar so poglavitni vzroki za razvoj metod strojnega učenja. Strojno učenje je področje umetne inteligence, ki se ukvarja z razvojem tehnik, ki omogočajo računalnikom oz. strojem, da se lahko učijo. Strojno učenje zajema metode za kreiranje računalniških programov na podlagi podatkov (vzorcev). Strojno učenje se močno opira na statistiko, saj se tudi statistika ukvarja s podatki. V nasprotju z njo se strojno učenje bolj ukvarja z samimi algoritmi in računskimi operacijami. Osnovni princip strojnega učenja je avtomatsko opisovanje (modeliranje) pojavov iz podatkov [4]. Rezultati strojnega učenja so lahko pravila, funkcije, relacije, sistemi enačb, verjetnostne porazdelitve, ipd, ki so lahko predstavljene z različnimi formalizmi: odločitvenimi pravili, odločitvenimi drevesi, regresijskimi drevesi, Bayesovimi mrežami, nevronskimi mrežami, itd. Naučeni modeli poskušajo razlagati podatke, na katerih so bili modeli generirani, in se lahko uporabijo za odločanje pri oprazovanju modeliranega procesa v bodočnosti (napredovanje, diagnosticiranje, nadzor, preverjanje, simulacije, itd...). Za strojno učenje potrebujemo podatke, ki jih lahko predstavimo v tekstovni ali slikovni obliki. V diplomski nalogi se bomo osredotočili na predstavitev podatkov z atributi in pripadajočim razredom. Podatek oziroma učni primer je lahko na primer neka žival. Atribut lahko predstavlja velikost in barvo živali, medtem ko je razred lahko “je sesalec” ali “ni sesalec”. Vsak atribut je lahko tudi razred, odvisno je pa predvsem od tega, kako si zamislimo problem. Nekateri atributi bolj vplivajo na razred, drugi manj. Pri tem lahko atributi sodelujejo med seboj, kar predstavimo z interakcijami [1]. V tej diplomski nalogi nas zanima predvsem, kakšen je vpliv atributov na nekaterih znanih množicah primerov, kakšne so interakcije med njimi ter kakšna je zveza med pomembnostjo atributa ter interakcijami med njimi. Poznavanje pomembnosti atributa bistveno vpliva na proces učenja modela, kar lahko občutno vpliva na rezultate pri klasifikaciji. Iskanja odgovorov na zgornja vprašanja se bomo lotili na 63-ih množicah podatkov z uporabo metod za ocenjevanje kvalitete atributa (ReliefF [4,5,6], informacijski prispevek) ter interakcijskim prispevkom [1].

Page 9: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

4

2.METODOLOGIJA

To poglavje je namenjeno kratkemu pregledu metod strojnega učenja ter metod za ocenjevanje atributov in interakcij med njimi. Osnovni pojmi, ki jih je potrebno poznati pri analizi podatkov, so naslednji: Zbirka podatkov (ang. dataset) v strojnem učenju tudi množica primerov, je predstavljena z vrsticami, kjer vsaka vrstica predstavlja določen primer. Vsaka vrednost v vrstici pa predstavlja določeno vrednost za nek atribut, kot je na primer višina, teža. Atribut: podatek v množici primerov, ki predstavlja neko vrednost v množici vrednosti. Atributi so lahko zvezni ali diskretni. Zvezni atributi so podani na nekem intervalu ter lahko zavzamejo katerokoli vrednost na tem intervalu, diskretni pa so predstavljeni kot neka vrednost v množici vrednosti nekega atributa. Atribut je spremenljivka, vrednost atributa pa je dogodek. Za vsak diskretni atribut Ai imamo množico možnih vrednosti Vi={V1,...Vn}. Za vsak zvezni atribut Ai imamo interval možnih vrednosti Vi=[Mini,Maxi] Primer zbirke podatkov lahko predstavimo s tabelo 2.1:

število nog teža barva žival

2 3.2 bela raca

4 ? siva slon

50 0.03 črna stonoga

Tabela 2.1: Primer zbirke podatkov za klasifikacijo živali Tabela predstavlja uvrščanje živali glede na število nog, težo ter barvo. Velikokrat se zgodi, da za določen atribut ne poznamo vrednosti (naprimer, za slona ne poznamo podatka o teži). Pri tem je število nog diskreten atribut, teža zvezni (numerični) atribut, barva opisni atribut ter žival razred. V tej diplomski nalogi se osredotočimo predvsem na klasifikacijo, torej zbirke, kjer je razred diskreten ali opisen atribut.

2.1 Pregled metod strojnega učenja

Metode strojnega učenja delimo glede na način uporabe naučenega znanja, in sicer poznamo klasifikacijo (uvrščanje), regresijo ter ostale metode kot so učenje asociacij in logičnih relacij, učenje sistemov enačb ter razvrščanje. Pomembnost atributov, in s tem, katere atribute je najbolj smiselno vključiti, potrebujemo zato, da vemo, kateri atributi bistveno vplivajo na razred. Interakcije med atributi, ki jih merimo z interakcijskim prispevkom, pa potrebujemo zato, da vemo, kateri atributi so med seboj povezani in katere smemo izločiti, ker so redundantni. Izločanje nepomembnih atributov nam namreč veliko pomaga pri doseganju večje klasifikacijske točnosti in skrajša čas, ki je potreben za učenje iz zbirke podatkov.

Page 10: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

5

2.2 Metode za ocenjevanje kvalitete atributa

Pri iskanju hipoteze je osnovna naloga algoritma oceniti pomembnost atributa za dani učni problem. V tej diplomski nalogi bomo za preučevanje pomembnosti atributa ter preučevanje odvisnosti med atributi uporabili: -informacijski prispevek -oceno ReliefF Obstajajo tudi druge metode: razmerje informacijskega prispevka, razdalja dogodkov, povprečna absolutna teža evidence, mera najkrajšega opisa (MDL), J-Ocena, statistiki χ2 in G, ortagonalnost vektorjev porazdelitev (ORT), Gini-indeks. [4] V praksi se najbolj uporabljajo mere, ki temeljijo na količini informacije: Potrebna količina informacije, da izvemo, da je izid poskusa (dogodek) Xi, je definirana kot:

I(Xi)=-log2P(Xi) Povprečni pričakovani količini informacije, da izvemo, kateri izmed nezdružljivih izidov Xi, i=1...n, Sumi P(Xi)=1, se je zgodil, pravimo entropija dogodka:

H(X) )(log)( 2 i

i

i XPXP∑−=

Entropija je osnovna mera nečistoče. Zaradi nadaljnjega razumevanja je potrebno vpeljati notacijo: n – število učnih primerov nk – število učnih primerov iz razreda rk

nj – število učnih primerov z j–to vrednostjo danega atributa Ai

nkj – število učnih primerov iz rareda rk z j–to vrednostjo danega atributa Ai

Vpeljimo še aproksimacije verjetnosti iz učne množice primerov:

pkj =nkj

n

pk =nk

n

pj = n j

n

pk|j =p kj

p j=

nk

n j

Poznamo naslednje entropije:

Page 11: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

6

HR - entropija razredov HA- entropija vrednosti danega atributa HR|A - entropija produktov dogodka razred-vrednost atributa HR|A pogojna entropija razreda pri dani vrednosti atributa Informacijski prispevek atributa Klasična mera za pomembnost atributa je informacijski prispevek atributa (information gain), ki so ga predlagali že Hunt in sodelavci [3]. Informacijski prispevek atributa je definiran kot prispevana informacija atributa za določitev vrednosti atributa:

Gain(A)=HR+HA-HRA= HR-HR|A [1] Ker je entropija mera nečistoče, veljajo za informacijski prispevek lastnosti, ki veljajo za funkcijo pomembnosti atributa:

Gain(A) >= 0 max(Gain(Ax))= HR

ReliefF Kira in Rendell [5] sta razvila algoritem RELIEF za ocenjevanje atributov v dvorazrednih klasifikacijskih problemih, ki učinkovito reši problem odvisnosti aributov, kot je to v prejšnjem primeru. Osnovna ideja algoritma je, da za vsak učni primer poišče najbližji primer iz tistega razreda (najbližji zadetek) in najbližji primer iz nasprotnega razreda (najbližji pogrešek). Na ta način lahko oceni kvaliteto atributa glede na lokalne značilnosti razločevanja razredov. Ravno lokalnost pa vključuje v oceno tudi ostale atribute. Na ta način RELIEF implicitno ocenjuje atribute v odvisnosti od ostalih atributov. Osnovni algoritem je sledeč:

Page 12: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

7

float [] RELIEF(instance [] I)

{

int inst, att, J;

float [] w;

instance M, H;

for (att=1; att<a; att++)

{

W[att]=0;

}

for (j=1; j<m; j++)

{

naključno izberi primer [inst]

primeru I[inst] poišči najbližji pogrešek M in

najbližji zadetek H;

for(att=1; att<a; att++)

{

W[att] := W[att] – diff(att, I, I[inst,H])/m

+diff(att, I, I[inst,M])/m;

}

}

return W;

}

Osnovni Relief lahko ocenjuje zvezne in diskretne atribute, ki so močno odvisni med seboj. Npr. množico pomembnih in nepomembnih atributov lahko Relief pravilno oceni x atributov, ki definirajo za učenje zelo težavno funkcijo parnosti reda x. Časovna zahtevnost algoritma je

, kjer je a število atributov, n število učnih primerov ter m število iteracij v algoritmu Relief. Za izboljšanje zanesljivosti ocen Relief-a lahko zanka preteče vseh n učnih primerov. Ker pa je to pogosto časovno zahtevno, ponavadi izberemo ustrezno majhno število iteracij m << n, v katerih naključno izbiramo primere. Tipična vrednost parametra je m=30...200. Da bi izpopolnili osnoven algoritem, je bila razvita inačica ReliefF [4]. ReliefF vsebuje naslednje razširitve: -neznane vrednosti atributov:

Pri ocenjevanju atributov lahko uporablja tudi nepopolne podatke. V ta namen je funkcija razdalje posplošena tako, da izračuna verjetnost, da imata dva primera različno vrednost danega atributa. Če sta obe vrednosti podani, potem je za diskretne atribute vedno 0 ali 1. Pri manjkajočih vrednostih ločimo naslednja dva primera;

-prvi primer (uj) nima vrednosti za dani atribut: diff(Ai, uj, uk) = 1-pv

(i,k)|r(j)

-če oba primera nimata vrednosti za dani primer:

Page 13: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

8

diff(Ai, uj, uk) = ∑=

×−

i

kl

jl

n

lrVrV pp

1|| )(1 )()(

-šumni podatki:

Najpomembnejši del algoritma RelieF išče najbližji zadetek in najbližji pogrešek za dani učni primer. Šum v razredu in/ali vrednostih atributa bistveno vpliva na izbor najbližjih zadetkov/pogreškov. Da bi povečal zanesljivost iskanja najbljižjih pogreškov/zadetkov, razširjeni algoritem ReliefF za vsak učni primer poišče k najbljižjih zadetkov in k najbljižjih pogreškov ter poišče povprečje njihovih prispevkov. Izkaže se, da ta preprosta razširitev bistveno izboljša zanesljivost ReliefF-ovih ocen. Tipična vrednost parametra k = 5...10.

-Večrazredni problemi: Posplošitev na ocenjevanje atributov pri klasifikacijskih problemih z več kot dvema razredoma zahteva, da namesto k najbližjih pogreškov iz nasprotnega razreda ReliefF poišče po k najbližjih pogreškov iz vsakega razreda. Prispevki posameznih razredov so dodatno uteženi z apriornimi verjetnostmi razredov (v spodnjem algoritmu je faktor utežitve prazr/(1-pr); razr je razred najbližjega pogreška, r pa razred izbranega primera; faktor je torej utežitev prispevka razreda najbližjega pogreška relativno glede na vse razrede, ki niso enaki r)

2.3 Merjenje odvisnosti med atributi (interakcij)

Odvisnost med atributom ter razredom definiramo z informacijskim prispevkom:

Gain(A)=HR+HA-HRA= HR-HR|A

normaliziran informacijski prispevek ima lastnosti bližine (ena minus razdalje):

1 – D(R,A) =(HR+HA-HRA) |HRA = (HR+HA) |HRA-1 Iste mere lahko uporabimo za merjenje odvisnosti med dvema atributoma. Čim bolj sta si atributa odvisna, tem manjša je razdalja med njima. oziroma tem večji je informacijski prispevek. Če sta atributa identična, je razdalja D(A,A) = 0. Če sta atributa popolnoma neodvisna, je razdalja maksimalna, t.j. enaka 1. Jakulin in Bratko [4] sta zgornji princip (nenormaliziranega informacijskega prispevka) posplošila na poljubno število atributov. Informacijskemu prispevku pravimo tudi medsebojna informacija (ang. mutual information):

I(A;B)=HA+HB-H AB= HB+HB|A= HA +H A|B

Večja kot je medsebojna informacija, bolj sta si atributa odvisna. Pri tem velja opozoriti, da je medsebojna informacija dejansko povprečna odvisnost med vrednostmi dveh atributov.

Page 14: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

9

Pogojna medsebojna informacija pri danem razredu C je podana z:

I(A;B|C) = H A|C+H B|C-H AB|C= H AC +HABC+H C-H AB|C

Pogojna medsebojna informacija je vedno nenegativna in enaka 0, ko sta atributa A in B pogojno neodvisna pri dani vrednosti razreda C. Za tri atribute A1,A2 in A3 sta Jakulin in Bratko [4] definirala interakcijski prispevek:

I(A1;A2;A3) = I(A1;A2|A3) – I(A1,A3) - I(A2,A3) Oziroma drugače zapisano:

I(A1;A2;A3) = HAB+HBC+HAC-HA-HB-HC-HABC

Interakcijski prispevek lahko razumemo kot količino informacije, ki je skupna vsem trem atributom, ni pa prisotna v nobeni podmnožici atributov. Interakcijski prispevek je:

−simetričen I(A1;A2;A3) = I(A1;A3;A2) = I(A2;A1;A3) = ... −lahko pozitiven, v tem primeru združitev atributov prinese dodatno informacijo, ki je ne moremo pridobiti od vsakega posebej (kot je v tem primeru XOR); −lahko negativen, v tem primeru obstaja redudantna informacija, torej lahko, če obravnavamo vsak atribut posebej, dobimo odvečno (zavajajočo) informacijo, čemur se izognemo, tako da atribute združimo; ekstremen primer so kopije atributov, kjer lahko dejansko zavržemo vse razen enega atributa −enak nič, kar nakazuje, da so si vsi atributi medsebojno neodvisni ali, če je eden atribut neodvisen od ostalih dveh (v redkih primerih se lahko zgodi, da je interakcijski prispevek enak nič, pa so atributi vseeno v 3-interakciji).

Interakcijski prispevek lahko sedaj posplošimo na poljubno število atributov [2]. Naj bo S

množica k atributov. Potem je k-smerni interakcijski prispevek definiran z:

SXXSIXXSITHSIS

TS∈−=−=∑

− ,)()|()()1()( ||||

τ

Seveda pa je zanesljivost ocenjevanja interakcij višjega reda odvisna od razpoložljivega števila učnih primerov. Preprost napotek pravi, da je treba imeti vsaj 10 x toliko primerov, kolikor je vrednosti kartezičnega produkta (npr. za dva binarna atributa potrebujemo vsaj 40 primerov). Ponavadi se v praksi ocenjujejo 3 in 4 smerni interakcijski prispevki.

Page 15: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

10

3. PRAKTIČNA IMPLEMENTACIJA

Za diplomsko nalogo smo izdelali program, ki prikaže ocene ReliefF, informacijski ter interakcijski prispevek. Program je napisan v programskem jeziku Java 1.6, v razvojnem okolju Eclipse. Uporabljeni so bili tudi paketi iz programa Weka.

3.1 Weka

Programski paket Weka je zbirka algoritmov za strojno učenje. Vsebuje orodja za obdelavo podatkov (data preprocessing), vizualizacijo (visualization), klasifikacijo (classification), razvrščanje v skupine (clustering), povezovalna pravila (association rules) ter regresijo (regression). Glavni del programa Weka predstavlja grafični uporabniški vmesnik Explorer, uporabimo pa lahko tudi vmesnik Knowledge Flow, ki je sestavljen iz komponent, ali pa kličemo ukaze iz ukazne vrstice. Na voljo so tudi Java razredi, ki jih lahko kličemo iz lastnih Java aplikacij. Za diplomsko nalogo smo uporabili slednji pristop. Za uporabo v Weki množice primerov zapišemo v formatu .arff. Primer .arff datoteke: @relation tenis

@attribute vreme {sončno, oblačno, deževno}

@attribute temperatura real

@attribute vlažnost real

@attribute vetrovno {da, ne}

@attribute smo_igrali {da, ne}

@data

sončno,85,85,ne, ne

sončno,80,90,da, ne

oblačno,83,86,ne,da

deževno,70,96,ne, da

deževno,68,80,ne, da

deževno,65,70,da, ne

oblačno,64,65,da, da

sončno,72,95,ne, ne

sončno,69,70,ne, da

Prva vrstica @relation tenis nam pove ime relacije. Sledi opis atributov, kjer imamo najprej ime, potem pa še vse možne vrednosti atributa. Ti so lahko numerični, nominalni, nizi ter datumi. Naprimer za atribut @attribute vreme imamo možne vrednosti sončno, oblačno in deževno. Podatki se začnejo z @data, kjer je vsak podatek zapisan kot množica atributov, zapisani pa so vsak v novi vrstici ter ločeni z vejico. Na primer sončno,85,85,ne,ne nam pove, da je bilo v nekem primeru sončno, 85 stopinj, vlažnost 85, ni bilo vetrovno ter da nismo igrali tenisa.

3.2. Program

Podatke smo pridobili na UCI repozitoriju [6], iz katerega smo izbrali množice, opisane v

Page 16: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

11

tabeli 3.1.

Page 17: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

12

Ime množice primerov D Z n # %+ %- S

anneal x x 39 898 41.5 58.5 podatki o ohlajanju

audiology x 70 226 25 75 podatki o sluhu

arrhythmia x x 0 452 69,6 30,4 podatki o aritmiji srca

autos x x 26 205 81,6 18,3 podatki o varnosti avtov

balance-scale x 5 625 100 0 tehtnica

breast-cancer x 10 286 100 0 rak na dojki

breast-w x 10 699 100 0 rak na dojki

car x 7 1728 100 0 podatki o avtomobilih

cmc x x 10 1473 66,6 33,3 podatki o izbiri kontracepcije

horse-colic x x 23 368 81,4 18,6 konjska bakterija

credit-a x x 16 690 60 40 kreditne kartice

credit-g x x 21 1000 96,9 3,1 kreditne kartice

cylinder-bands x x 48 540 80,2 19,2

dermatology x 35 366 70,6 29,4 podatki o kožnih boleznih

diabetes x 9 768 85,7 14,3 podatki o sladkorni bolezni

ecoli x 8 336 42,9 57,1 podatki o bakterijah

flags x x 30 194 77,1 22,9 podatki o zastavah

glass x x 10 214 61,1 38,9 podatki o identifikaciji stekla

haberman x x 4 306 100 0 rak na dojki

heart-c x x 14 303 64,1 35,9 podatki o srčnih boleznih

heart-h x x 14 294 79,5 20,5 podatki o srčnih boleznih

heart-statlog x x 14 270 69,2 30,8 podatki o srčnih boleznih

hepatitis x x 20 155 63,1 36,9 podatki o hepatitisu

hypothyroid x x 30 3772 76,4 23,6 podatki o bolezni ščitnice

ionosphere x x 35 351 83,4 16,6 podatki o atmosferi

iris x 4 150 83,4 16,6 podatki o rastlini

japanese_vowels_test 15 5687 91,2 8,8 podatki o samoglasnikih

japanese_vowels_train 15 4274 96,7 3,3 podatki o samoglasnikih

kdd_synthetic-control x x 62 600 83,2 16,8 podatki o kontronih tabelah

kr-vs-kp x 37 3196 71,6 28,4 podatki o šahu

labor x x 17 57 59,2 40,8 podatki o pogajanjih v industriji

letter x x 17 20000 96,7 3,3 podatki o črkah

liver x 7 345 100 0 podatki o boleznih jeter

lung-cancer x 57 32 69,5 30,5 podatki o pljučnemu raku

lymph x 19 148 62,1 37,9 podatki o limfnem sistemu

mfeat-pixel x 649 2000 91,1 8,9 prepoznava številk

molecular-biology x 59 106 95,4 4,6 podatki o DNA

monks1 x 6 124 86,7 13,3 umetni dataset

monks2 x 6 169 93,3 6,7 umetni dataset

monks3 x 6 122 100 0 umetni dataset

mushroom x 23 8124 57,6 42,4 podatki o gobah

nursery x x 9 12960 0 100 podatki o otroških vrtcih

optdigits x x 65 5620 71,3 28,7 prepoznava pisave

pendigits x 17 5473 0,62 0,38 prepoznava pisave

page-blocks x 11 10992 0,76 0,24 prepoznava delov dokumenta

Postoperative-patient x 9 90 100 0 podatki o ponovnem zdravljenju

primary-tumor x 18 339 84,6 15,4 podatki o tumorju

segment x 20 2310 44,4 55,6 podatki o segmentaciji slik

sick x x 20 3772 37 63 podatki o žlezah

solar-flare-1 x 13 323 57,6 42,4 podatki o sončnih izbruhih

solar-flare-2 x 13 1066 24,2 75,8 podatki o sončnih izbruhih

soybean x 36 683 70 30 podatki o rasti fižola

splice x 62 3190 90,4 9,6 podatki o genih

sponge x 46 76 43,2 56,7 podatki o spužvah

tae x 6 151 100 0 podatki o preučevanju učiteljev

tic-tac-toe x 10 958 88,9 11,1 podatki o igri “križci–krožci”

trains x 33 10 52,4 47,6 podatki o vlakih

vehicle x x 19 846 75 25 podatki o vozilih

vote x 16 435 66,7 33,3 podatki o glasovanju

vowel x x 14 990 98,7 1,3 podatki o samoglasnikih

waveform x 41 5000 85,4 14,6

wine x 16 178 47,4 52,6 podatki o vinu

zoo x 18 101 77,2 22,8 podatki o živalih

povprečje 32.05 1860.57 75.53 24.47

Tabela 3.1: Opis uporabljenih podatkovnih baz. Opis parametrov v tabeli 3.1:

Page 18: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

13

D: ali ima množica primerov diskretne atribute Z: ali ima množica primerov zvezne atribute n: število atributov #: število primerov %+: delež pozitivnih interakcij (nam pove, kolikšen je delež pozitivnih interakcij za nek atribut z ostalimi atributi) %-: delež negativnih interakcij (nam pove, kolikšen je delež negativnih interakcij za nek atribut z ostalimi atributi) S: opis vsebine množice primerov Program podpira naslednje parametre: -info: izpiše vrednosti informacijskega prispevka v datoteko -gain: izpiše vrednosti interakcijskih prispevkov v datoteko -discr2: diskretizira atribute s pomočjo diskretizacije discr2. Diskretizacijo atributov potrebujemo zato, da vrednosti atributov preračunamo glede na določene intervale. Naslednjim trem parametrom lahko priredimo vrednosti 1 ali 0: show3dGraph, showInteractionVal, showReliefFAttributes, showAttrIntSum. -show3dGraph: prikaže 3 dimenzionalni graf medsebojnih interakcij -showInteractionVal: prikaže graf medsebojnih vrednosti informacijskih prispevkov (privzeta vrednost je 0) -showRelieffAttributes: če je vrednost=1, se prikažejo na grafu medsebojnih interakcij ReliefF ocene, sicer se prikažejo vrednosti informacijskih prispevkov (privzeta vrednost je 0) -showAttrIntSum: izpiše deleže interakcij za vsak atribut v datoteko (privzeta vrednost je 0) Pri zadnjih dveh parametrih nastavljamo deleže, ki jih želimo prikazati na grafu medsebojnih interakcij (privzeta vrednost za prikaz deležev interakcij in atributov je 0.0): -intThreshold=0.0: delež števila interakcij -attrThreshold=0.0: delež števila atributov Primer uporabe programa:

Page 19: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

14

-iz ukazne vrstice: java MainClass ecoli.arff info interactionGain discr2 -iz datoteke:

car.arff info interactionGain discr2 show3dGraph=0 showGraph=1 showInteractionVal=1 showRelieffAttributes=1 showAttrIntSum = 1 intThreshold=0.4 attrThreshold=0.5

Program bo obdelal datoteko car.arff, izračunal informacijski prispevek (info) in interakcijski prispevek (interactionGain) ter ju zapisal v tekstovno datoteko. Uporabil bo tudi drugo diskretizacijo (discr2). Ker je opcija show3dGraph nastavljena na 0, program ne bo izrisal 3-dimenzionalnega grafa, izrisali pa se bodo vsi ostali grafi (showGraph=1) ter graf medsebojih interakcij (show interactionVal=1). Na grafu medsebojnih interakcij bomo prikazali ReliefF ocene (showRelieffAttributes=1) ter ne bomo prikazali 40% vseh atributov, ki imajo najnižje vrednosti vseh interakcij (intThreshold=0.4) ter 50% najslabše ocenjenih interakcij (attrThreshold=0.5). Zatem se bodo izpisali deleži interakcij za vsak atribut v datoteko (showAttrIntSum=1). 5.2.1 Potek programa Program, ki smo ga izdelali za diplomsko nalogo, najprej prebere vsako datoteko tipa arff in obdela podatke. Če so atributi numerični, se diskretizirajo s pomočjo filtra Discretize. Nato se za vsako množico primerov izpiše število atributov, primerov, razredov ter število manjkajočih vrednosti, verjetnosti posameznih razredov, intervali po diskretizaciji, informacijski in interakcijski prispevki ter ocene ReliefF. Izpise vseh potrebnih podatkov za posamezno množico primerov smo implementirali s klici Wekinih knjižnic, medtem ko je bilo interakcijske prispevke potrebno pridobiti najprej z računanjem in nato s seštevanjem in odštevanjem entropij. Temu sledi prikaz grafov, ki ga je bilo prav tako potrebno napisati brez uporabe Wekinih knjižnic:

Page 20: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

15

3.2.1: Graf medsebojne povezanosti atributov glede na interakcijske prispevke

Slika 3.1: Graf interakcijskih prispevkov za množico primerov monks-1.arff. Širina povezave ustreza moči interakcije, velikost atributa pa bodisi oceni ReliefF, bodisi velikosti informacijskega prispevka, odvisno od tega, kaj izberemo ob zagonu programa. Iz slike 3.1 je razvidno, da poteka največja interakcija med attributoma attr1 in attr2, ki imata zelo visoki oceni ReliefF, medtem ko imajo atributi attr3, attr4 ter attr6 negativno oceno ReliefF.

Page 21: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

16

Slika 3.2: Graf interakcijskih prispevkov za množico primerov zoo.arff. Graf na sliki 3.2 je nasproten primer grafu na sliki 3.1, saj najmočnejša interakcija poteka med atributi, ki nimajo najvišjih ReliefF ocen, medtem ko imajo atributi z visokimi ReliefF ocenami nizke vrednosti interakcij. Razvidno je,da sta atributa predator in catsize zelo povezana med seboj, kar pomeni, da če je žival plenilec, je najverjetneje tudi mačka, medtem ko nam atribut eggs (ali žival vali jajca) ter hair ne povesta nič o medsebojni povezanosti atributov.

Page 22: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

17

3.2.2: Kumulativni graf deleža interakcij, ki ga poznamo ob poznavanju določenih

atributov glede na oceno ReliefF. Ta graf nam predstavlja, koliko atributov, razvrščenih po oceni ReliefF moramo poznati, da poznamo vse interakcije.

Slika 3.3: Kumulativni graf deležev interakcij, ki ga poznamo ob poznavanju določenih atributov glede na oceno ReliefF za množico primerov segment.arff. Iz grafa na sliki 3.3 je razvidno, da nam več kot polovica atributov, razvrščenih po oceni ReliefF, ne pove nič o deležih interakcij.

Page 23: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

18

Slika 3.4: Kumulativni graf deležev interakcij, ki ga poznamo ob poznavanju določenih atributov glede na oceno ReliefF za množico primerov audiology.arff. Na sliki 3.4. je razvidno, da deleži interakcij naraščajo najprej zelo hitro, nato pa vedno počasneje, ker želimo, da bi nam ocena ReliefF pomagala pri ugotavljanju deležev interakcij.

Page 24: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

19

3.2.3: Kumulativni graf deležev interakcij, ki ga poznamo ob poznavanju določenih

atributov glede na informacijski prispevek. Graf na sliki 3.5 nam predstavlja, koliko atributov, razvrščenih po informacijskem prispevku moramo poznati, da poznamo vse interakcije

Slika 3.5 : Graf deležev interakcij, ki ga poznamo ob poznavanju določenih atributov glede na informacijske prispevke.

Page 25: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

20

3.2.4: Graf maksimalnih vrednosti interakcij za nek atribut glede na število njegovih

pozitivnih interakcij Pri tem predstavlja x os število pozitvnih interakcij z drugimi atributi, y os pa maksimalno vrednost interakcij. Graf na sliki 3.6 nam pove, ali imajo atributi z največjimi vrednostmi interakcij tudi največje število pozitivnih interakcij.

Slika 3.6 : Graf maksimalnih vrednosti interakcij za množico primerov car.arff

Page 26: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

21

3.2.5: Graf povprečne vrednosti negativnih interakcij glede na število interakcij

Slika 3.7 : Graf povprečne vrednosti negativnih interakcij glede na število interakcij za množico primerov ecoli.arff. Graf na sliki 3.7 predstavlja, kako so razporejene povprečne vrednosti negativnih interakcij, predstavljene na x osi, s številom interakcij na y osi.

Page 27: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

22

3.2.6: Graf povprečne vrednosti pozitivnih interakcij glede na število interakcij

Slika 3.8 : Graf povprečne vrednosti pozitivnih interakcij glede na število interakcij za množico primerov car.arff. Graf na sliki 3.8 predstavlja, kako so razporejene povprečne vrednosti negativnih interakcij, predstavljene na x osi, s številom interakcij na y osi.

Page 28: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

23

4. REZULTATI

V tem razdelku bomo navedli nekaj najpomembnejših ugotovitev. Korelacija ReliefF/informacijski prispevek Ugotovili smo, da ocena ReliefF in informacijski prispevek premosorazmerno naraščata. To velja za večino množic primerov, razen za nekatere, kjer imamo nizko korelacijo ocene ReliefF ter informacijskega prispevka.

Korelacijski koeficient ReliefF/informacijski prispevek

Slika 4.1: Histogram množic primerov glede na vrednosti korelacijskih koeficientov med oceno ReliefF in informacijskim prispevkom. Korelacijo med oceno ReliefF ter informacijskim prispevkom lahko prikažemo tudi s histogramom, kjer x os predstavlja vrednosti korelacijskih koeficintov, y os pa predstavlja, koliko množic primerov pripada različnemu razponu vrednosti. Iz tega grafa je razvidno, da ima 40 množic primerov od 63-ih zelo visoko korelacijo ocene ReliefF ter informacijskega prispevka. Zanimiv je podatek, da imamo datasete z zelo nizko korelacijo med oceno ReliefF ter informacijskim prispevkom. V to skupino spadata 2 množici primerov, in sicer haberman.arff ter cylinder-bands.arff.

Page 29: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

24

Korelacija ReliefF/povprečna vrednost pozitivnih interakcij

Korelacijski koeficient ReliefF/povprečna vrednost pozitivnih interakcij

Slika 4.2: Histogram množic primerov glede na vrednosti korelacijskih koeficientov med povprečno vrednostjo pozitivnih interakcij ter oceno ReliefF. Graf na sliki 4.2. predstavlja, koliko množic primerov pripada določenemu razponu vrednosti korelacijskih koeficientov med oceno ReliefF ter povprečno vrednostjo pozitivnih interakcij. Vidimo, da je pri skoraj polovici množic primerov vrednost korelacijskega koeficienta med ReliefF oceno ter povprečno vrednostjo pozitivnih interakcij zelo nizka. To pomeni, da večja kot je čistost atributa, manjša bo vrednost njegove povprečne vrednosti interakcij z drugimi atributi. Glede na grafe povprečnih vrednosti pozitivnih interakcij smo ugotovili, da večinoma ni možno odkriti nobene zakonitosti. Pričakujemo pa, da bodo ocene ReliefF padale skupaj z vrednostmi interakcijskih prispevkov. Korelacija ReliefF/povprečna vrednost negativnih interakcij

Iz grafov, na katerih je prikazana razporeditev povprečnih vrednosti negativnih interakcij z ocenami ReliefF, je pri približno 20-ih razvidno padanje povprečne vrednosti negativnih interakcij glede na oceno ReliefF.

Page 30: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

25

Korelacijski koeficient ReliefF/povprečna vrednost negativnih interakcij

Slika 4.3: Histogram množic primerov glede na vrednosti korelacijskih koeficientov med povprečno vrednostjo negativnih interakcij ter oceno ReliefF. Z grafom 4.3. smo prikazali razporejenost korelacijskih koeficientov ReliefF ocen ter povprečne vrednosti negativnih interakcij glede na število množic primerov. Deleži interakcij pri visokih ocenah ReliefF so zelo visoki: To je razvidno iz grafov, na katerem prikažemo deleže interakcij ter padajoče razvrščene ReliefF ocene. Pri tem bi bilo bolj zaželeno, da bodo deleži interakcij najprej strmo naraščali, nato pa vedno bolj počasi. Tako bi z uporabo ReliefF prihranili čas pri preiskovanju interakcij. Primer takega naraščanja za graf množice podatkov sick.arff:

Page 31: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

26

Slika 4.4: Graf deležev interakcij za atribute, ki so razvrščeni padajoče po ReliefF oceni. Slika 4.4. nam prikazuje, kako narašča skupni delež interakcij, če upoštevamo atribute, ki so levo od nekega atributa. Iz te slike je razvidno, da moramo poznati malo atributov, če hočemo poznati večino interakcij. Idealno bi bilo, če bi to veljalo za vse množice primerov, ampak velja samo za spodaj naštete: arrhythmia, audiology, hypothirois kr-vs-kp, monks-problems-1_train, monks-problems-3_train, nursery, page-blocks, sick, solar-flare_2, cmc, ecoli. Vendar pa smo ugotovili, da pri veliko množicah primerov deleži naraščajo najprej počasi, nato pa vedno hitreje. Pri tem gre za kvadratno naraščanje, kar pomeni, da nam ureditev po oceni ReliefF nič ne pomaga, ker s povečevanje števila atributov kvadratno narašča tudi število interakcij, ki jih poznamo. To je še posebej razvidno pri množicah primerov z veliko atributi (splice(62), waveform(41),optdigits(65),molecular-biology_promoters(59),mfeat-pixel(649), arrhythmia(280),). Pri teh množicah primerov so tudi ocene ReliefF manjše, kar pomeni, da se pomembnost razporedi med več atributov.

Page 32: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

27

Slika 4.5: Graf deležev interakcij za atribute, ki so razvrščeni padajoče po oceni ReliefF za množico primerov heart-c.arff. Na sliki 4.5. vidimo, da moramo poznati zelo veliko število atributov, da poznamo večino interakcij. Tudi pri grafih deležev interakcij glede na informacijske prispevke smo ugotovili podobno – najprej vrednosti informacijskih prispevkih naraščajo počasi, nato pa vedno hitreje. To je razvidno iz 46 grafov. Množic primerov, pri katerih delež interakcij narašča najprej hitro, potem pa počasi, je le 9. Primer takšnega grafa je množica primerov monks-1.arff.

Page 33: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

28

Atributi, ki imajo močnejše interakcije, imamo tudi večje število pozitivnih interakcij.

atribut vr. max.interakcije št.poz.interakcij

Wifes_age 0.5 5 Number_of_children_ever_born 0.5 5 Media_exposure 0.3 2 Wifes_education 0.3 2 Husbands_education 0.3 2 Husbands_occupation 0.3 2 Standard-of-living_index 0.1 0 Wifes_religion 0.1 0 Wifes_now_working? 0.1 0

Tabela 1: Podatki o maksimalnih vrednostih interakcij za množico primerov cmc.arff:

Tabela 1 nam prikazuje vrednost maksimalne za nek atribut z drugimi atributi (prvi stolpec) ter število pozitivnih interakcij za nek atribut z drugimi atributi (drugi stolpec).

Page 34: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

29

5. SKLEP

Ugotovili smo, da ocena ReliefF ter informacijski prispevek premosorazmerno naraščata. Prav tako smo ugotovili, da imajo atributi z močnejšimi interakcijskimi prispevki večje število pozitivnih interakcij. Nasploh je pri večini množic veliko večji delež pozitivnih kot negativnih interakcij. Razlog je verjetno tudi v tem, da je v preiskanih množicah zelo malo redundantnih atributov, saj gre po večini za bodisi umetne množice, bodisi za množice, katerih atribute so predhodno izbrali in predhodno prečistili strokovnjaki. Pri množicah primerov z veliko atributov so ocene ReliefF atributov višje, saj se pomembnost razporedi prek več atributov. Za večino množic primerov smo ugotovili, da moramo poznati veliko atributov, da poznamo večinski delež interakcij. Zato se strategija, kjer bi se pri iskanju interakcij osredotocili le na najbolje ocenjene atribute, ne zdi uporabna. Glede na rezultate diplomske naloge bi bilo zanimivo raziskati, kakšne so lastnosti, kaj vse vpliva nanje in zakaj jih ne moremo uvrstiti v skupino pričakovanih množic primerov. Rezultate bi lahko izboljšali tudi s tem, da bi za testiranje uporabili večje število množic primerov. Prav tako bi lahko analizo razširili na druge znane metode za ocenjevanje kvalitete atributov, med drugim na metode za izbiro podmnožice atributov (angl. feature subset selection). Zanimivo bi bilo raziskati delovanje učnih algoritmov na novi množici primerov, kjer bi zbrali podatke iz vseh množic primerov, ki smo jih obravnavali v tej diplomski nalogi. Cilj bi bil ugotoviti, če lahko iz atributov, ki jih izračunamo hitreje (število atributov, število razredov, povprečni informacijski prispevek, ocena ReliefF, itd...), vsaj delno napovedujemo vrednosti in zveze, za katere potrebujemo več časa (zveza med oceno ReliefF in interakcijskim prispevkom, itd...). Rezultati uvodnih poskusov na novi množici primerov, ki jo lahko najdemo v prilogah, niso dali uporabnih rezultatov, zato bi bilo smiselno poskusiti tudi z napovedovanjem na nivoju posameznega atributa (vsak primer v novi množici bi predstavljal nek atribut iz danih množic in njegove vrednosti).

Page 35: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

30

6. PRILOGE

Tabela 6.1: Deleži pozitivnih interakcij ter korelacijskih koeficientov.

ime R %+ +R -R

anneal 0,95 0,42 0,7 -0,23

arrhythmia 0,95 25 0,71 0

audiology 0,95 0,25 0,41 -0,17

autos 0,87 0,82 0,49 0,28

balance-scale 0,89 1 0,89 /

breast-cancer 0,25 0,83 0,26 0,6

breast-w 0,8 0 / 0,07

car 0,93 1 0,78 /

cmc 0,9 0,67 0,88 0,3

colic 0,95 0,81 -0,22 -0,03

credit-a 0,97 0,6 -0,02 -0,15

credit-g 0,92 0,97 0,22 0,19

cylinder-bands 0,17 0,81 0,53 0,2

dermatology 0,97 0,29 -0,43 -0,36

diabetes 0,9 0,86 -0,26 0,37

ecoli 0,94 0,43 -0,07 0,16

flags 0,22 0,77 0,31 0,04

glass 0,96 0,61 0,29 0,28

haberman 0,18 1 0,39 /

heart-c 0,86 0,64 -0,21 0,15

heart-h 0,74 0,79 0,23 -0,03

heart-statlog 0,85 0,69 -0,12 0,22

hepatitis 0,74 0,63 -0,04 0,04

hypothyroid 0,79 0,76 0,85 -0,19

ionosphere 0,63 0,83 0,27 0,49

iris 0,99 0,17 -0,46 0,05

kdd_japanesevowels_test 0,91 0,91 0,04 0,57

kdd_japanesevowels_train 0,93 0,97 0,05 0,53

kdd_synthetic_control 0,7 0,17 -0,44 -0,6

kr-vs-kp 0,85 0,72 0,94 -0,01

labor 0,84 0,59 0,46 0,24

letter 0,94 0,97 0,44 0,4

liver-disorders 0,74 1 0,53 /

lung-cancer 0,91 0,69 -0,38 -0,31

lymph 0,73 0,62 0,31 0,19

mfeat-pixel 0,91 91,9 -0,16 -0,01

molecular-biology 0,4 0,95 -0,17 -0,01

monks-problems-1_train 0,5 0,87 0,75 0,18

monks-problems-2_train 0,25 0,93 0,7 0,43

monks-problems-3_train 0,99 1 0,87 /

mushroom 0,83 0,58 0,33 -0,29

nursery 0,98 1 0,29 /

optdigits 0,95 0,71 0,75 0,13

page-blocks 0,83 0,38 0,77 0,31

pendigits 0,93 0,76 0,28 0,57

postoperative-patient-data 0,39 1 0,66 /

primary-tumor 0,96 0,85 0,16 0,3

segment 0,99 0,56 -0,13 -0,56

sick 0,89 0,63 0,79 -0,06

solar-flare_1 1 0,58 0,01 -0,08

solar-flare_2 0,99 0,24 -0,21 -0,17

soybean 0,96 0,3 -0,3 -0,09

splice 0,29 0,9 -0,44 -0,01

sponge 0,27 0,43 0,46 -0,16

tae 0,49 1 -0,19 /

Tic-tac-toe 0,9 88,8 -0,06 0,36

trains 0,63 0,52 -0,19 -0,42

vehicle 0,77 0,75 0,18 0,13

vote 0,73 0,33 0,05 -0,17

vowel 0,97 0,99 0,16 0,43

waveform-5000 0,99 0,85 -0,38 -0,54

wine 0,97 0,47 -0,62 -0,02

zoo 0,3 0,23 -0,35 0,07

Page 36: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

31

R : korelacijski koeficient med oceno ReliefF in informacijskim prispevkom %+: delež pozitivnih interakcij +R: korelacijski koeficient med oceno ReliefF in deležem pozitivnih interakcij -R: korelacijski koeficient med oceno ReliefF in deležem negativnih interakcij

Page 37: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

32

Tabela 6.2: Množica primerov s preračunanimi vrednostmi iz vseh 63-ih množic

primerov.

#a: število atributov #e: število primerov #c: število razrednih vrednosti ?d: ima diskretne atribute? ?e: ima zvezne atribute? ?a: umetna množica primerov? %+: delež pozitivnih interakcij %-: delež negativnih interakcij RI: korelacija med oceno ReliefF in informacijskim prispevkom

Page 38: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

33

R%+: korelacija med oceno ReliefF in deležem pozitivnih interakcij R%-: korelacija med oceno ReliefF in deležem negativnih interakcij miR: minimalna vrednost ReliefF maR: maksimalna vrednost ReliefF avR: povprečna vrednost ReliefF miI: minimalna vrednost informacijskega prispevka maI: maksimalna vrednost informacijskega prispevka avI: povprečna vrednost informacijskega prispevka miT: minimalna vrednost interakcijskega prispevka maT: maksimalna vrednost interakcijskega prispevka avT: povprečna vrednost interakcijskega prispevka mI: mediana vrednosti informacijskega prispevka mR: mediana vrednosti ocene ReliefF mT: mediana vrednosti interakcijskega prispevka

Page 39: UNIVERZA V LJUBLJANI FAKULTETA ZA RA ČUNALNIŠTVO IN ... · Maja Lokar Pomembnost in interakcije atributov pri klasifikaciji DIPLOMSKO DELO NA VISOKOŠOLSKEM STROKOVNEM ŠTUDIJU

34

VIRI

[1] Aleks Jakulin, (2005) “Strojno učenje na osnovi interakcij med atributi”. Doktorska disertacija Dostopno na: http://www.fri.uni-lj.si/si/raziskave/doktorska_dela/2399/zagovor.html [2] Han T.S. (1980) “Multiple mutual informations and multiple interactions in frequency data”, Information and Control, 46(1)26-45. [3] Hunt E., Martin J in Stone P. (1966) “Experiments in induction”, New York, Academic press. [4] Igor Kononenko, "Strojno učenje". Doktorska disertacija.Fakulteta za računalništvo in informatiko, Ljubljana, Slovenija, 2005 [5] Kira K. In Rendell L. (1992a) “A practical approach to feature selection”, Proc. Int. Conf. In Machine Learning (Aberdeen, July 1992) D. Sleeman in P.Edwards (eds.), Morgan Kaufmann, pp. 249-256 [6] Kira K in Rendell L. (1992b) “The feature selection problem: traditional methods and new algorithm.” Proc AAAI-92, San Jose, CA, July 1992. [7] UCI Machine learning repository. Dostopno na: http://archive.ics.uci.edu/ml/ (2008)