Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel...

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Random Forests - Véletlen erdok

Szabó AdriennAdatbányászat és Webes Keresés Kutatócsoport

sztaki-logo

TartalomFo forrás: Leo Breiman: Random Forests

Machine Learning, 45, 5-32, 2001Alapok

Döntési faVéletlen erdok

Véletlen erdok építéseNem formálisanFormálisanVéletlen erdo típusok

A véletlen erdok jó tulajdonságaiBelso becslések

KiértékelésKlasszifikációTovábbi eredményekRegresszió

sztaki-logo

Amibol építkezni fogunk: döntési faAz egyes attribútumok értékei alapján a mintákathierarchikusan csoportosítjuk. A levelek: osztálycímkék.

ID Gyártás helye Kor Motor Szín ccm Jól eladható?

1 Németo. 3-6 dízel fehér 1300-1600 igen

2 Japán 6-10 dízel piros 1600 felett igen

3 Japán 3-6 dízel piros 1300-1600 nem

sztaki-logo

Döntési fa

• A jó döntési fa: példákkal konzisztens, minél tömörebb(leheto legkevesebb teszttel döntésre jussunk)

Hogyan építsük fel?• Legegyszerubb az ID3 algoritmus:

a gyökértol kezdve építjük a fát, mohó módon mindig úgyválasszunk döntési attribútumot egy csúcspontban, hogyaz információnyereség ( IG(S,a) = H(S)− H(S|a) )maximális legyen

• Továbbfejlesztés: Information Gain helyett Gain Ratio, aminem súlyozza túl azokat az attribútumokat amik sokkülönbözo értéket felvehetnek

sztaki-logo

Döntési fa

sztaki-logo

Döntési fa

sztaki-logo

Döntési fa

sztaki-logo

Mik a véletlen erdok?

• Alapötlet: sok döntési fa, amik valamennyire különbözoek• Mindegyik tippel majd valamit, a szavazás

végeredményeként a leggykoribb választ fogadjuk el

Az erdo hatékonysága a következokön múlik:• generált fák számán (ált. ha több fa szavaz, javul az

eredmény) és minoségén• generált fák közötti korreláción (ha no a fák közötti

korreláció, az eredmény romlik)

sztaki-logo

Mik a véletlen erdok?

• Alapötlet: sok döntési fa, amik valamennyire különbözoek• Mindegyik tippel majd valamit, a szavazás

végeredményeként a leggykoribb választ fogadjuk el

Az erdo hatékonysága a következokön múlik:• generált fák számán (ált. ha több fa szavaz, javul az

eredmény) és minoségén• generált fák közötti korreláción (ha no a fák közötti

korreláció, az eredmény romlik)

sztaki-logo

Random forest elonyei

• Jó eredmények (pontos klasszifikáció)• Gyorsan lefut, nagy adatokra is használható• Több ezres dimenziójú bemenetet is képes kezelni• Becsléseket ad arra hogy mely változók fontosak• Hiányzó adatokat képes megbecsülni• Használható regresszióra; kis kiterjesztéssel

klaszterezésre vagy outlier-szurésre is

sztaki-logo

Véletlen erdo építése

Breiman módszere:

• Képezünk K döntési fát úgy, hogy bootstrapping-gal(visszatevéses sorsolás, N-bol N-et sorsolunk) külön-különtanuló adathalmazt készítünk hozzájuk

• Az egyes fák építésekor a csomópontokban az attribútumválasztáskor a lehetséges attribútumhalmazt megszorítjukegy jóval kisebb méreture véletlenszeru választással.(Utána a max. IG-t vesszük)

• Nyesést nem alkalmazunk a fákon

sztaki-logo

Breiman módszere:

sztaki-logo

Breiman módszere:

sztaki-logo

Breiman módszere:

sztaki-logo

Véletlen erdok építése

Az egyes fák egyes csúcsainál véletlenszeruen sorsoltattribútumokól választhatjuk csak ki a döntési attribútumot.

sztaki-logo

Formális definíció

Véletlen erdonek nevezzük azt az osztályozót amely döntésifák {h(x, θk ), k = 1, . . .K } halmazából áll ahol a {θk }-kfüggetlen, azonos eloszlású random vektorok, és a fák többségiszavazással döntenek (minden fa egy-egy szavazatot adhat leegy-egy osztályozandó vektorra).

Tétel: A fák számának növelésével a klasszifikáció minoségekonvergál (nem lesz túltanulás).

Bizonyítás: Nagy számok eros törvénye segítségével.

sztaki-logo

Véletlen erdonek nevezzük azt az osztályozót amely döntésifák {h(x, θk ), k = 1, . . .K } halmazából áll ahol a {θk }-kfüggetlen, azonos eloszlású random vektorok, és a fák többségiszavazással döntenek (minden fa egy-egy szavazatot adhat leegy-egy osztályozandó vektorra).

Tétel: A fák számának növelésével a klasszifikáció minoségekonvergál (nem lesz túltanulás).

Bizonyítás: Nagy számok eros törvénye segítségével.

sztaki-logo

Margin: minél nagyobb, annál biztosabb az eredmény; hanegatív akkor hibázott az erdo:

mg(X,Y ) = avgk I(hk (X) = Y )−maxj 6=Y

(avgk I(hk (X) = j))

(X: a bemeneti vektorok, Y : a hozzájuk tartozó osztályok)

A döntési fák általánosítási hibája (generalization error):

PE = PX,Y (mg(X,Y ) < 0)

sztaki-logo

Margin: minél nagyobb, annál biztosabb az eredmény; hanegatív akkor hibázott az erdo:

mg(X,Y ) = avgk I(hk (X) = Y )−maxj 6=Y

(avgk I(hk (X) = j))

(X: a bemeneti vektorok, Y : a hozzájuk tartozó osztályok)

A döntési fák általánosítási hibája (generalization error):

PE = PX,Y (mg(X,Y ) < 0)

sztaki-logo

A fák ereje és korrelációja

Felso korlát adható a véletlen erdo általánosítási hibájára, amikét dologtól függ:• az egyes klasszifikátorok (döntési fák) pontosságától• a fák közötti korrelációtól

PE ≤ ρ(1− s2)/s2

ahol ρ az átlagos korreláció a fák között, és s a h(x, θ)klasszifikátorhalmaz ereje: s = EX,Y mg(X,Y )

sztaki-logo

A fák ereje és korrelációja

Felso korlát adható a véletlen erdo általánosítási hibájára, amikét dologtól függ:• az egyes klasszifikátorok (döntési fák) pontosságától• a fák közötti korrelációtól

PE ≤ ρ(1− s2)/s2

ahol ρ az átlagos korreláció a fák között, és s a h(x, θ)klasszifikátorhalmaz ereje: s = EX,Y mg(X,Y )

sztaki-logo

Véletlen erdo típusok

• Egyszeru bagging: lehetne belül más klasszifikátor is, dedöntési fa van

• Random Split Selection: faépítésnél mindig a legjobb Bválozóból választunk egyet véletlenszeruen

• Random Subspace: minden fát egy-egy rögzített,véletlenül választott attribútumhalmaz alapján építünk fel

• Breiman módszere: a fent bemutatott (bagging + randomm változóból a legjobb választása a facsúcsoknál, aholm << M, ahol M az attribútumok száma; általábanm < log2 M)

sztaki-logo

„Out-of-bag” becslések

• A bagging alkalmazásának elonyei: a pontosságot növeli,szórást csökkenti

• Minden fánál a tanítómintából kihagyott értékekre („out-ofbag” vagy „OOB” értékek, ált. kb. a minták egyharmada)jóslatokat kérhetünk

• Az eredményeket átlagolva elég pontosan becsülheto azerdo hibája (PE), és a fák közötti korreláció is

• Kb olyan pontos becsléseket kapunk a jóságra mintha egytanítóhalmaz méretu teszthalmazunk lenne1

• Ezért nem kell Cross Validation-t alkalmazni

1Breiman egy korábbi cikkének empirikus eredménye, akkor igaz ha Kelég nagy (a hiba már konvergált).

sztaki-logo

Fontos változók (Feature selection)

Egy v bemeno attribútum (feature) fontossága így becsülheto:• Minden fát szavaztassunk meg a hozzá tartozó „OOB”

bemenetekre• Jegyezzük meg a helyes válaszok arányát• Permutáluk meg az „OOB” halmazon belül a v változó

értékeit, és így is kérjünk jóslatokat a fától• A helyes válaszok aránya mennyivel csökkent?• Ezt átlagoljuk az összes fára =⇒ v fontossági értéke

Nagyon sok bemeneti változó esetén eloször kiválaszthatjuk ajobbakat, aztán csak ezeket használva új, hatékonyabb erdotépíthetünk.

sztaki-logo

A bemeneti vektorok hasonlóságának becslése

Mire is jó ez?• Outlier-szurés: Az összes többitol nagyon különbözo

tanítóminták zajnak tekinthetok (pl. elrontott mérés), jobbha kidobjuk ezeket. Akár osztályonként is szurhetjük oket.

• Klaszterezés: A minták közti hasonlóság alapjánklaszterezést is végezhetünk.

Hogyan?• Minden bemenet-párra vegyük azon fáknak az arányát

amikre ugyanabban a levélben ér véget a hozzájuk tartozódöntési folyamat. „Proximity”: si,j

• „Dissimilarity”: di,j =√

1− si,j

sztaki-logo

1− si,j

sztaki-logo

1− si,j

sztaki-logo

1− si,j

sztaki-logo

1− si,j

sztaki-logo

1− si,j

sztaki-logo

Hiányzó adatok kitöltése

Iteratívan becsülhetjük a tanítóhalmaz hiányzó értékeit:

• Elso közelítés: vegyük a hiányzó attribútum átlagát (ill.leggyakoribb értékét) a többi soron, és ezt helyettesítsükbe

• Az így kiegészített adatokkal építsünk erdot• Minden i adatsorhoz amiben f hiányzott, vegyük az összes

(nem-f -hiányos j sorral páronként vett hasonlóságait (si,j )• Az új becslés: si,j súlyokkal átlagoljuk a j-kben talált

f -értékeket, ezt tegyük if -be• Ezt iterálhatjuk (új erdo építése, stb.) amíg már nem

változnak az értékek (általában 4-6 kör elég)

sztaki-logo

A kiértékeléshez használt adathalmazok

Data set Train size Test size Dimension Classes

Letters 15000 5000 16 26

Sat-images 4435 2000 36 6

Zip-code 7292 2007 256 10

Waveform 300 3000 21 3

Twonorm 300 3000 20 2

Threenorm 300 3000 20 2

Ringnorm 300 3000 20 2

sztaki-logo

Eredmények (hibaszázalékok)

Data set Adaboost Forest-RI2 Forest-RI3 One tree

Letters 3.4 3.5 4.7 19.8

Sat-images 8.8 8.6 10.5 17.2

Zip-code 6.2 6.3 7.8 20.6

Waveform 17.8 17.2 17.3 34.0

Twonorm 4.9 ? 3.9 24.7

Threenorm 18.8 ? 17.5 38.4

Ringnorm 6.9 ? 4.9 25.7

Forest-RI (Random Input selection): Véletlen erdo, véletlen attribútum választással.Fák száma: K = 100 (kivéve Zip-code: K = 200)AdaBoost iterációk száma: 50 (kivéve Zip-code: 100)

2m = log2 M3m = 1

sztaki-logo

Eredmények (hibaszázalékok)

Data set Adaboost Forest-RC4 Forest-RC5 One tree

Letters 3.4 3.4 4.1 23.8

Sat-images 8.8 9.1 10.2 17.3

Zip-code 6.2 6.2 7.2 22.7

Waveform 17.8 16.0 16.1 33.2

Twonorm 4.9 3.8 3.9 20.9

Threenorm 18.8 16.8 16.9 34.8

Ringnorm 6.9 4.8 4.6 24.6

Forest-RC: bemenetek lineáris kombinációival épített erdo.Összekombinált változók száma: 3

4m = 85m = 2

sztaki-logo

A korreláció és jóslóero változása m növelésével

sztaki-logo

A hiba változása m növelésével

sztaki-logo

Zaj tolerancia

A véletlen erdok sokkal jobban tolerálják a zajt mint az AdaBoost.Amikor az AdaBoost elrontja (vagyis valójában jól klasszfikálná) azaj-bementeteket akkor növekvo súllyal kerül a tanítóhalmazba ahibás adat, és ez eltozítja a végso eredményt is.5%-os osztálycímke-permutáció után a hibák növekedése (%):

Data set Adaboost Forest-RI Forest-RC

Breast cancer 43.2 1.8 11.1

Diabetes 6.8 1.7 2.8

Sonar 15.1 -6.6 4.2

Ionosphere 27.7 3.8 5.7

Soybean 26.9 3.2 8.5

Ecoli 7.5 7.9 7.8

Liver 10.3 -0.2 4.8

sztaki-logo

Regresszió

A döntési fák képesek regresszióra is – ekkor mindenelágazásnál az alapján határozzuk meg a döntési attrubútumotés vágási határt, hogy a két új halmazon belül a jóslandó értékszórásnégyzetei minimálisak legyenek.

Data set Train size Test size Dimension

Boston Housing 506 10% 12

Ozone 330 10% 8

Abalone 4177 25% 8

Robot Arm 15000 5000 12

Friedman#1 200 2000 10

Friedman#2 200 2000 4

Friedman#3 200 2000 4

sztaki-logo

Regresszió eredményeiErdok paraméterei: 100 fa, m = 25, random lineáriskombinációi 2 bemenetnek.Megfigyelések: a fák közti korreláció itt lassababn no mnövelésével.

Mean squared test set errors

Data set Bagging Adapt. bag. Forest

Boston Housing 11.4 9.7 10.2

Ozone 17.8 17.8 16.3

Abalone 4.9 4.9 4.6

Robot Arm 4.7 2.8 4.2

Friedman#1 6.3 4.1 5.7

Friedman#2 21.5 21.5 19.6

Friedman#3 24.8 24.8 21.6

sztaki-logo

Összefoglalás

A véletlen erdok hatékony klasszifikátorok, nagyadathalmazokkal is megbirkóznak. A két paraméter, K és mválasztására nem túl érzékeny (de K legyen elég nagy, m pedigne legyen túl nagy).

sztaki-logo

Köszönöm a figyelmet!

Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel...

Documents

C1-5 - Ki először piros csőt lel.pdf

FNM Dízel Hajómotorok - Hanexhanex.hu › pdf-fnm › FNM-Dizel-HajoMotorok.pdfaz FNM 1,9 L 16 V JTD sorozat , egy dízel meghajtó-rendszer legjobb kifejezése. Ez egy nagyszerűen

2.4.2.Példa: A véletlen hiba meghatározása

Drága-e a dízel olaj Magyarosrszágon ?

Kényszerpálya, véletlen vagy tudatos választás?

ABAC Engineair benzin és dízel motor meghajtású légkompresszor

** Piros szaggatott: varrás. · REKLÁMZÁSZLÓ ECO USZONY „M” 64cm x 245cm * Fekete: bújtató!!! ** Piros szaggatott: varrás

** Piros szaggatott: varrás. · 2018-07-25 · REKLÁMZÁSZLÓ STANDARD CSEPP „M” 88,5cm x 225cm * Fekete: bújtató!!! ** Piros szaggatott: varrás

Műanyag hulladékból dízel olajat házilag

HAR 2012 dec - agrarlapok.huAntal Sz őke, Kitti Tóth ... Muskotály (fekete, piros, sárga and csíkos), Furmint (piros, fehér, változó) and Barátcsuha (kék, szürke) (Figure

Bogi es a piros bicikli-vazlatok

Véletlen bolyongások (1D 2D 3D) - ELTE · 2017. 5. 15. · •Végtelen bolyongás •Például végtelen ellenállásláncok eredő ellenállása stb. Véletlen bolyongások 2D-

** Piros szaggatott: varrás....REKLÁMZÁSZLÓ ECO USZONY „M” 64cm x 245cm * Fekete: bújtató!!! ** Piros szaggatott: varrás

PIROS BOX Cajas con ventilador helicoidal certificadas ... · 134 PIROS BOX / PIROS BOX S // GAMA INDUSTRIAL Cajas con ventilador helicoidal certificadas para 400°C 2h y ATEX (según

FNM Dízel Hajómotorok E rőt A dunk É letéhez a V ízen

Jessica Sorensen - Callie & Kayden És a Véletlen

Nagy BME piros hallás utáni

Bokrosné Stramszky Piroska piros@rfmlib.hu

WoW Rules hun - Szellemlovas...– 1 játéktábla – 120 mûanyag szörnyfigura: 8 zöld, 4 piros és 4 kék murlok 8 zöld, 4 piros és 4 kék gnoll 6 zöld, 3 piros és 3 kék

HELI elektromos targoncák, dízel targoncák, gázüzemű