BAYESOVE MREŽE - K.Čarapina

FAKULTET PRIRODOSLOVNO MATEMATIČKIH I ODGOJNIH ZNANOSTI

Bayesove mrežeRudarenje podacima

Student: KRISTINA ČARAPINA

Mentor: dr.sc. Goran Kraljević MOSTAR, 31.siječnja.2013

Sadržaj:

1. Uvod...............................................................................................................................................1

2. Bayesove mreže..............................................................................................................................2

2.1. Pretprocesiranje podataka.......................................................................................................2

2.1.1 Pretprocesiranje podataka u bayesovim mrežama..................................................................3

2.2. Kreiranje modela bayesove mreže..........................................................................................3

2.3. Interpretabilnos rezultata analize............................................................................................4

3. Primjer u Weki: model bayesove mreže za procjenu rizičnosti osiguravajućeg društva.................6

4. Zaključak......................................................................................................................................10

5. Literatura......................................................................................................................................11

Bayesove mreže

1. Uvod

U suvremenim uvjetima poslovanja poslovne organizacije se susreću s enormno velikim

količinama podataka pohranjenim u bazama podataka. Pohranjene podatke možemo zamisliti

kao rudnik zlata iz kojega želimo na što bolji i jednostavniji način izvući što više grumenja

zlata tj. znanja koje je sakriveno u mnogobrojnim podacima. Disciplina koja se bavi

otkrivanjem znanja iz baza podataka nazvana je rudarenjem podataka (eng. data mining). Iz

ovoga zaključujemo da rudarenje podataka nije ništa drugo nego otkrivanje korisnog znanja

ili informacija iz velike količine podataka.

Rudarenje podataka obuhvaća četiri koraka:

u prvom koraku se definira poslovni problem. drugi korak je priprema podataka koja uključuje određivanje potrebnih podataka, transformaciju i uzorkovanje, te vrednovanje podataka. modeliranje je treći korak, a obuhvaća odabir metode rudarenja te izradu i vrednovanje modela. četvrti korak odnosi se na implementaciju koja obuhvaća interpretaciju i korištenje rezultata.

Ovaj seminarski rad bazirat će se isključivo na jednu od metoda rudarenja podataka, a to je

metoda bayesovih mreža.

Bayesove mreže možemo definirati kao grafičke modele koji pokazuju probabilističke relacije

temeljene na uvjetnim vjerojatnostima između setova varijabli.

U radu će se ukratko objasniti kako pretprocesirati podatke, kako kreirati model bayesove

mreže, te kako interpretirati rezultate analize. Kroz konkretni primjer koji je odrađen u

programskom alatu Weka (open source) nastojat će se objasniti poslovna logika

osiguravajućeg društva primjenom bayesovih mreža za analizu rizičnosti osiguravajućeg

društva.

1

Bayesove mreže

2. Bayesove mreže

Osamdesetih godina susrećemo se s bayesovim mrežama, dok u devedesetim područje

bayesovih mreža počinje zauzimati svoj pravi opseg, isključivo zbog povećanja brzine

računala i obnovljenih interesa za distribuirane sustave, počinju se pojavljivati i brojni

algoritmi za učenje bayesovih mreža iz skupa podataka. Najveća prepreka za primjenu ovih

mreža su velike računske složenosti. Bayesove mreže imaju za svrhu da pomognu

stručnjacima kod proučavanja uzroka i posljedica u problemima koji se modeliraju.

Bayesove mreže možemo definirati kao grafičke modele koji pokazuju probabilističke1

relacije temeljene na uvjetnim vjerojatnostima između setova varijabli. Sastoje se od

izravnih acikličkih2 grafova i tablica uvjetnih vjerojatnosti.

Za definirati jednu bayesovu mrežu potrebno je definirati čvorove (varijable), moguće

vrijednosti koje pojedini čvor može poprimiti, veze između čvorova i vrijednosti uvjetnih

vjerojatnosti u čvorovima. Bayesove mreže mogu davati procjene i u uvjetima nekompletnih

setova podataka, te u procesu procijene mogu ravnopravno koristiti znanje dobiveno

analitičkim putem iz podataka, i znanje eksperta. Tablica uvjetnih vjerojatnosti je sastavni dio

bayesovih mreža, koji sadrži informacije o uvjetnim vjerojatnostima među varijablama.

2.1. Pretprocesiranje podataka

Baze podataka u poslovnim sustavim podložne su raznim gubitcima, nečistoćama i

nekonzistentnim podacima, a ti podaci najčešće prelaze gigabajte. Tehnike pretprocesiranja

pomažu povećanju kvalitete podataka pa tako utječu i na kvalitetu rezultata rudarenja.

Iskustva su pokaza da analitičar u prosijeku najviše vremena provede čisteći i

pretprocesirajući podatke, i to 80% vremena utrošenih na analizu, da bi tek 20% vremena

proveo nad pripremljenim podacima i primjenjivao nad njima metode rudarenja podataka.

Ovdje ćemo opisati na koji način pretprocesirati podatke za kreiranje modela bayesovih

mreža.

1 sve se veličin baznih varijabli tretiraju kao slučajne veličine2 nisu u pravilnim razmacima

2

Bayesove mreže

2.1.1 Pretprocesiranje podataka u bayesovim mrežama

Što se tiče tablica uvjetnih vjerojatnosti koje su sastavni dio bayesovih mreža kreiranje se

provodi na temelju empirijskih podataka, a ti se podaci moraju pripremiti na način da se

kontinuirane varijable transformiraju u kategoričke vrijednosti. Što znači da se prilikom

kreiranja samoga modela Bayesovih mreža koriste kategoričke (razdvajaju ispitanike u jasno

razgraničene grupe po određenoj karakteristici ili osobini) ili diskretne vrijednosti varijabli

(mogu imati samo određeni skup vrijednosti koje su međusobno jasno razdvojene). Kada se

kreira model potrebno je kreirati optimalan broj kategorija/diskretnih vrijednosti kako bi se

olakšao proces učenja mreže, i kako bi interpretacija rezultata analize imala imala smisla.

Suvremeni alati temeljeni na bayesovm mrežama u sebi imaju ugrađen modul koji omogućuje

provođenje kategorizacija kontinuiranih varijabli. Pomoću ovoga modula bi se kontinuirana

varijabla dob mogla kategorizirati na sljedeći način:

< 1818 – 2525 – 3535 – 4555 >

Za provedbu analize potrebno ja na isti način kategorizirati i ostale kontinuirane varijable

kako bi mogle ući u proces same analize. Rasponi kategorija određuju se ovisno o poslovnim

potrebama, ekspertovu znanju ili pomoću provedbe temeljne statističke analize skupa

vrijednosti svake od kontinuiranih varijabli koja se koristi pri dizajniranju bayesove mreže.

2.2. Kreiranje modela bayesove mreže

U prvom koraku provodimo kategorizaciju svih ulaznih varijabli kako bi mogli izvršiti

analizu uz pomoć bayesovih mreža. Pripremljena tablica podataka služi kao temelj za

kreiranje modela bayesovih mreža.

Strukturu bayesovih mreža moguće je kreirati na tri načina:

1. „Ručno“ mrežu dizajnira analitičar;

3

Bayesove mreže

2. Softverski alat na temelju raspoloživog seta podataka vrši algoritamsko dizajniranja

mreže (NaiveBayes, BayesNet, NPC itd.);

3. Kombinirani način, softver predloži strukturu na temelju otkrivenih međuzavisnosti

proizašlih iz skupa podataka, s kojim je moguće izvršiti naknadne intervencije od

strane analitičara;

U drugom koraku za učenje strukture bayesovih mreža najčešće korišteni algoritam je naivni

bayesov klasifikator. Algoritam na bazi podataka traži optimalnu strukturu. Algoritam je

baziran na pretraživanju vjerojatnosti I(X i , X j ,∨A) pri čemu je A set varijabli. Na bazi ovoga

pravila metoda može raditi sa bilo kojim uzorkom. Struktura algoritma može biti:

Pronađi uzorak na grafu (neusmjereni graf);Pronađi veze između članova testirajući nezavisnosti;Orijentiraj se na ostale veze bez formiranja ciklusa;

Algoritam provjerava parove i odlučuje o zavisnosti i konačnom prijedlogu strukture.

Uvjetne vjerojatnosti su osnovni koncept bayesovih mreža. Uvjetnu vjerojatnost definiramo

kao:

P(a|b)=m, za ovu formulu možemo reći da „Vjerojatnost događaja iznosi m uz dani

uvijet b“.

U trećem koraku na temelju strukturnog modela formira se konfuzijska matrica koja pokazuje

učinkovitost klasifikacije.

Algoritam uz pomoć formule za uvjetnu vjerojatnost izračunava vjerojatnosti svih mogućih

događaja. Formira se tablica uvjetnih vjerojatnosti iz koje se mogu iščitati vjerojatnosti.

2.3. Interpretabilnos rezultata analize

Rezultate analize bayesovih mreža lako je interpretirati, jer se oslanjaju na teoriju

vjerojatnosti, što znači da vjerojatnost 1 označava siguran događaj, dok vjerojatnost 0

označava događaj koji se zasigurno neće dogoditi. Pri provođenju analize uz pomoć modela,

gdje se želi procijeniti vjerojatnost događanja događaja C, uz uvjet događanja događaja A i B,

vjerojatnost odvijanja događaja A i B deklarira se kao siguran događaj (evidence), na temelju

čega bayesova mreža proračunava vjerojatnost događanja događaja. Vjerojatnost događanja

4

Bayesove mreže

događaja C izražena je na intervalu između 0 i 1 (odnosno 0 do 100). Analiza osjetljivosti

provodi se na način praćenja porasta vjerojatnosti događanja promatranoga događaja uz

promijene sigurnoga događaja uvjetovanih događaja. Složene analize osjetljivosti

proračunavaju vjerojatnosne razlike na čitavom nizu varijabli, pri čemu se one bilježe u

posebne tabele tijekom provođenja analize.

5

Bayesove mreže

3. Primjer u Weki: model bayesove mreže za procjenu rizičnosti osiguravajućeg društva

Neka imamo neko osiguravajuće društvo koje svoje poslovanje temelji na korisnicima polica

auto - osiguranja. Unatoč stalnom povećanju broja korisnika polica auto osiguranja društvo je

očekivalo i znatno povećanje prihoda. Međutim uvidom u skladište podataka uočeno je kako

je povećan broj automobilskih nezgoda što zahtjeva i isplatu šteta na temelju tih nezgoda.

Potrebno je provesti analizu rizičnosti klijenata kako bi se osiguralo donošenje najboljih

poslovnih odluka. Ovaj primjer je urađen u programskom alatu Weka nad slijedećim

podacima:

Slika 1: Korišteni podaci osiguravajućeg društva

Prikazani podaci su u formatu xxx.csv unešeni u Weka (open source) programski alat.

6

Bayesove mreže

Slika 2: Podaci učitani u Weku

Bayesove mreže su jedna od klasifikacijskih metoda stoga ćemo u weki odabrati classify te

unutar njega odabrati bayesove mreže. U ovome primjeru je korišten jedan od algoritama za

bayesove mreže a to je BayesNet jer podržava grafički prikaz bayesove mreže.

Slika 3: Odabir algoritma BayesNet

Kao maksimalan broj roditelja postavljen je broj 3. Nakon što pokrenemo algoritama dobit

ćemo Classifier model (full training set) gdje struktura mreže izgleda:

7

Bayesove mreže

Slika 4: Struktura bayesove mreže

Na temelju prikazane strukture dobiju se slijedeći podaci:

LogScore Bayes: -38.667385994534044

LogScore BDeu: -61.37619853174364

LogScore MDL: -59.978124617398656

LogScore ENTROPY: -40.40615132694926

LogScore AIC: -57.40615132694926

Nakon treniranja podataka dobivamo konfuzijsku matricu koja pokazuje rezultat klasifikacije.

8

Bayesove mreže

Slika 5: Konfuzijska matrica

Nakon što algoritam odradi svoj posao dobivamo vjerojatnosti o mogućim događajima.

9

Bayesove mreže

Slika 6: Vjerojatnost za spol

Iz tablice vjerojatnosti - spol (prikazana na slici 6) možemo zaključiti da su muškarci rizičnija

skupina te da je veća vjerojatnost prometne nezgode kod muškaraca nego kod žena. Ukoliko

je riječ o snažnijem motoru i ako ga vozi muško vjerojatnost prometne nesreće je veća i riječ

je o rizičnim korisnicima police osiguranja. Ukoliko uzmemo vjerojatnosti za - klasu

automobila, možemo zaključiti da je rizičnost veća ukoliko korisnici police auto - osiguranja

dolaze s sjevera i voze srednju klasu automobila. Na temelju ovih podataka osiguravajuća

tvrtka može odlučiti kako će nastupiti na tržištu kako bi smanjila izdatke, a povećala svoje

prihode.

4. Zaključak

10

Bayesove mreže

Bayesove mreže su samo jedna od metoda rudarenja podacima. Primjenom Bayesove mreže

za analiziranje poslovanja mogu se dobiti korisni podaci koji pomažu u donošenju poslovnih

odluka, te se olakšava proces odlučivanja, a ujedno se postaje i konkurentniji na tržištu.

Međutim tijekom analiziranja poslovanja ne treba se vezati isključivo na bayesove mreže i

očekivati da će se pomoću njih dobiti najbolji rezultati analize. Uz bayesove mreže se koriste i

druge metode rudarenja (npr. Asocijativna pravila, stabla odlučivanja, neuronske mreže…).

Bayesove mreže se uspješno mogu primijeniti u:

Medicini (dijagnostika bolesti kao što su bolesti mišića i živaca, respiratorne bolesti

isl.),

Razvoju sofvera (traženje pogrešaka u programu, programi za dijagnostiku problema

kod eksternih jedinica kao što su pisači, programiranje pomoći u programima),

proizvodnji (praćenje proizvodnih procesa, te sugestije za optimizaciju i izbjegavanje

kvarova u sustavima),

ekonomiji (procjena kreditnih rizika, segmentacija tržišta, analiza rizika općenito,

ponašanje klijenata),

vojnom sektoru (planiranje operacija, planiranje logističkih aktivnosti),

poljoprivredi i stočarstvu (selekcija i uzgoj bilja i životinja, planiranje bakteriološke

zaštite),

farmaciji (istraživanje lijekova, istraživanje pojedinih sastojaka i njihovih kombinacija

kod otkrivanja novih vrsta lijekova za određene tipove bolesti),

i naravno trgovini (analiza utjecaja, pokretanje novog proizvoda, prepoznavanje

zakonitosti).

11

Bayesove mreže

5. Literatura

G. Klepac, L. Mršić, (2006.), „Poslovna inteligencija kroz poslovne slučajeve“, Lider

press d.d., TIM press d.o.o., Zagreb

http://ebookbrowse.com/doktorat-leo-mrsic-v15-pdf-d314569112 doktorat Leo Mršić,

dostupno (18.01.2013.)

http://lis.irb.hr/MLAA/prcela-doktorska-disertacija.pdf doktorska disertacija - Prcela

dostupno (18.01.2013.)

M.P.Bach, „Rudarenje podataka u bankarstvu“, stručni rad

12

http://lis.irb.hr/MLAA/prcela-doktorska-disertacija.pdf

http://ebookbrowse.com/doktorat-leo-mrsic-v15-pdf-d314569112

Documents

BAYESOVE MREŽE - K.Čarapina