Upload
12kiki12
View
196
Download
14
Embed Size (px)
DESCRIPTION
Seminarski rad
Citation preview
FAKULTET PRIRODOSLOVNO MATEMATIČKIH I ODGOJNIH ZNANOSTI
Bayesove mrežeRudarenje podacima
Student: KRISTINA ČARAPINA
Mentor: dr.sc. Goran Kraljević MOSTAR, 31.siječnja.2013
Sadržaj:
1. Uvod...............................................................................................................................................1
2. Bayesove mreže..............................................................................................................................2
2.1. Pretprocesiranje podataka.......................................................................................................2
2.1.1 Pretprocesiranje podataka u bayesovim mrežama..................................................................3
2.2. Kreiranje modela bayesove mreže..........................................................................................3
2.3. Interpretabilnos rezultata analize............................................................................................4
3. Primjer u Weki: model bayesove mreže za procjenu rizičnosti osiguravajućeg društva.................6
4. Zaključak......................................................................................................................................10
5. Literatura......................................................................................................................................11
Bayesove mreže
1. Uvod
U suvremenim uvjetima poslovanja poslovne organizacije se susreću s enormno velikim
količinama podataka pohranjenim u bazama podataka. Pohranjene podatke možemo zamisliti
kao rudnik zlata iz kojega želimo na što bolji i jednostavniji način izvući što više grumenja
zlata tj. znanja koje je sakriveno u mnogobrojnim podacima. Disciplina koja se bavi
otkrivanjem znanja iz baza podataka nazvana je rudarenjem podataka (eng. data mining). Iz
ovoga zaključujemo da rudarenje podataka nije ništa drugo nego otkrivanje korisnog znanja
ili informacija iz velike količine podataka.
Rudarenje podataka obuhvaća četiri koraka:
u prvom koraku se definira poslovni problem. drugi korak je priprema podataka koja uključuje određivanje potrebnih podataka, transformaciju i uzorkovanje, te vrednovanje podataka. modeliranje je treći korak, a obuhvaća odabir metode rudarenja te izradu i vrednovanje modela. četvrti korak odnosi se na implementaciju koja obuhvaća interpretaciju i korištenje rezultata.
Ovaj seminarski rad bazirat će se isključivo na jednu od metoda rudarenja podataka, a to je
metoda bayesovih mreža.
Bayesove mreže možemo definirati kao grafičke modele koji pokazuju probabilističke relacije
temeljene na uvjetnim vjerojatnostima između setova varijabli.
U radu će se ukratko objasniti kako pretprocesirati podatke, kako kreirati model bayesove
mreže, te kako interpretirati rezultate analize. Kroz konkretni primjer koji je odrađen u
programskom alatu Weka (open source) nastojat će se objasniti poslovna logika
osiguravajućeg društva primjenom bayesovih mreža za analizu rizičnosti osiguravajućeg
društva.
1
Bayesove mreže
2. Bayesove mreže
Osamdesetih godina susrećemo se s bayesovim mrežama, dok u devedesetim područje
bayesovih mreža počinje zauzimati svoj pravi opseg, isključivo zbog povećanja brzine
računala i obnovljenih interesa za distribuirane sustave, počinju se pojavljivati i brojni
algoritmi za učenje bayesovih mreža iz skupa podataka. Najveća prepreka za primjenu ovih
mreža su velike računske složenosti. Bayesove mreže imaju za svrhu da pomognu
stručnjacima kod proučavanja uzroka i posljedica u problemima koji se modeliraju.
Bayesove mreže možemo definirati kao grafičke modele koji pokazuju probabilističke1
relacije temeljene na uvjetnim vjerojatnostima između setova varijabli. Sastoje se od
izravnih acikličkih2 grafova i tablica uvjetnih vjerojatnosti.
Za definirati jednu bayesovu mrežu potrebno je definirati čvorove (varijable), moguće
vrijednosti koje pojedini čvor može poprimiti, veze između čvorova i vrijednosti uvjetnih
vjerojatnosti u čvorovima. Bayesove mreže mogu davati procjene i u uvjetima nekompletnih
setova podataka, te u procesu procijene mogu ravnopravno koristiti znanje dobiveno
analitičkim putem iz podataka, i znanje eksperta. Tablica uvjetnih vjerojatnosti je sastavni dio
bayesovih mreža, koji sadrži informacije o uvjetnim vjerojatnostima među varijablama.
2.1. Pretprocesiranje podataka
Baze podataka u poslovnim sustavim podložne su raznim gubitcima, nečistoćama i
nekonzistentnim podacima, a ti podaci najčešće prelaze gigabajte. Tehnike pretprocesiranja
pomažu povećanju kvalitete podataka pa tako utječu i na kvalitetu rezultata rudarenja.
Iskustva su pokaza da analitičar u prosijeku najviše vremena provede čisteći i
pretprocesirajući podatke, i to 80% vremena utrošenih na analizu, da bi tek 20% vremena
proveo nad pripremljenim podacima i primjenjivao nad njima metode rudarenja podataka.
Ovdje ćemo opisati na koji način pretprocesirati podatke za kreiranje modela bayesovih
mreža.
1 sve se veličin baznih varijabli tretiraju kao slučajne veličine2 nisu u pravilnim razmacima
2
Bayesove mreže
2.1.1 Pretprocesiranje podataka u bayesovim mrežama
Što se tiče tablica uvjetnih vjerojatnosti koje su sastavni dio bayesovih mreža kreiranje se
provodi na temelju empirijskih podataka, a ti se podaci moraju pripremiti na način da se
kontinuirane varijable transformiraju u kategoričke vrijednosti. Što znači da se prilikom
kreiranja samoga modela Bayesovih mreža koriste kategoričke (razdvajaju ispitanike u jasno
razgraničene grupe po određenoj karakteristici ili osobini) ili diskretne vrijednosti varijabli
(mogu imati samo određeni skup vrijednosti koje su međusobno jasno razdvojene). Kada se
kreira model potrebno je kreirati optimalan broj kategorija/diskretnih vrijednosti kako bi se
olakšao proces učenja mreže, i kako bi interpretacija rezultata analize imala imala smisla.
Suvremeni alati temeljeni na bayesovm mrežama u sebi imaju ugrađen modul koji omogućuje
provođenje kategorizacija kontinuiranih varijabli. Pomoću ovoga modula bi se kontinuirana
varijabla dob mogla kategorizirati na sljedeći način:
< 1818 – 2525 – 3535 – 4555 >
Za provedbu analize potrebno ja na isti način kategorizirati i ostale kontinuirane varijable
kako bi mogle ući u proces same analize. Rasponi kategorija određuju se ovisno o poslovnim
potrebama, ekspertovu znanju ili pomoću provedbe temeljne statističke analize skupa
vrijednosti svake od kontinuiranih varijabli koja se koristi pri dizajniranju bayesove mreže.
2.2. Kreiranje modela bayesove mreže
U prvom koraku provodimo kategorizaciju svih ulaznih varijabli kako bi mogli izvršiti
analizu uz pomoć bayesovih mreža. Pripremljena tablica podataka služi kao temelj za
kreiranje modela bayesovih mreža.
Strukturu bayesovih mreža moguće je kreirati na tri načina:
1. „Ručno“ mrežu dizajnira analitičar;
3
Bayesove mreže
2. Softverski alat na temelju raspoloživog seta podataka vrši algoritamsko dizajniranja
mreže (NaiveBayes, BayesNet, NPC itd.);
3. Kombinirani način, softver predloži strukturu na temelju otkrivenih međuzavisnosti
proizašlih iz skupa podataka, s kojim je moguće izvršiti naknadne intervencije od
strane analitičara;
U drugom koraku za učenje strukture bayesovih mreža najčešće korišteni algoritam je naivni
bayesov klasifikator. Algoritam na bazi podataka traži optimalnu strukturu. Algoritam je
baziran na pretraživanju vjerojatnosti I(X i , X j ,∨A) pri čemu je A set varijabli. Na bazi ovoga
pravila metoda može raditi sa bilo kojim uzorkom. Struktura algoritma može biti:
Pronađi uzorak na grafu (neusmjereni graf);Pronađi veze između članova testirajući nezavisnosti;Orijentiraj se na ostale veze bez formiranja ciklusa;
Algoritam provjerava parove i odlučuje o zavisnosti i konačnom prijedlogu strukture.
Uvjetne vjerojatnosti su osnovni koncept bayesovih mreža. Uvjetnu vjerojatnost definiramo
kao:
P(a|b)=m, za ovu formulu možemo reći da „Vjerojatnost događaja iznosi m uz dani
uvijet b“.
U trećem koraku na temelju strukturnog modela formira se konfuzijska matrica koja pokazuje
učinkovitost klasifikacije.
Algoritam uz pomoć formule za uvjetnu vjerojatnost izračunava vjerojatnosti svih mogućih
događaja. Formira se tablica uvjetnih vjerojatnosti iz koje se mogu iščitati vjerojatnosti.
2.3. Interpretabilnos rezultata analize
Rezultate analize bayesovih mreža lako je interpretirati, jer se oslanjaju na teoriju
vjerojatnosti, što znači da vjerojatnost 1 označava siguran događaj, dok vjerojatnost 0
označava događaj koji se zasigurno neće dogoditi. Pri provođenju analize uz pomoć modela,
gdje se želi procijeniti vjerojatnost događanja događaja C, uz uvjet događanja događaja A i B,
vjerojatnost odvijanja događaja A i B deklarira se kao siguran događaj (evidence), na temelju
čega bayesova mreža proračunava vjerojatnost događanja događaja. Vjerojatnost događanja
4
Bayesove mreže
događaja C izražena je na intervalu između 0 i 1 (odnosno 0 do 100). Analiza osjetljivosti
provodi se na način praćenja porasta vjerojatnosti događanja promatranoga događaja uz
promijene sigurnoga događaja uvjetovanih događaja. Složene analize osjetljivosti
proračunavaju vjerojatnosne razlike na čitavom nizu varijabli, pri čemu se one bilježe u
posebne tabele tijekom provođenja analize.
5
Bayesove mreže
3. Primjer u Weki: model bayesove mreže za procjenu rizičnosti osiguravajućeg društva
Neka imamo neko osiguravajuće društvo koje svoje poslovanje temelji na korisnicima polica
auto - osiguranja. Unatoč stalnom povećanju broja korisnika polica auto osiguranja društvo je
očekivalo i znatno povećanje prihoda. Međutim uvidom u skladište podataka uočeno je kako
je povećan broj automobilskih nezgoda što zahtjeva i isplatu šteta na temelju tih nezgoda.
Potrebno je provesti analizu rizičnosti klijenata kako bi se osiguralo donošenje najboljih
poslovnih odluka. Ovaj primjer je urađen u programskom alatu Weka nad slijedećim
podacima:
Slika 1: Korišteni podaci osiguravajućeg društva
Prikazani podaci su u formatu xxx.csv unešeni u Weka (open source) programski alat.
6
Bayesove mreže
Slika 2: Podaci učitani u Weku
Bayesove mreže su jedna od klasifikacijskih metoda stoga ćemo u weki odabrati classify te
unutar njega odabrati bayesove mreže. U ovome primjeru je korišten jedan od algoritama za
bayesove mreže a to je BayesNet jer podržava grafički prikaz bayesove mreže.
Slika 3: Odabir algoritma BayesNet
Kao maksimalan broj roditelja postavljen je broj 3. Nakon što pokrenemo algoritama dobit
ćemo Classifier model (full training set) gdje struktura mreže izgleda:
7
Bayesove mreže
Slika 4: Struktura bayesove mreže
Na temelju prikazane strukture dobiju se slijedeći podaci:
LogScore Bayes: -38.667385994534044
LogScore BDeu: -61.37619853174364
LogScore MDL: -59.978124617398656
LogScore ENTROPY: -40.40615132694926
LogScore AIC: -57.40615132694926
Nakon treniranja podataka dobivamo konfuzijsku matricu koja pokazuje rezultat klasifikacije.
8
Bayesove mreže
Slika 5: Konfuzijska matrica
Nakon što algoritam odradi svoj posao dobivamo vjerojatnosti o mogućim događajima.
9
Bayesove mreže
Slika 6: Vjerojatnost za spol
Iz tablice vjerojatnosti - spol (prikazana na slici 6) možemo zaključiti da su muškarci rizičnija
skupina te da je veća vjerojatnost prometne nezgode kod muškaraca nego kod žena. Ukoliko
je riječ o snažnijem motoru i ako ga vozi muško vjerojatnost prometne nesreće je veća i riječ
je o rizičnim korisnicima police osiguranja. Ukoliko uzmemo vjerojatnosti za - klasu
automobila, možemo zaključiti da je rizičnost veća ukoliko korisnici police auto - osiguranja
dolaze s sjevera i voze srednju klasu automobila. Na temelju ovih podataka osiguravajuća
tvrtka može odlučiti kako će nastupiti na tržištu kako bi smanjila izdatke, a povećala svoje
prihode.
4. Zaključak
10
Bayesove mreže
Bayesove mreže su samo jedna od metoda rudarenja podacima. Primjenom Bayesove mreže
za analiziranje poslovanja mogu se dobiti korisni podaci koji pomažu u donošenju poslovnih
odluka, te se olakšava proces odlučivanja, a ujedno se postaje i konkurentniji na tržištu.
Međutim tijekom analiziranja poslovanja ne treba se vezati isključivo na bayesove mreže i
očekivati da će se pomoću njih dobiti najbolji rezultati analize. Uz bayesove mreže se koriste i
druge metode rudarenja (npr. Asocijativna pravila, stabla odlučivanja, neuronske mreže…).
Bayesove mreže se uspješno mogu primijeniti u:
Medicini (dijagnostika bolesti kao što su bolesti mišića i živaca, respiratorne bolesti
isl.),
Razvoju sofvera (traženje pogrešaka u programu, programi za dijagnostiku problema
kod eksternih jedinica kao što su pisači, programiranje pomoći u programima),
proizvodnji (praćenje proizvodnih procesa, te sugestije za optimizaciju i izbjegavanje
kvarova u sustavima),
ekonomiji (procjena kreditnih rizika, segmentacija tržišta, analiza rizika općenito,
ponašanje klijenata),
vojnom sektoru (planiranje operacija, planiranje logističkih aktivnosti),
poljoprivredi i stočarstvu (selekcija i uzgoj bilja i životinja, planiranje bakteriološke
zaštite),
farmaciji (istraživanje lijekova, istraživanje pojedinih sastojaka i njihovih kombinacija
kod otkrivanja novih vrsta lijekova za određene tipove bolesti),
i naravno trgovini (analiza utjecaja, pokretanje novog proizvoda, prepoznavanje
zakonitosti).
11
Bayesove mreže
5. Literatura
G. Klepac, L. Mršić, (2006.), „Poslovna inteligencija kroz poslovne slučajeve“, Lider
press d.d., TIM press d.o.o., Zagreb
http://ebookbrowse.com/doktorat-leo-mrsic-v15-pdf-d314569112 doktorat Leo Mršić,
dostupno (18.01.2013.)
http://lis.irb.hr/MLAA/prcela-doktorska-disertacija.pdf doktorska disertacija - Prcela
dostupno (18.01.2013.)
M.P.Bach, „Rudarenje podataka u bankarstvu“, stručni rad
12