Metode rudarenja Metode rudarenja podatakapodataka
Jasmin Šmit
Monika Tukarić
Vlatka Večerin
SadržajSadržaj
• Što je rudarenje podataka
• Aktivnosti u procesu rudarenja• Metode rudarenja podataka
• Zaključak
Rudarenje podatakaRudarenje podataka
• tehnologija koja pretvara detaljne podatke u prednost poduzeće koja se može koristiti za predviđanje budućih trendova i ponašanja
• proces otkrivanja i interpretiranja prethodno nepoznatih uzoraka u podacima
• CILJ: postaviti temelje kvalitetnih podataka koji će predvidjeti probleme i rješiti ih
Aktivnosti u procesu rudarenjaAktivnosti u procesu rudarenja
istraživanje podataka 1
stvaranje analitičkih setova podataka2
izgradnju i testiranje modela 3
integriranje rezultata u poslovne aplikacije4
Procjena pouzdanosti
Pretprocesiranje
Podjela populacije
Primjena algoritma
Testiranje
Koraci pri odabiru modela
Metode rudarenja podatakaMetode rudarenja podataka
• Metode potrošačke košarice• Memorijski temeljeni razlučivanje• Klasteriranje
• Stabla odlučivanja• Bayesove mreže• Neutralne mreže• Neizrazita logika• Genetički algoritmi i gen. programiranje
Metoda potrošačke košariceMetoda potrošačke košarice
• Otkrivanje asocijativnih pravila koja pokazuju koji se parovi artikala i s kojom vjerojatnošću kupuju zajedno
• Npr. da će kupac uz proizvod A, uz određenu vjerojatnost, kupiti i proizvod B
A priori algoritamStablo frekventnih
uzoraka
Metode potrošačke košariceMetode potrošačke košarice
Memorijski temeljeno Memorijski temeljeno razlučivanjerazlučivanje
• Metoda pronalaženja sličnosti (udaljenosti) među atributima u kategorijama
4. Modeli rada i osnovnih procesa
5. Funkcija udaljenosti i tipa zadataka
Modeli rada i osnovnih procesaModeli rada i osnovnih procesa
• Računanje udaljenosti1. apsolutna vrijednost razlike2. normalizirane apsolutne vrijednosti3. Euklidska udaljenost4. Manhattan udaljenost
• Matrica udaljenosti
• Funkcija kombinacije
Funkcije udaljenosti i tipovi Funkcije udaljenosti i tipovi podatakapodataka
• Transformacija nenumeričke vrijednosti u numeričku (brojevima se dodaju atributi) radi lakšeg računanja udaljenosti
• Primjena – segmentacija tržišta
KlasteriranjeKlasteriranje
• Grupiranje ili sjedinjavanje objekata sliknih osobina
• Cilj: pronaći sličnost unutar populacije koristeći zadani skup atributa
• 2 načina :1. K-means klasteriranje2. hijerarhijsko klasteriranje
PROCES K-means
KLASTERIRANJA
Izračun nove vrijednosti središta sa novim
elementima
Pridruživanje elemenata na temelju
udaljenosti središtima
Određivanje središta segmenta
Odabir K segmanta
Ponavljati akcije dok se ne mijenja vrijednost
središta
Hijerarhijsko klasteriranjeHijerarhijsko klasteriranje
• grupiranje objekata u stablo klastera• nedostatak: nemogućnost ponavljanja
klasifikacije nakon podjele na klastere
• 2 načina:
Aglomerativno (BOTTOM-UP)
Divizijsko (TOP-DOWN)
Stabla odlučivanjaStabla odlučivanja
• Klasificiranju atributa s obzirom na zadanu varijablu• Laka interpretacija grafova – stabla
• Primjenjuju se u kombinaciji s klasteriranjem• CILJ: određivanje varij. i njihovih vrijed. koje
determiniraju neku pojavu ili skup pojava
• Primjena – analiza sklonosti potrošača kupnji nekog proizvoda s obzirom na zadane atribute
Bayesove mrežeBayesove mreže
• Temeljena na uvjetnoj vjerojatnosti -> P(a/b)=m
• CILJ: reduciranje stupnja neizvjesnosti
• Bayesova formulaBayesova formula P(a/b)P(b)=P(a,b) P(a/b)P(b)=P(a,b)
• Primjena – poslovna inteligencija, medicina razvoj softvera, vojska, ekonomija( procjena rizika, segmentacija)
Elementi B-mrežeElementi B-mreže
• Direktni neciklični grafovi u kojem je svaki čvor slučajna var., a svaka poveznica vjerojatnost
• Tablice uvjetnih vjerojatnosti za svaku varijablu
Neuralne mrežeNeuralne mreže
• Temeljena na saznanjima o ponašanju živčane stanice prilikom podražaja
• kombinacija s drugim metodama zbog teške interpretacije rezultata
Primjena – prognoza trendova, robotika, treniranje neura-mreže na temelju povijesnih podataka
Načini učenjaNačini učenja1
NADZIRANO
2
NENADZIRANO (klasteriranje)
3
PRIDRUŽUJUĆE POJAČAVAJUĆE UČENJE
Neizrazita logika
• U sustavima za podrške u odlučivanju
• Dok u klas. logici vrijed. mogu biti ili 0 ili 1, u neizrazitoj logici vrijednosti se kreću u intervalu od 0 do 1
• Primjena – stvaranje neizrazitih ekspertnih sustava
Genetički algoritmi i gen. Genetički algoritmi i gen. programiranjeprogramiranje
• Rješavanje problema optimizacije, a ne prepoznavanja uzoraka
• Primjena – optimizacija težinskih koef. prije treniranja neuronske mreže, optimalno iskorištenje resursa uz ogranićenja
• kreiranje generacije, genoma, modifikacija populacije
• ulazne varijable• skup funkcija• operatori
GENETIČKI ALGORITMI
GENETIČKO PROGRAMIRANJE
ZAKLJUČAKZAKLJUČAK
• ne postoji jasna receptura pri izboru metoda zbog kompleksnosti i raznih specifičnosti
• najbolji učinci izlazi iz sinergije spajanja metoda
• cilj diktira izbor metode
• za uspjeh potrebni su: pravi tim, prava metodologija, prava arhitektura i prva tehnologija
Literatura
• Panian, Ž., Klepac, G. Poslovna inteligencija. Masmedia, Zagreb, 2003.
• Zaima, A., Kashner, J. A Data Mining Primer for Data Warehouse Professional