Upload
zack
View
73
Download
0
Embed Size (px)
DESCRIPTION
Využitie dolovania dát v riadení výrobných procesov. Školiteľ: Doc. Ing. Peter Schreiber, CSc. Doktorand: Ing. Michal Kebísek. Obsah prezentácie. p roces KDD , dolovanie dát, metódy dolovania dát, techniky dolovania dát, problémy implementácie dolovania dát, - PowerPoint PPT Presentation
Citation preview
Využitie dolovania dát v riadení výrobných
procesov
Školiteľ: Doc. Ing. Peter Schreiber, CSc.
Doktorand: Ing. Michal Kebísek
Obsah prezentácie
• proces KDD,
• dolovanie dát,
• metódy dolovania dát,
• techniky dolovania dát,
• problémy implementácie dolovania dát,
• využitie dolovania dát v praxi,
• tézy dizertačnej práce
Definícia KDD
Netriviálny proces identifikácie platných,
nových, doteraz neznámych, potenciálne
použiteľných a dobre pochopiteľných
znalostí v dátach.Fayyad, Piatetski-Shapiro, Smyth 1996
Proces KDD
definíciaproblému
zber a výber dát
transformácia dát
čistenie a skúmanie dát
dolovanie dát
interpretácia a vyhodnotenie
Dolovanie dát
Jedna z fáz procesu KDD,v rámci ktorej sa pomocou rôznych techník a pri daných obmedzeniach hľadajú skryté vzory alebo modely
v dátach.
Proces dolovania dát
1. preskúmanie dát,
2. nájdenie vzorov alebo súvislostí,
3. overenie zostaveného modelu.
Ciele procesu dolovania dát
• verifikácia,
• explorácia • deskripcia,
• predikcia.
Metódy dolovania dát
Podľa vyhľadávanej znalosti rozdeľujeme metódy na:• sumarizáciu a generalizáciu,• hľadanie závislostí,• klasifikáciu a zhlukovanie,• štatistickú analýzu (predovšetkým regresiu),• detekcia zmien a odchýlok,• vyhľadávanie podobností v časových, resp.
časopriestorových databázach …
Metódy dolovania dát
• klasifikácia, • regresia, • zhlukovanie (segmentácia), • sumarizácia (a generalizácia),• modelovanie závislostí (asociácie), • detekcia zmien a odchýlok,• metódy založené na príkladoch,• predpovedanie podľa časových radov,• symbolické metódy,• objavovanie postupností,• vyhľadávanie podobností…
Metódy dolovania dát
Vzorový príklad
Metódy dolovania dát
Jednoduchá lineárna klasifikácia
Metódy dolovania dát
Jednoduchá lineárna regresia
Metódy dolovania dát
Zhlukovanie (Clustering, Segmentácia)
Metódy dolovania dát
Symbolické metódy (prahové rozdelenie)
Metódy dolovania dát
Subsymbolické metódy (nelineárny klasifikátor)
Metódy dolovania dát
Metódy založené na príkladoch
Metódy dolovania dát
Vyhľadávanie podobností
Techniky dolovania dát
• rozhodovacie stromy,
• asociačné pravidlá,
• neurónové siete,
• genetické algoritmy,
• zhluková analýza,
• regresná analýza ...
Porovnanie techník dolovania dát R
ozh
od
. strom
y
Aso
ciač
. prav
idlá
Neu
rón
. siete
Gen
tické algo
rit.Kvalita vstupu
spracovávanie veľkého objemu dát + +spracovávanie veľkého množstva atribútov + - -spracovávanie numerických atribútov + - + -spracovávanie textových reťazcov - -K
valita výstupu
zobrazenie spôsobu nájdenia pravidla
inkrementálne učenie
odhad štatistickej významnosti
Výkon pri učení
záťaž disku
záťaž CPU + +V
ýkon pri použití
záťaž disku - - -
záťaž CPU - -
Dovrtěl, 1999
Požiadavky kladené na DM• možnosť práce s rôznymi typmi dát,• efektívnosť a škálovateľnosť
dolovacích algoritmov,• zrozumiteľná prezentácia výsledkov,• interaktívnosť dolovania na rôznych
úrovniach abstrakcie,• dolovanie z rôznych zdrojov dát,• ochrana súkromia a utajenia dát.
Problémy implementácie v praxi (1)
• zväčšovanie databáz,
• veľkorozmernosť,
• overfitting,
• stanovenie štatistickej významnosti,
• zrozumiteľnosť a jednoduchá pochopiteľnosť získaných znalostí,
Problémy implementácie v praxi (2)
• chýbajúce alebo zašumené dáta,
• komplexné vzťahy medzi položkami,
• premenlivosť dát a znalostí,
• interakcia užívateľa a predchádzajúcich znalostí,
• interakcia s ostatnými systémami.
Využitie DM v praxi (1)
• segmentácia zákazníkov pre cielené marketingové kampane,
• zisťovanie podvodov v bankovníctve a poistovníctve,
• analýzy nákupných košíkov,• zisťovanie náchylnosti zákazníkov na
odchod ku konkurencii (telekomunikácie),
Využitie DM v praxi (2)
• predpovedanie chovania zákazníkov,
• diagnostický nástroj v medicíne,
• overovanie pravosti podpisov,
• vyhodnocovanie zachytených radarových kontaktov (armáda),
• klasifikácia hviezd v astronómii ...
Informačné a riadiace systémy
Tézy dizertačnej práce (1)
• výber reálnej databázy priemyselného podniku v Trnavskom resp. Bratislavskom regióne,• oboznámenie sa s výrobným procesom vybraného priemyselného podniku, s jeho databázou a so spôsobom ukladania dát do databázy,• vytipovanie problému vhodného na riešenie pomocou dolovania dát,• v prípade potreby úprava dát uložených v databáze pre efektívnejšie využívanie v procese dolovania dát,
Tézy dizertačnej práce (2)
• výber konkrétnych metód dolovania dát pre potreby riadenia na úrovni výrobného procesu,• aplikácia vybraných metód,• s ohľadom na získané výsledky upravovanie použitých metód s dôrazom na špecifické vlastnosti vybranej aplikačnej oblasti,• zo získaných znalostí vytvorenie bázy poznatkov využiteľných ako systém odporúčaní pre riadenie konkrétneho výrobného procesu.
Ďakujem za pozornosť!
Otázky a odpovede