28

Click here to load reader

Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

Embed Size (px)

DESCRIPTION

Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Tikimybinių ir statistinių metodų taikymai“, „Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21

Citation preview

Page 1: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

Vilniaus universitetas Matematikos ir informatikos institutas doktorantas Gediminas Bazilevičius

Mobilios duomenų tyrybos analizės apžvalga

Page 2: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

DUOMENŲ TYRYBA PASKIRSTYTOSE SISTEMOSE

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   2  

Page 3: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBA MOBILIUOSE ĮRENGINIUOSE

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   3  

Page 4: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBA (1)

•  Srauto tyryba – tai tendencijų, šablonų, ryšių ir kategorijų aptikimo procesas iš laiko eilučių;

•  Tradiciniai duomenų tyrybos metodai taikomi tuomet, kai turima visa duomenų aibė ir ji yra fiksuota. Jeigu duomenys gaunami srautu ir taip greitai, kad jų nenaudinga išsaugoti duomenų saugykloje, o reikia juos tirti realiu laiku – galime taikyti srauto duomenų tyrybos atvejį.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   4  

Page 5: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

KODĖL SRAUTO TYRYBA?

•  Duomenų apdorojimas atliekamas tiesiogiai; •  Duomenis galima tyrinėti/apdoroti mobiliai t.y.

keičiantis geografiniai padėčiai; •  Sutaupoma duomenų saugyklų vieta, tinklo apkrova; •  Duomenų surinkimo ir išankstinio apdorojimo

atlikimas mobiliajame įrenginyje palengvina ir paspartina duomenų perdavimą į duomenų saugyklas.

•  Spartesnis duomenų apdorojimas tolygus spatesniam rezultatų gavimui.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   5  

Page 6: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ CHARAKTERISTIKOS

Ypatumai: 1.  duomenys gaunami/imami nenutrūkstamai iš srauto; 2.  nežinomas gaunamų duomenų tvarka/išsidėstymas; 3.  gaunamas srauto duomenų kiekis yra nenumatomas ir

nesuskaičiuojamas; 4.  srautas yra negrįžtamas procesas, todėl daugiau nei du

kartus duomenų srauto apdoroti neįmanoma; 5.  negalima taikyti tradicinių (įparastiniai) duomenų

tyrybos algoritmų; 6.  duomenų srauto apdorojimo sutrikimai dėl ryšio

patikimumo bei komunikavimo protokolų; 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   6  

Page 7: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

PAGRINDINAI SKIRTUMAI TARP SRAUTO IR TRADICINĖS DUOMENŲ

TYRYBOS

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   7  

Srauto duomenų tyryba Duomenų tyryba Duomenų apdorojimas realiu laiku Tradicinis (įprastas) duomenų apdorojimas bet

kuriuo metu Greita duomenų tyryba, kuri santykinai priklauso nuo skaičiavimo išteklių

Lėta duomenų tyryba. Santykinai priklausanti nuo turimų skaičiavimo šaltinių

Negalimas/dalinis duomenų saugojimas Galimas duomenų saugojimas Priimami apytikslūs rezultatai Gaunami tikslūs rezultatai Saugyklose saugomi tik išfiltruoti duomenys

Saugyklose saugomi neapdoroti duomenys

Erdvės ir laiko kontekstas yra ypatingai svarbus

Erdvės ir laiko kontekstas yra taikomas tam tikrai taikomųjų programų klasei pvz.: Geographical Information Systems (GIS)

Naudojami prisitaikantys ir modifikuoti algoritmai, kurie nereikauja didelių įrenginio resursų

Naudojami algoritmai, reikalaujantys didelių įrangos resursų bei ilgo laiko tarpo

Page 8: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS ATRANKOS PROBLEMA

Duomenų atrankos etapo metu galima atrinkti, kokią imties dalį tyrinėsime, to pasekoje galima sumažinti duomenų kiekį, pagreitinti duomenų tyrybos procesą bei rezultatų gavybą. Tiriamo srauto duomenų atrankos problema gali būti sprendžiama dviem būdais: 1.  duomenų srauto atskirų rinkinių nagrinėjimas

siekiant sumažinti duomenų dydį; 2.  efektyvus algoritmų panaudojimas laiko ir vietos

atžvilgiu.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   8  

Page 9: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS

•  Pirmas būdas. Visi duomenys turi būtų sumažinami iš viso kiekio duomenų arba rankiniu būdu parenkama tam tikra rinkinio dalis (poaibis).

•  Tam realizuoti naudojami algoritmai: 1.  atranka (angl. sampling), 2.  apkrova (angl. shedding), 3.  eskizas (angl. sketching), 4.  konspektavimas (angl. synopsis), 5.  agregavimas (angls. aggregation).

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   9  

Page 10: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBA, ATRANKA

•  Atranka (angl. sampling) – tikimybiniu būdu atrenkami duomenys tolimesnei duomenų tyrybai.

•  Apskaičiuotas barjerų paklaidų įvertinimas yra traktuojamas kaip atrankos rodiklio funkcija.

•  Very Fast Maschine Learing (VFML) metodas naudoja Hoeffding ribą įvertinti atrankos dydį.

•  Sunkumai: – Nežinomas duomenų rinkinio dydis; – Atrankos metodas gali veikti neteisingai, jei

tikrinamos anomalijos analizės metu; 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   10  

Page 11: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS, APKROVA

•  Apkrova (angl. shedding) – t.y. procesas kurio metu atisakoma dalies duomenų srauto, kai yra fiksuojama gaunamo srauto perkrova. Apkrovos dydis yra naudojamas duomenų srauto užklausoms optimizuoti. Pageidautina naudoti apkrovos algoritmą, kad minimizuotume siekiamo rezultato paklaidą.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   11  

Page 12: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS, ESKIZAS

•  Eskizas (angl. sketching) – apima srauto duomenų santraukos kūrimą naudojant mažą atminties kiekį. Tai yra įeinamo srauto vertikalus atrankos procesas. Eskizavimas yra taikomas palyginti skirtingus srautus duomenų.

•  Pagrindinis trūkumas yra tikslumas. •  Sunku pritaikyti šį metodą srautui duomenų.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   12  

Page 13: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS, KONSPEKTAVIMAS

•  Konspektavimas (angl. synopsis) – šio proceso metu išlaikoma trumpa informacija viso duomenų srauto metu. Duomenų konspekto sukūrimas tai yra santraukos metodų pritaikymas, kurie gali apibendrinti įeinamą srautą tolimesnei analizei.

•  Negalima taikyti, kai yra O(N), kur N gali būti vietos/laiko vienetų skaičius.

•  Kai kurie sprendiniai yra reikalingi, kurių rezultatai gaunami arti O(poly(logN)).

•  Duomenų struktūros konspektavimas gali būti taikomas kai neviršyjama tokio sudėtingumo O(logkN).

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   13  

Page 14: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS, AGREGAVIMAS

•  Agregavimas (angls. aggregation) – įeinamo srautų konspektas yra sugeneruotas naudojant vidurkį ir dispersiją.

•  Jeigu įėjimo srautai turi didelių svyravimų tuomet šis algoritmas netinka.

•  Šis algoritmas gali būti naudojamas apjungiant netiesioginius (angl. offline) ir tiesioginius (angl. online) duomenis.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   14  

Page 15: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS ATRANKOS PROBLEMA

Duomenų atrankos etapo metu galima atrinkti, kokią imties dalį tyrinėsime, to pasekoje galima sumažinti duomenų kiekį, pagreitinti duomenų tyrybos procesą bei rezultatų gavybą. Tiriamo srauto duomenų atrankos problema gali būti sprendžiama dviem būdais: 1.  duomenų srauto atskirų rinkinių nagrinėjimas

siekiant sumažinti duomenų dydį; 2.  efektyvus algoritmų panaudojimas laiko ir vietos

atžvilgiu.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   15  

Page 16: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS

•  Antras būdas. Siekiama efektyviai išnaudoti esamus duomenų tyrybos algoritmus, juos modifikuojant ir pritaikant esamo srauto duomenų charakteristikas;

Realizuoti tokie algoritmai: 1.  aproksivavimo algoritmas (angl. approximation

algorithm), 2.  slenkančio lango algoritmas (angl. sliding

windows algorithm).

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   16  

Page 17: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS, APROKSIMAVIMO

ALGORITMAS •  Aproksimavimo algoritmas (angl. approximation

algorithm) – aproksimavimo metodai yra naudojami algoritmų kūrimui. Sprendimai gauti su šiuo algoritmu yra aproksimuojami taip gaunamos ribų paklaidos. Šis algoritmas naudojamas pasikartojančių elementų dažnio dinamikai sekti.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   17  

Page 18: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS, SLENKANTIS LANGAS

•  Slenkantis langas (angl. sliding windows algorithm) Analizė naujai gautiems duomenims yra gauta iš prieš tai duomenų sukonspektuotos versijos. Naudojant slenkantį langą ankstesni srauto elementai pakeičiami naujai gauto duomenų srauto elementais.

•  Naudojami du slenkantys langai: 1.  Skaičiaus (angl. count-based) 2.  Laiko (angl. time-based).

•  Naudojant skaičaus pagrindo langą paskutiniai N elementai yra saugomi, o naudojant laiko pagrindu langą galima saugoti tik tuos elementus, kurie buvo sugeneruoti arba gauti paskutinėsiuose T laiko vienetuose.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   18  

Page 19: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

KLASIKINĖ MOBILIOS SRAUTO DUOMENŲ TYRYBOS SCHEMA

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   19  

Page 20: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

MOBILIOJI DUOMENŲ TYRYBA

•  Mobilioji duomenų tyryba tai technologija suteikianti galimybę realiu laiku analizuoti srauto duomenis, sugeneruotus pačiame telefone arba iš dėvimų įrenginių, kurie yra netoli šio įrenginio.

•  Yra atvejų, kai mobilusis įrenginys gali atstoti tarpininką tarp serverio ir jutiklio.

•  Mobilioje srauto duomenų tyryboje paprastai naudojami prisitaikatys algoritmai, kurie veiktų veiksmingai ir efektyviai mobiliuose įrenginiuose esant skirtingom sąlygom.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   20  

Page 21: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS PROBLEMA

•  Srauto duomenų tyryba turi būti atliekama, taip kad ji neviršytų mobilių įrenginių ribotų išteklių: 1.  ekrano dydžio; 2.  energijos suvartojimo; 3.  proceso apkrovos; 4.  operatyviosios atminties; 5.  saugojimo vietos.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   21  

Page 22: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS

•  Naudojamos atitinkamos duomenų tyrybos strategijos leidžiančios dinamiškai keisti algoritmų parametrus priklausomai nuo esamų išteklių būklės, situacijos ir kitų apribojimų.

•  Modifikuojami įprastiniai duomenų tyrybos algoritmai arba kuriami supaprastintos formos (angl. light-weight) algoritmai.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   22  

Page 23: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

SRAUTO DUOMENŲ TYRYBOS STRATEGIJOS

•  Situacijos prisitaikymo strategija: taikoma kritinei ir nekritinei situacijai.

•  Resursų prisitaikymo strategija: 1.  AOG (Algorithm Output Granularity) – saugojimo

vietos resursai; 2.  AIG (Algorithm Input Granularity) – baterijos resursai; 3.  APG (Algorithm Processing Granularity) – procesoriaus

resursai. •  Hibridinė prisitaikymo strategija – situacijos ir resursų

strategijos taikomos vienu metu.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   23  

Page 24: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

MOBILIOS DUOMENŲ TYRYBOS PROGRAMOS

•  Open Mobile Miner – Klasifikavimas; – Klasterizavimas; – Laiko eilučių analizė; – Pasikeitimo aptikimui.

•  Mobile Weka – Klasifikavimas; – Klasterizavimas; – Ryšių analizė.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   24  

Page 25: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

MOBILIOS DUOMENŲ TYRYBOS ALGORITMAI

Open Mobile Miner programoje veikiantys algoritmai Klasterizavimo algoritmai: •  Light-Weight Clustering; •  RA-Cluster ir DRA-Cluster; Pasikeitimo aptikimo algoritmas: •  CHANGE-DETECT; Klasifikavimo algoritmas: •  Light-Weight Class.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   25  

Page 26: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

IŠVADOS (1) •  Duomenų tyryba mobiliuose įreginiuose vystoma

pakankamai seniai, tačiau sukurtų ar modifikuotų algoritmų skirtų mobiliai duomenų tyrybai yra nedaug;

•  Modifikuojant standartinius algoritmus mobiliems įrenginiams prarandamas gautų rezultatų tikslumas. Norint gauti tikslesnius skaičiavimų rezultatus padidėja laiko sąnaudos arba kyla problemų dėl nepakankamų mobilių įrenginių techninių išteklių;

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   26  

Page 27: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

IŠVADOS (2) •  Duomenų tyrybą mobiliuose įrenginiuose riboja

skaičiavimo resursai (atminties kiekis, procesoriaus greitis, tinklo pralaidumas, baterijos talpa) bei skirtingų mobilių įrenginių gausa ir techninių charakteristikų skirtumai, todėl dažnai neįmanoma duomenų tyrybos rezultatų turėti realiu laiku;

•  Esami duomenų tyrybos algoritmai gali apdoroti nedidelius kiekius duomenų;

•  Srauto duomenų tyrybai lengviausiai pritaikomi ir tiksliausius galutinius rezultatus teikia klasterizavimo algoritmai.

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   27  

Page 28: Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

AČIŪ UŽ DĖMESĮ

2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   28