21
+ Skladišta podataka Data WareHouse By: Krunoslav Ris CEO @ BetaWare d.o.o. | FlyStartup

Data WareHose

Embed Size (px)

DESCRIPTION

Sam pojam "skladište podataka" (engl. Data Warehouse) podrazumijeva zbirku podataka izoliranih iz operativnih baza i spremljenih u posebne baze odnosno skladišta podataka. Glavna karakteristika koja određuje skladište podataka odnosi se na njegovu svrhu Prema definiciji koju je postavio William H. Inmon, skladište podataka predstavlja subjektni usmjeren (subject-oriented), integrirani (integrated), vezan na vrijeme (time-variant) i sadržajno nepromjenjiv (non-volatile) skup podataka, a krajnji cilj mu je pomoć menadžmentu pri donošenju odluka.

Citation preview

Page 1: Data WareHose

+

Skladišta podatakaData WareHouseBy: Krunoslav RisCEO @ BetaWare d.o.o. | FlyStartup

Page 2: Data WareHose

+Definicija

Sam pojam "skladište podataka" (engl. Data Warehouse) podrazumijeva zbirku podataka izoliranih iz operativnih baza i spremljenih u posebne baze odnosno skladišta podataka.

Glavna karakteristika koja određuje skladište podataka odnosi se na njegovu svrhu

Prema definiciji koju je postavio William H. Inmon, skladište podataka predstavlja subjektni usmjeren (subject-oriented), integrirani (integrated), vezan na vrijeme (time-variant) i sadržajno nepromjenjiv (non-volatile) skup podataka, a krajnji cilj mu je pomoć menadžmentu pri donošenju odluka.

Page 3: Data WareHose

+Definicija

Subjektni usmjerenost podataka - znači da se oni organizuju oko predmeta, na način da daju informacije o točno određenim predmetima u okviru funkcionalnih područja (npr. u okviru prodaje, nabave.) Umjesto o tekućim operacijama poduzeća. Suprotno tome operativne baze podataka organizirane oko poslovnih aplikacija, dakle usmjerene su na tekuće operacije (npr. obrade narudžbi, isporuka i sl..).

Integriranost - podaci se skupljaju u bazu podataka iz različitih izvora i pohranjuju uvijek u istom formatu, te su konzistentni i prikazuju se na dosljedan način.

Vezanost uz vrijeme - svi podaci u skladištu podataka vezani su i identificiraju se uz određeni vremenski period, što znači da imaju povijesni karakter. Za razliku od njih, u operativnim bazama podataka pohranjeni su samo aktualni, najsvježiji podaci. Međutim, s gledišta koncepta poslovne inteligencije, sveobuhvatno predviđanja budućih događaja nije moguće provesti bez poznavanja povijesti istih ili nekih drugih događaja. Iz toga toki da premda podaci u skladištu podataka odražavaju prošlost, njihova usmjerenost je okrenuta budućnosti.

Page 4: Data WareHose

+Osnove skladištenja podataka

sustavi 70-tih godina su bili monolitni sustavi sa centraliziranim “mainframe” računalom-naslijedeni sustavi (engl. Legacy systems)

80-tih godina dolazi do popularizacije osobnih računala

vrhunac sustava za analizu prije pojave skladištenja podataka bili su sustavi za potporu odlučivanju i izvršni informacijski sustavi

pojava koncepta Intraneta i korištenja web baziranih aplikacija-putem Intraneta podaci u skladištu podataka postaju dostupni svima unutar kompanije

Skladištenje podataka je novi koncept koji se pojavio sredinom 90-tih godina 20. stoljeća

Page 5: Data WareHose

+Značajke skladišta podataka

pristup podacima je najefikasniji ako su ti podaci odvojeni od podataka pohranjenih u operacijskim sustavima

jedan od razloga za razdvajanje je da podaci u skladište podataka mogu doći i iz više izvora

Takoder bitan razlog je da se procesi obrade transakcije i analize podataka bitno razlikuju odnosno da postoji razlika između transakcijskih (operacijskih) sustava i sustava za analizu

transakcijski sustav (često se naziva i OLTP – On-Line Transaction Processing) pridaje najveću važnost raspoloživosti i brzini obrade i ne smije se dozvoliti da analiza podataka dovede do degradacija performansi transakcijskog sustava-ključni razlog razdvajanja

Page 6: Data WareHose

+Značajke skladišta podataka

Razlike između OLTP i skladišta podataka

Page 7: Data WareHose

+Ciljevi skladištenja podataka

Skladište podataka mora omogućiti pristup podacima bitnim za neku organizaciju ili kompaniju

Podaci u skladištu podataka moraju biti konzistentni

Podaci se u skladištu podataka mogu kombinirati na sve moguće načine (engl. dice and slice requirement)

Skladište podataka nisu samo podaci, već ono mora sadržavati i skup alata za postavljanje upita (engl. query tools), alata za analizu i predstavljanje informacije

Skladište podataka je mjesto gdje se objavljuju korišteni podaci

Kvaliteta podataka u skladištu je pokretač poslovnog restrukturiranja

Page 8: Data WareHose

+Što je to OLAP ?

Izrazom “On-Line Analytical Processing” (OLAP) označena je kategorija softverske tehnologije koja omogućava korisnicima (analitičarima, menadžerima) da steknu uvid u podatke kroz brz, konzistentan, interaktivan pristup različitim mogućim pogledima na informacije transformirane iz sirovih podataka da bi odrazile stvarnu dimenzionalnost poslovanja kako ga shvača korisnik

Page 9: Data WareHose

+Što je to OLAP ?

Page 10: Data WareHose

+Što je to OLAP ?

OLAP je pojam koji izvorno potiče od E.F. Codda, a opisuje informacijski sustav za brz, konzistentan i interaktivan pristup i manipulaciju multidimenzionalnim podacima koji dolaze iz različitih izvora, a spremljeni su u skladištu podataka

Funkcionalnost OLAP-a ostvarena je kroz mogućnost multidimenzionalnih analiza konsolidiranih korporativnih podataka koje uključuju: modeliranje korištenjem dimenzija i hijerarhija podataka, analize trendova kroz određena vremenska razdoblja, projekciju podataka kroz what-if scenarije, podskupove podataka, bušenje (drill down) do nižih nivoa detaljnosti podataka

OLAP je obično implementiran u klijent-server okruženju

Page 11: Data WareHose

+Što je to OLAP ?

OLAP postoji u dva temeljna oblika s obzirom na formu u kojoj su podaci spremljeni: relacijski (ROLAP-Relational On Line Analitycal Processing) i multidimenzionalni (MOLAP- Multidimensional On Line Analitycal Processing), te u hibridnom obliku (HOLAP-Hybrid On Line Analitycal Processing) koji za više nivoe sumarizacije koristi multidimenzionalni oblik, ali omogućuje dril-down do nižih nivoa sumarizacije koji su smješteni u relacijskoj tablici

U posljednje vrijeme koristi se i izraz FASMI - Fast Analysis of Shared Multidimenzional Data

Page 12: Data WareHose

+Što je to OLAP ?

Page 13: Data WareHose

+Osnovni modeli skladišta podataka

Prilikom kreiranja skladišta podataka danas u praksi susrećemo tri osnovna modela ili osnovne arhitekture skladišta podataka: dvoslojna arhitektura s jednim zajedničkim skladištem podataka, dvoslojna arhitektura s više nezavisnih lokalnih spremišta podataka (engl. Data Marts) i troslojna arhitektura sa zajedničkim skladištem podataka i više povezanih lokalnih skladišta podataka Dvoslojna arhitektura s jednim zajedničkim skladištem

podataka Dvoslojna arhitektura s više nezavisnih lokalnih skladišta

podataka Troslojna arhitektura skladišta podataka

Page 14: Data WareHose

+Dvoslojna arhitektura s jednim zajedničkim skladištem podataka

Ovaj model karakterizira jedinstveno, zajedničko centralizirano skladište podataka.

Podaci se zaprimaju iz različitih izvora unutar organizacije (npr. podaci iz online sustava za obradu transakcija, podaci iz ranije razvijenih sustava koji održavaju baze podataka itd..) I vanjskih izvora podataka dostupnih putem interneta ili nekim drugim načinima.

Karakteristika dvoslojne arhitekture skladišta je da ono služi većem broju organizacijskih jedinica poduzeća kao i pojedinačnim korisnicima. Takva skladišta su velikog opsega i vrlo složena, au njima se u pravilu pohranjuje ogromna količina podataka. Pa i sheme podataka prema kojima se vrši pohranjivanje podataka trebaju podržavati široku lepezu aplikacijskih zahtjeva. Iz navedenog je vidljivo da su troškovi održavanja takve arhitekture visoki i pretpostavljaju znatan angažman i vrijeme određenog broja i profila stručnjaka.

Page 15: Data WareHose

+Dvoslojna arhitektura s više nezavisnih lokalnih skladišta podataka

Karakteristika ove arhitekture skladišta podataka je postojanje većeg broja nezavisnih lokalnih spremišta podataka namijenjenih za podržavanje pojedinačnih aplikacija po organizacijskim jedinicama poduzeća. Rezultat takve arhitekture je velik broj sustava koji svaki posebno zaprimaju "svoje" podatke iz različitih transakcijskih baza podataka. Prednost navedenog modela skladišta podataka je jednostavnija izgradnja i lakše korištenje. Međutim takav model ima i nedostatke kao što su: otežana komunikacija među organizacijskim jedinicama poduzeća. povećanjem broja međusobno neovisnih skladišta podataka, usporedno

raste i opterećenost samih transakcijskih sustava, data mart-ovi oblikovani su tako da podržavaju samo jednu aplikaciju, pa

naknadno dodavanje novih aplikacija u određeno skladište predstavlja poteškoće,

ograničena skalabilnost platforme i otežan je uvid u stvarno stanje informacija na razini poduzeća

Page 16: Data WareHose

+Troslojna arhitektura skladišta podataka Ovaj model sastoji se od većeg broja lokalnih skladišta podataka

i jednog zajedničkog skladišta podataka koje je smješteno između skladišta podataka i različitih izvora podataka unutar i izvan poduzeća. Skladišta podataka oslanjaju se na centralno skladište podataka koje im isporučuje podatke u obliku koji daje ujednačen uvid u sve segmente poslovanja poduzeća.

U odnosu na prethodna dva modela prednosti troslojne arhitekture su veća točnost informacija nevezano s kojeg izvora su zahvaćene, olakšana je komunikacija među organizacijskim jedinicama, smanjena je opterećenost informatičara, povećana je skalabilnost i proširivost platforme za pohranu podataka i na kraju ova arhitektura pruža mogućnost korištenja vanjskih aplikacija čime se omogućuje povezivanje svih subjekata u lancu vrijednosti.

Page 17: Data WareHose

+Troslojna arhitektura skladišta podataka

Istorijski podaci

Page 18: Data WareHose

+Višedimenzionalni prikaz podataka

Skladište podataka, kao što je ranije rečeno, puni se izvorima podataka unutar organizacije (transakcijske baze) kao i vanjskim izvorima podataka. Postupcima ekstrakcije, transformacije i punjenja kojima se zaprimaju podaci iz unutarnjih i vanjskih izvora dobivaju se osnovni podaci skladišta.

Za vizualni prikaz dimenzionalnog modela podataka koristi se tzv. zvijezda shema (star shema) jer dijagram ima izgled zvijezde, kao što je prethodno navedeno - jednu središnju veliku relacijsku tablicu koja se naziva i tablicom činjenica (engl. fact table) i skup manjih tablica.

Dimenzione tablice posjeduju određene atribute, odnosno pozicije dimenzija i predstavljaju mogućnosti koje prikazuju neku pojavu, npr.. otpremu određenog proizvoda

Page 19: Data WareHose

+Višedimenzionalni prikaz podataka

Page 20: Data WareHose

+Višedimenzionalni prikaz podataka

Centralni dio sheme, tablica činjenica, predstavlja središnji dio koordinacije, koji uz osnovne podatke o šiframa relacijskih tablica koje su objedinjene u strukturu, može sadržavati i ostale segmente informacija.

Višedimenzionalna struktura podataka pruža velike mogućnosti za otkrivanje mnogih detalja različitim postupcima analitičke obrade kao što su agregacija i detaljizacija ili svrdlanje (drill up, drill down, drill through), unakrsno tabeliranje (cross tabulation), selekcija, isijecanje, izdvajanje i kombiniranje svih dimenzija (slice and dice requirement), rotacija odnosno isticanje jedne dimenzije dok su druge u pozadini (pivoting), prognoza, modeliranje, grafički prikaz (charting), statistike analize (trend, klaster) itd..

Page 21: Data WareHose

+Zaključak

Skladištenje podataka – Data-Warehouse je posebno projektirano tehnološko okruženje koje omogućuje objedinjavanje srodnih podataka u oblik pogodan za analizu čime se olakšava proces donošenja odluka i daje novi pristup sustavima za potporu odlučivanju. Ovaj koncept osigurava fleksibilan, učinkovit način raspolaganja podataka u formatu pogodnom za suvremene poslovne aplikacije. Postojanje skladišta podataka kao bogato informacijama integrirano okruženje orijentirano je ka potrebama krajnjih korisnika koji uz pomoć alata za poslovno odlučivanje mogu donositi pravovremene i kvalitetne poslovne odluke.

Omogućuje stalno pronalaženje novih informacija namijenjenih menadžerima, a služe im prvenstveno za strateško, taktičko i operativno donošenje odluka. Uvođenjem koncepta skladištenja podataka, operativne baze prestaju biti opterećene složenim upitima, pa cijeli informacijski sustav koji se sad sastoji od dva dijela, operativnog i skladišta podataka postaje produktivniji i lakše se kontrolira i restrukturira.

Metode skladištenja podataka sve više postaju integrirane u softverske pakete temeljnog informacijskog sustava poduzeća, novije verzije relacijskih baza podataka (kao npr.. Oracle i SQL server) imaju dio za Data Warehousing integriran u svom paketu kao OLAP. Menadžmentu nije potreban angažman analitičara za obradu ključnih pokazatelja o stanju poduzeća, već takve podatke klikom miša mogu dobiti obrađene iz baze podataka, te koristiti kao pomoć u donošenju poslovnih odluka.

Načela upravljanja prema ciljevima (Management by Objectives) će biti podržana mogućnostima online pristupa bazama i skladištima podataka, kroz alate poslovne inteligencije. Koncept skladišta podataka usklađivanjem podataka omogućuje jedinstvenu istinu o poduzeću, što povećava kredibilitet informacijskog sustava.