Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
UNIVERZA V MARIBORU
FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO
Oddelek za matematiko in rač unalniš tvo
DIPLOMSKO DELO
Ksenija Ofentavšek
Maribor, 2013
UNIVERZA V MARIBORU
FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO
Oddelek za matematiko in računalništvo
Diplomsko delo
PODATKOVNO SKLADIŠČE ZA IZOBRAŽEVALNO USTANOVO
(Data warehouse for educational institution)
Mentorica: izr. prof. dr. Krista Rizman Žalik Diplomantka: Ksenija Ofentavšek
Maribor, 2013
ZAHVALA
Rada bi se zahvalila svoji mentorici izr. prof. dr. Kristi Rizman Žalik za strokovno svetovanje,
potrpežljivost in spodbudo pri nastajanju diplomskega dela.
Posebna zahvala tudi moji družini, ki je verjela vame, in partnerju Jerneju Bregarju, ki mi je ves čas
stal ob strani, me spodbujal in mi pomagal.
UNIVERZA V MARIBOU
FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO
IZJAVA
Podpisana Ksenija Ofentavšek, rojena 1. decembra 1982, študentka Fakultete za naravoslovje in
matematiko Univerze v Mariboru, študijskega programa Računalništvo in matematika, izjavljam, da je
diplomsko delo z naslovom
PODATKOVNO SKLADIŠČE ZA IZOBRAŽEVALNO USTANOVO
pri mentorici izr. prof. dr. Kristi Rizman Žalik avtorsko delo. V diplomskem delu so uporabljeni viri in
literatura korektno navedeni; teksti niso uporabljeni brez navedbe avtorjev.
Maribor, 30. 01. 2013
Ksenija Ofentavšek
OFENTAVŠEK KSENIJA: Podatkovno skladišče za izobraževalno ustanovo.
Diplomsko delo, Univerza v Mariboru, Fakulteta za naravoslovje in matematiko, Oddelek za
matematiko in računalništvo, 2013.
Povzetek Diplomsko delo opisuje zgradbo in uporabo podatkovnih skladišč. Podrobneje so opisane
distribuirane, centralizirane in federativne arhitekture podatkovnih skladišč. Prikazana je uporaba
podatkovnih skladišč v podjetjih ter izobraževalnih ustanovah skupaj z orodji za razvoj in poizvedbo
in bazami, ki jih uporabljajo. Jedro podatkovnih skladišč je OLAP kocka, ki jo modeliramo s
snežinkasto in zvezdno podatkovno shemo. Vrtilne tabele omogočajo enostaven prikaz podatkov,
zbranih v OLAP kocki. Prikazana je izdelava vrtilnih tabel v programu Excel. V diplomskem delu je
predstavljen izdelan model podatkovnega skladišča za izobraževalno ustanovo in bazo v Accessu in
poročila, izdelana s pomočjo vrtilnih tabel v Excelu.
Ključne besede: podatkovno skladišče, proces ETL, kocka OLAP, zvezdna shema, snežinkasta shema,
arhitektura podatkovnih skladišč
OFENTAVŠEK KSENIJA: Data warehouse for educational institution.
Graduation Thesis, University of Maribor, Faculty of Natural Sciences and Mathematics,
Department of Mathematics and Computer Science, 2013.
Abstract This thesis describes composition of data warehouse and its usage. Distributed, centralised and federal
architectures of data warehouse are described in details. It shows usage of data warehouse by some
companies and educational institutions together with their used tolls for development and querying.
Core of data warehouse is OLAP cube that can be realized with snowflake or star scheme. Pivot tables
provide simple dissemination of data stored in OLAP cubes. There is shown how pivot tables in Excel
are made.Thesis shows a model of data warehouse done for educational institution and data in Access.
There are also some analysis and reports made with pivot tables in Excel.
Key words: data warehouse, process ETL, cube OLAP, star scheme, snowflake data scheme,
arcitecture of data warehous
6
Kazalo: 1. UVOD ................................................................................................................................................. 8 2. PODATKOVNA SKLADIŠČA .......................................................................................................... 8
2.1 PROCES ETL ............................................................................................................................... 9 2.1.1 PRIDOBIVANJE PODATKOV .......................................................................................... 10 2.1.2 PREOBLIKOVANJE .......................................................................................................... 10 2.1.3 NALAGANJE...................................................................................................................... 11
3. ZGODOVINA ................................................................................................................................... 11 4. ARHITEKTUA PODATKOVNIH SKLADIŠČ ............................................................................... 12
4.1 NORMALIZIRAN PRISTOP V PRIMERJAVI Z DIMENZIONALNIM PRISTOPOM ......... 13 4.2 SKLADNOST INFORMACIJ .................................................................................................... 14 4.3 OD ZGORAJ NAVZDOL V PRIMERJAVI Z OD SPODAJ NAVZGOR METODOLOGIJO
OBLIKOVANJA .............................................................................................................................. 15 4.3.1 Od spodaj navzgor ali pristop, imenovan distribuirana arhitektura (angl. Bottom-up design)
...................................................................................................................................................... 15 4.3.1.1 Podatkovni model v distribuirani arhitekturi podatkovnega skladišča ......................... 16 4.3.1.2 Ostale posebnosti .......................................................................................................... 16
4.3.2 Od zgoraj navzdol ali pristop, imenovan centralizirana arhitektura (angl. Top-down design)
...................................................................................................................................................... 16 4.3.2.1 Načrtovanje in gradnja centraliziranega podatkovnega skladišča ................................ 17 4.3.2.2 Podatkovni model v centralizirani arhitekturi podatkovnega skladišča ....................... 17 4.3.2.3 Področno skladišče in operativna podatkovna hramba v centralizirani arhitekturi
podatkovnega skladišča ............................................................................................................ 18 4.3.2.4 Osnovne značilnosti, ki ločujejo področno in podatkovno skladišče ........................... 18
4.3.3 Hibridna rešitev ali pristop, imenovan federativna arhitektura ali kombiniran pristop ....... 19 4.3.3.1 Gradnja hibridnega ali federativnega podatkovnega skladišča .................................... 19
5. PODATKOVNO SKLADIŠČE V PRIMERJAVI Z OPERATIVNIM SISTEMOM ...................... 20 5.1 RAZVOJ PODATKOVNIH SKLADIŠČ V ORGANIZACIJSKI UPORABI ........................... 21
6. OLAP ............................................................................................................................................... 22 6.1 OLAP KOCKA .......................................................................................................................... 23 6.2 PODATKOVNI MODEL – KOCKE IN PODATKOVNEGA SKLADIŠČA ........................... 23
6.2.1 ZVEZDNA SHEMA ........................................................................................................... 24 6.2.2 SNEŽINKASTA SHEMA ................................................................................................... 25 6.2.3 PRIMERJAVA ZVEZDNE IN SNEŽINKASTE SHEME ................................................. 26
6.3 DIMENZIJE OLAP KOCKE ...................................................................................................... 26 6.4 MERILA (ANGL. MEASURES) V OLAP KOCKI .................................................................. 28 6.5 OLAP IN PODATKOVNA SKLADIŠČA ................................................................................. 28 6.6 UČINKOVITA UPORABA OLAPA ......................................................................................... 28
7. UNIVERZE V SVETU Z RAZLIČNIMI PODATKOVNIMI SKLADIŠČI .................................... 29 8. ORODJA ZA POVPRAŠEVANJE, ANALIZE IN POROČILA IZ PODATKOVNIH SKLADIŠČ
IN EXCEL VRTILNE TABELE........................................................................................................... 36 8.1 EXCEL VRTILNE (VRTLJIVE) TABELE ............................................................................... 36
8.1.1 DELO Z VRTILNIMI TABELAMI .................................................................................... 36 9. PRIMER PODATKOVNEGA SKLADIŠČA ZA IZOBRAŽEVALNO USTANOVO V ACCESSU
............................................................................................................................................................... 46 9.1 SHEMA PODATKOVNEGA SKLADIŠČA ............................................................................. 47 9.2 POIZVEDBE IZ PODATKOVNEGA SKLADIŠČA ZA IZOBRAŽEVALNO USTANOVO 48
10. ZAKLJUČEK .................................................................................................................................. 57
7
Kazalo slik:
Slika 1: Tipična arhitektura podatkovnih skladišč. .................................................................. 13
Slika 2: Federativna arhitektura podatkovnih skladišč. ........................................................... 20 Slika 3: Primer olap kocke. ...................................................................................................... 23 Slika 4: Primer zvezdne sheme. ............................................................................................... 25 Slika 5: Primer snežinkaste sheme. .......................................................................................... 26 Slika 6: Primer hierarhične predstavitve dimenzij, ki vsebujejo več kot en nivo. ................... 27
Slika 7: Pregled podatkovnega skladišča univerze Arizona State University. ........................ 34 Slika 8: Zgradba podatkovne baze in skladišča. ...................................................................... 35 Slika 9: Ustvarjanje vrtilne tabele z uporabo zunanjega vira podatkov. .................................. 37 Slika 10: Izbiranje povezave (iskanje Accessove datoteke). .................................................... 38 Slika 11: Izbira poizvedb in tabel. ............................................................................................ 39
Slika 12: Ogrodje vrtilne tabele. .............................................................................................. 40
Slika 13: Vsota vpisnine vseh študentov po abecednem vrstnem redu v vrtilni tabeli. ........... 41 Slika 14: Prikaz filtriranja podatkov. ....................................................................................... 42
Slika 15: Slika prikaza možnosti povpraševanja v vrtilnih tabelah.......................................... 43 Slika 16: Slika prikaza možnosti dopolnjevanja praznega prostora v vrtilnih tabel. .............. 44 Slika 17: Vrtilni grafikon. ........................................................................................................ 45 Slika 18: Prikaz tabele s pomočjo ikone Selektor poročil. ....................................................... 45
Slika 19: Model relacij za primer 'študenta'. ............................................................................ 48 Slika 20: Struktura poizvedbe 1. .............................................................................................. 49
Slika 21: Prikaz filtriranja podatkov. ....................................................................................... 51 Slika 22: Struktura poizvedbe 2. .............................................................................................. 55
Kazalo tabel:
Tabela 1: Poizvedba 1. ............................................................................................................. 49 Tabela 2: Vrtilna tabela dimenzije predmeta. .......................................................................... 50
Tabela 3: Vrtilna tabela za povprečno oceno na smereh Matematika in ter Računalništvo in 52 Tabela 4: Vrtilna tabela števila študentov, vpisnine in povprečne ocene na fakultetah. .......... 53
Tabela 5: Vrtilna tabela števila študentov po letnicah diplomiranja in smereh študija. ........... 54 Tabela 6: Poizvedba 2 za število študentov po krajih. ............................................................. 55 Tabela 7: Tabela števila študentov po krajih. ........................................................................... 56
8
1. UVOD
Dandanes je uspešnost podjetja odvisna od sprejemanja hitrih in zanesljivih odločitev. Uspešna
podjetja se od ostalih razlikujejo po tem, da znajo pravočasno predvideti spremembe v okolju in se
nanje hitro odzvati. Hitre in pravilne odločitve temeljijo na informacijah, ki so podjetjem v danem
trenutku na voljo. V informacijskih sistemih se hrani veliko število podatkov, informacij. Zgodi se, da
ni pravih informacij ob pravem času. Zato si lahko pomagamo s podatkovnimi skladišči. Projekt
podatkovnega skladiščenja temelji na izgradnji enotne baze vseh poslovnih podatkov podjetja ter tako
ponuja uporabnikom izdelavo enostavnih analiz. Podatkovna skladišča so potrebna za učinkovite
analize tudi v izobraževalnih ustanovah.
2. PODATKOVNA SKLADIŠČA
Podatkovna skladišča (angl. Data Warehouse) so skladišča shranjenih podatkov. Oblikovana so za
lajšanje poročanja in izdelavo analiz daljšega časovnega obdobja.
Pomembne komponente za podatkovni skladiščni sistem so: sredstva za nalaganje in analiziranje
podatkov, sredstva za pridobivanje in nalaganje podatkov ter sredstva za upravljanje podatkovnega
slovarja.
Podatkovna skladišča vsebujejo veliko različnih podatkov, ki predstavljajo jasno sliko o pogojih
poslovanja na enem mestu v določenem času. Razvoj podatkovnega skladiščenja obsega razvoj
sistemov za pridobivanje podatkov iz operacijskih sistemov ter namestitev podatkovnega skladišča, ki
omogoča upravljavcem prilagodljiv dostop do podatkov. Pojem skladiščenja podatkov se na splošno
nanaša na kombinacijo več različnih baz podatkov v celotnem podjetju.
Tako razširjena definicija podatkovnega skladiščenja vključuje orodja za poslovno obveščanje, orodja
za pridobivanje, preoblikovanje in nalaganje podatkov v skladišča ter orodja za upravljanje in
nalaganje meta podatkov. [6]
Meta podatki so podatki o podatkih in so ključnega pomena za razumevanje podatkov, shranjenih v
podatkovnih skladiščih. [22]
Podatkovna skladišča potrebujejo organizacijo za zanesljivo, urejeno ter enotno integrirano poročanje
in analizo njihovih podatkov na različnih stopnjah združevanja. [3]
Na podlagi prečiščenih in združenih podatkov lahko izdelamo podatkovno skladišče, ki nam omogoča
jasen pregled vseh podatkov v določeni organizaciji.
Podatkovno skladišče je temelj za poslovno inteligenco. [11]
V vsakem podjetju oziroma organizaciji se sprejemajo odločitve, ki vplivajo na delovanje ali
poslovanje celotnega podjetja. Na podlagi vseh informacij, ki jih imamo na voljo, pa se odločamo o
9
delovanju podjetja. Informacije in informacijski procesi so torej nujni in obvezni pogoj za uspešno
vodenje in upravljanje podjetja. Podatkovna skladišča so tista, ki nam omogočajo, da z združevanjem
in organiziranjem določenih podatkov, s katerimi razpolaga podjetje, pridemo do dobrih poslovnih
informacij, ki so bistvene za uspešno delovanje podjetja.
V praksi so podatki shranjeni v zbirkah heterogenih sistemov. Poglejmo primer izobraževalne
ustanove. Ta ima lahko en sistem, ki obravnava študente, en sistem, ki obravnava zaposlene, enega, ki
obravnava opravljane izpitov, spet naslednjega, ki obravnava financiranje in vpisnino študentov.
V organizaciji so lahko vsi ti sistemi zelo slabo povezani ali pa sploh niso. Tako lahko pride do
zapletov oziroma do dolgotrajnega iskanja podatkov, čeprav so podatki na voljo nekje v različnih
podatkovnih sistemih. [1, 6, 25]
2.1 PROCES ETL ETL ali pridobivanje, preoblikovanje in nalaganje (ang. Extract Transform Load) je proces potreben za
nalaganje podatkovnega skladišča. Proces ETL je eden izmed najpomembnejših procesov, ki je skupaj
s podatkovnim skladiščem pomemben sestavni del vsakega sistema za poslovno obveščanje. Vendar
pa je ta proces tudi najbolj zapostavljen, sploh s strani naročnika, ker ne pozna njegove zmožnosti in
zaradi tega prihaja do napak pri izvajanju.
ETL vsebuje funkcije, ki nam izvorne podatke iz izvornih sistemov preoblikuje v uporabne
informacije, ki bodo shranjene v podatkovnem skladišču. Te informacije so pomembne pri
pridobivanju pomembnih strateških informacij za podjetje. Vendar pa, če izvorni podatki niso pravilno
preoblikovani, izvlečeni, prečiščeni in naloženi na pravilen način, bodo podatki v podatkovnem
skladišču netočni ali napačni.
Proces ETL vključuje:
1) pridobivanje (ekstrakcija) podatkov iz zunanjih virov (angl. extract),
2) preoblikovanje (transformacija) podatkov v skladu s poslovnimi potrebami (angl.
transform) in
3) nalaganje podatkov v podatkovno skladišče (angl. load).
Proces ETL potrebuje za izgradnjo podatkovnega skladišča kar 70 do 80 odstotkov časa. Ko so
podatkovna skladišča v produkcijski rabi, se proces ETL izvede kar avtomatično; periodično se sproži
na podatkovni bazi in poskrbi, da se podatki iz operativnih sistemov naložijo v podatkovna skladišča.
Ker se podatki lahko ves čas spreminjajo, je priporočljivo, da se sistem nadgradi s sistemom za
upravljanje polnjenja, ki administratorju podatkovnih skladišč pregledno pokaže, kateri podatki so se
naložili in spremenili ter kateri ne.
10
Proces ETL je zelo zahteven in kompleksen. Največji problem predstavlja obseg podatkov in njihovo
zajemanje, saj so v večini primerov razpršeni po različnih transakcijskih sistemih. [4, 9, 25]
Nekaj razlogov za težavnost procesa ETL:
- raznolikost in neskladnost izvornih sistemov,
- izvorni sistemi se lahko nahajajo na različnih platformah in v različnih
operacijskih sistemih,
- večina izvornih sistemov vsebuje stare aplikacije, ki tečejo na zastarelih
podatkovnih tehnologijah,
- izvorni sistemi ne hranijo predhodnih podatkov, ko se podatki spremenijo,
- natančnost podatkov je vprašljiva v sistemih, ki so nastajali dlje časa,
- zaradi novih poslovnih zahtev se spreminja struktura izvornih sistemov, pri čemer
pa moramo ustrezno prilagoditi tudi že delujoči proces ETL. [25]
2.1.1 PRIDOBIVANJE PODATKOV
Ekstrakcija podatkov oz. pridobivanje, zajemanje podatkov pomeni, da podatke najprej izvlečemo iz
izvornih sistemov, nato pa jih ustrezno preoblikujemo. Preverimo tudi kakovost podatkov. Podatke, ki
jih ne potrebujemo, zavržemo. Prečiščene podatke naložimo v podatkovna skladišča.
Pridobivanje podatkov je prva faza procesa ETL. Podatke pri večini podatkovnih skladišč zajemamo
oziroma pridobivamo iz različnih sistemskih virov. Sistemski viri so po navadi ločeni, vsak pa ima
lahko različno strukturo in obliko podatkov. Najpogosteje se uporabljajo relacijske podatkovne baze in
nepovezane datoteke. Proces ekstrakcije se izvaja vsakodnevno, pri tem pa moramo paziti, da ne
preobremenimo izvornega sistema v času, ko se izvajajo tekoča opravila. [18, 25]
2.1.2 PREOBLIKOVANJE
Ko podatke zajamemo iz izvornega sistema, še niso primerni in pripravljeni za nalaganje v
podatkovno skladišče. Zajete podatke moramo preoblikovati na način, da ustrezajo tako poslovnim
zahtevam kot tudi zahtevam skladišča. Določene podatke, ki jih zajamemo, je potrebno izboljšati,
dopolniti, saj je kvaliteta teh podatkov v starejših sistemih vprašljiva.
Preden podatke uporabimo, morajo v podatkovnem skladišču iti skozi številne pretvorbe oziroma
skozi številna preoblikovanja. Največ časa in dela nam vzame proces izboljšanja kvalitete podatkov.
Posledice preoblikovanja podatkov se vidijo pri analizah in pri sprejemanju dobrih ali slabih poslovnih
odločitev. [18, 25]
11
Glavne naloge transformacije (preoblikovanja) so:
- selekcija,
- razcepitev/združenje,
- pretvorba,
- seštevanje,
- oplemenitenje (izboljšanje). [25]
2.1.3 NALAGANJE
Proces nalaganja je zadnja faza v procesu ETL. V koraku nalaganja oziroma polnjenja naložimo
preoblikovane in očiščene podatke v podatkovno skladišče. Obseg procesa je odvisen od velikosti
podjetja (organizacije) in od njegovih zahtev. Nalaganje zahteva veliko časa, saj v času nalaganja
podatkovno skladišče ne sme biti dostopno za ostale uporabnike. Za nalaganje je potrebno najti
ustrezen časovni termin. Ker je to dolgotrajen postopek, je potrebno dobro premisliti o razdelitvi
procesa. Lahko ga izvajamo vzporedno, kar pomeni, da v podatkovno skladišče naložimo več manjših
paketov podatkov. Del podatkovnega skladišča, v katerem so podatki že naloženi, lahko uporabljamo,
medtem ko se v ostalem delu izvaja proces nalaganja. [4,18, 25]
3. ZGODOVINA
Koncept skladiščenja sega v pozna 80-ta leta, ko sta IBM-ova raziskovalca Barry Devlin in Paul
Murphy razvila poslovno podatkovno skladišče. Razvit koncept je bil namenjen zagotavljanju
arhitekturnega modela za tok podatkov iz operacijskega sistema za določitev podpore različnih okolij.
Koncept poskuša razjasniti probleme, povezane s tem tokom, v glavnem stroške le-tega. Ker
arhitekture skladiščenja podatkov ni bilo, je bila zahtevana ogromna odpravnina za podporo večjih
določitev podpore različnih okolij. V večjih podjetjih je bilo to običajno za neodvisno delovanje teh
odločitev. Vsako okolje je postreglo z različnimi uporabniki, vendar pogosto zahtevalo mnogo enakih
shranjenih podatkov. Proces zbiranja, čiščenja in integriranja podatkov različnih virov (navadno
dolgoročno obstoječih operativnih sistemov - vgrajenih sistemov) je bil tipično delno obnovljen za
vsako okolje. Po vrhu vsega pa so se pojavile nove zahteve in operativni sistemi so bili ponovno
preučeni kot nova odločitev. Potrebne zahteve zbiranja, čiščenja in integriranja novih podatkov so bile
pogosto prilagojene za hiter dostop uporabnikov.
12
Nekaj ključnih dogodkov v prvih letih skladiščenja podatkov:
- 1960 General Mills in Dartmount College v projekt skupnih raziskav razvijeta pogoja
(dimenzije) in (dejstva).
- 1970 Cnielsen zagotovi dimenzijske podatke za prodajo na drobno.
- 1983 Teradata uvaja sistem upravljanja baze podatkov, posebej za podporo odločanju.
- 1988 Barry Develin in Paul Murphy objavita članek Arhitekture za poslovne in informacijske
sisteme v IBM Sistem časopisu, kjer uvedejo izraz 'poslovanje skladiščenja podatkov'.
- 1990 Red Brick Systems uvaja Red Brick Warehouse, upravljanje podatkovnih baz posebej za
skladiščenje podatkov.
- 1991 Rešitve Prism uvajajo Prism Warehous Manager, programsko opremo za razvoj
podatkovnega skladišča.
- 1991 Bill Inmon objavi knjigo Izgradnja podatkovnih skladišč.
- 1995 je utemeljen 'The Data Warehouse Institute'; to je neprofitna organizacija, ki spodbuja
skladiščenje podatkov.
- 1996 Ralph Kimball objavi knjigo The Data Warehouse Toolkit.
- 1997 Oracle 8 s podporo zvezdne poizvedbe
Izumitelja podatkovnih skladišč in svetovno priznana strokovnjaka sta William H. Inmon in Ralph
Kimball. Slednji je avtor tem o skladiščenju podatkov in poslovne inteligence. Na splošno velja za
enega prvih arhitektov skladiščenja podatkov in pravi, da morajo biti podatkovna skladišča zasnovana
razumljivo in hitro.[6]
4. ARHITEKTUA PODATKOVNIH SKLADIŠČ
Ni prave ali napačne arhitekture, pač pa je več arhitektur, ki obstajajo v podporo številnim okoljem in
situacijam. Vrednost arhitekture ocenimo na podlagi zgradbe, vzdrževanja in uporabe podatkovnih
skladišč.
Arhitektura podatkovnih skladišč sestoji iz sledečih medsebojnih plasti:
- operativna baza podatkov; viri podatkov za podatkovno skladišče. Sem spadajo operativni
sistemi in zunanji viri (slika 1).
- plast dostopa do podatkov; vmesnik med informativno in informacijsko plastjo dostopa.
Sem spadajo orodja za pridobivanje, preoblikovanje in nalaganje podatkov v skladišče.
13
- plast meta podatkov; imenik podatkov (slika 1).
Je navadno bolj podroben kot operativni sistemi podatkov. Tu so slovarji za celotno skladišče in
včasih slovarji za podatke, ki so dostopni z orodjem poročanja in analize.
- Plast informacijskega dostopa; podatki dostopni za poročanje in analiziranje ter orodje za
poročanje in analiziranje podatkov.
Sem spada orodje poslovne inteligence in tudi razlike o metodologiji oblikovanja. [4, 6]
Slika 1: Tipična arhitektura podatkovnih skladišč.
Vir: : http://dataminingtools.net/wiki/introdw.php
Zgornja slika prikazuje da podatki v podatkovnem skladišču prihajajo iz baze operacijskih
sistemov pa tudi od drugih zunanjih virov. Ti podatki ki gredo skozi proces ETL, kjer podatke
pridobijo, jih preoblikujejo in nalagajo. Podatki se shranijo v podatkovno skladišče. To
uporabimo za analize, poročila in podatkovno rudarjenje.
4.1 NORMALIZIRAN PRISTOP V PRIMERJAVI Z DIMENZIONALNIM PRISTOPOM
Obstajata dva vodilna pristopa k shranjevanju podatkov v podatkovno skladišče: dimenzionalni pristop
in normalizirani pristop.
V dimenzionalnem pristopu so podatki o poslovnem dogodku razdeljeni na 'dejstva', ki so v glavnem
številski podatki o poslovnem dogodku, ali na 'dimenzije', ki so referenčne informacije, ki dejstva
uvrščajo v kontekst.
14
Podatki, ki jih za opravljanje izpita na fakulteti potrebujemo, so dejstva: število študentov prijavljenih
na izpit, imena študentov, indeks število, datum prijave na izpit, ime predmeta, ime profesorja.
Prednost tega pristopa je v tem, da je podatkovno skladišče uporabniku lažje razumljivo in tako lažje
za uporabo. Tudi iskanje podatkov iz skladišča po navadi poteka hitreje.
Glavne pomanjkljivosti pristopa pa so:
- Predvsem ohranitev integracije dejstev in dimenzij zaradi različnih operativnih sistemov za
nalaganje podatkov v skladišča, ki so zelo kompleksni.
- Težavno spreminjanje strukture podatkovnega skladišča, če organizacija, ki sprejme ta pristop,
spremeni način poslovanja.
Podatki so v skladišču shranjeni po pravilih glede na stopnjo normalizacije baze podatkov. Tabele so
sestavljene po področjih, ki odsevajo splošne kategorije podatkov (podatki o strankah, izdelkih,
financah ... ). Glavna prednost tega pristopa ja enostavnost dodajanja podatkov v bazo. Pomanjkljivost
pa je, da je zaradi števila vključenih tabel za uporabnike težje združevanje podatkov iz različnih virov
in težje dostopanje do informacij brez natančnega razumevanja virov podatkov in strukture podatkov v
skladišču.
Ta dva pristopa se medsebojno ne izključujeta, obstajajo pa tudi drugi pristopi. Dimenzionalni pristopi
vključujejo normalizacijo podatkov do določene mere. [2, 6]
4.2 SKLADNOST INFORMACIJ
Skladna dimenzija je dimenzija, katere značilnost je, da ima enoličen pomen, ne glede na to, s katero
tabelo dejstev jo povežemo in zagotavlja, da je podatek predstavljen le enkrat. [5]
Vprašanje je, kako uskladiti podatke. Na primer prvi operativni sistem za shranjevanje podatkov lahko
uporabi 'M' in 'Ž' za označevanje spola zaposlenega, medtem ko drugi operativni sistem lahko uporabi
oznaki 'moški' oziroma 'ženski'. Čeprav je to preprost primer, je ogromno dela pri usklajevanju
podatkov. Uporabljajo se orodja za pridobivanje, preoblikovanje in nalaganje informacij.
Cilj upravljanja s podatki je torej uskladiti podatke, ki jih uporabimo kot mere ali dimenzije. [6]
15
4.3 OD ZGORAJ NAVZDOL V PRIMERJAVI Z OD SPODAJ NAVZGOR METODOLOGIJO OBLIKOVANJA
4.3.1 Od spodaj navzgor ali pristop, imenovan distribuirana arhitektura (angl. Bottom-up design)
Ralph Kimball je zagovornik pristopa od spodaj navzgor. Njegova teorija pravi da, je podatkovno
skladišče skupek vseh podatkov znotraj podjetja. Informacije pa so vedno shranjene v
dimenzionalnem modelu. [21]
Področna skladišča ali manjše podatkovne shrambe ali (angl. Data marts), ki jih ustvarimo, zagotovijo
podatke za analize in poročanja za specifične poslovne procese. Podatki vsebujejo dimenzije in
dejstva. Isti podatki vsebujejo tudi osnovne podatke in po potrebi prevzete podatke. Sčasoma se
podatki združijo z namenom ustvariti celovito podatkovno skladišče.
Tako hitro, kakor se lahko ustvarijo podatki, se lahko spremeni poslovna vrednost. Ohranjanje
nadzora nad zgradbo podatkovnega skladišča je temeljnega pomena za ohranitev celovitosti popolnega
podatkovnega skladišča. Najpomembnejša naloga upravljanja pa je zagotavljanje, da so dimenzije med
podatki dosledne. S Kimballovimi besedami to pomeni, da se dimenzije skladajo.[6]
Področno skladišče je podmnožica podatkovnega skladišča določene organizacije. V distribuirani
arhitekturi je podatkovno skladišče vsota vseh področnih skladišč. Področno skladišče igra ponavadi
vlogo oddelčnega, krajevnega ali funkcionalnega podatkovnega skladišča in podpira eno ali več
specifičnih področij.
Področna skladišča postavljajo natančno določene oblikovalske zahteve. Vsako mora biti
predstavljeno z dimenzijskim delom, ki mora biti znotraj enotnega podatkovnega skladišča skladen.
Glavna naloga vseh, ki načrtujejo podatkovnega skladišča pri oblikovanju distribuirane arhitekture
podatkovnega skladišča je vzpostavitev, objava in vzdrževanje skladnih dimenzij in zagotavljanje
njihove dosledne uporabe. Brez upoštevanja pravil skladnih dimenzij podatkovno skladišče ne more
delovati kot povezana celota.[5]
Torej, distribuirana arhitektura temelji na množici povezanih, vendar samostojnih področnih shramb,
ki tvorijo podatkovno skladišče. Pomembno je, da obstaja skupno podatkovno vodilo, ki omogoča
izgradnjo podatkovnega skladišča. [6]
16
4.3.1.1 Podatkovni model v distribuirani arhitekturi podatkovnega skladišča
Struktura podatkovnih skladišč je denormalizirana, v nekaterih primerih pa delno normalizirana.
Osnovni podatkovni model je dimenzijski, za osnovno modelirno tehniko pa uporabljamo dimenzijsko
modeliranje.
Dimenzije, še posebej skladne, imajo navadno osnovne podatke. To so podatki, ki imajo najnižjo
raven podrobnosti in so shranjeni v podatkovnem skladišču. To pomeni, da morajo biti tudi osnovne
tabele dejstev na najnižjem nivoju, ki obstaja med pripadajočimi dimenzijami. To pa nam omogoča, da
podatki lažje prehajajo iz operativnih podatkovnih baz v tabele dejstev. [6]
4.3.1.2 Ostale posebnosti
Arhitektura omogoča precej hitro gradnjo prvega področnega skladišča, ki ima velik poslovni vpliv in
ga je in ga lahko enostavno izvedemo. Iz poslovnih zahtev so razvidne analize, ki jih organizacije
potrebujejo. Tak pristop je pomemben, ker nam omogoča, da v kratkem času pridobimo delujoče
podatkovno skladišče in tako tudi podporo vseh uporabnikov. To pa nam omogoča gradnjo novega
področnega skladišča.[5]
4.3.2 Od zgoraj navzdol ali pristop, imenovan centralizirana arhitektura (angl. Top-down design)
Eden prvih avtorjev na področju skladiščenja podatkov je Bill Inmon, ki je definiral podatkovno
skladišče kot centralno skladišče celotnega podjetja. Je eden izmed vodilnih zagovornikov pristopa od
zgoraj navzdol pri oblikovanju podatkovnega skladišča, v katerem je le-to oblikovano z uporabo
normaliziranega modela podatkov.
Po mnenju Inmona je podatkovno skladišče del sistema splošne poslovne inteligence. Je center
sistema, ki ponuja logično orodje za zagotavljanje poslovne inteligence in upravljanje poslovne
zmogljivosti. [6]
Podjetje ima le eno podatkovno skladišče, in podatki iz podatkovnega skladišča so vir. [21]
Izjavlja, da je podatkovno skladišče:
SUBJEKTIVNO ORIENTIRANO
- Podatki so orientirani tako, da se vsi elementi podatkov povezujejo z naslednjim dogodkom ali
predmetom. Vsi ti elementi so med seboj povezani.
17
NEOHLAPNO
- Podatki v skladišču niso nikoli prepisani ali izbrisani. Ko so enkrat v skladišču, so statični,
samo za branje in jih hranijo za nadaljnje poročanje.
INTEGRIRANIO
- Podatkovno skladišče vsebuje podatke iz večine ali celotnega operativnega sistema in ti
podatki so usklajeni.
Metodologija od zgoraj navzdol ustvari usklajene dimenzionalne poglede podatkov, saj so le-ti
naloženi iz centralnega skladišča. Ta pristop je izkazal tudi zanesljivost pri spremembah v poslovanju.
Ustvarjanje novih dimenzionalnih podatkov v primerjavi s podatki, ki so shranjeni v podatkovnem
skladišču, je relativno lahka naloga. Glavna pomanjkljivost pri tem pristopu je, da predstavlja zelo
velik projekt z zelo širokim obsegom. Trajanje projekta od samega začetka in vse do točke, ko končni
uporabniki izkusijo začetne prednosti, je lahko dolgo. Poleg tega je lahko ta metodologija
neprilagodljiva in se ne odziva na potrebe oddelka med fazami izvedbe.
Torej, centralizirano podatkovno skladišče je sestavljeno iz osrednjega podatkovnega skladišča in iz
množice področnih skladišč. Značilnost te arhitekture je, da se področna skladišča polnijo izključno iz
osrednjega. [6]
4.3.2.1 Načrtovanje in gradnja centraliziranega podatkovnega skladišča
Razlike med operativnim svetom in sistemom podatkovnega skladiščenja so močno vidne iz opisa
razvojnih ciklov. Operativno okolje je podprto s klasičnim razvojnim ciklom, ki ga vodijo zahteve. Te
zahteve je potrebno dobro razumeti, da lahko preidemo v faze načrtovanja in razvoja. Razvojni cikel
podatkovnega skladišča je podatkovno voden, pričnemo ga s podatki. Po tem ko so podatki združeni,
pogledamo, če je potrebno njihovo dodatno usklajevanje. Ko so rezultati programov analizirani, šele
na koncu razumemo zahteve. Vidimo, da je vrstni red posameznih faz razvojnega cikla in okolja
podatkovnega skladišča tako popolnoma obrnjen. [2, 5]
4.3.2.2 Podatkovni model v centralizirani arhitekturi podatkovnega skladišča
Struktura podatkovnega skladišča je normalizirana, v nekaterih primerih pa je delno denormalizirana.
To pomeni delno odstopanje od zahtev po doseganju tretje normalne oblike. Kako to uredimo, je
opisano v naslednjih korakih:
18
- Kjer je znano, da se bodo odvečni podatki redno uporabljali skupaj z drugimi podatki in to
tudi dovoljujemo.
- Kjer so enkrat izračunani podatki večkrat uporabljeni.
- Če sklepamo, da bodo neke skupine podatkov pogosto uporabljene skupaj, izdelamo zanje nov
skupen prostor. Tako lahko npr. mesečne podatke za mesece od januarja do decembra fizično
nakopičimo samo na eno lokacijo in s tem poenostavimo dostop.
- Če sklepamo, da se verjetnost dostopa do posameznih elementov pri uporabi bistveno
razlikuje in zato izvedemo ločitev podatkov. [2, 5]
4.3.2.3 Področno skladišče in operativna podatkovna hramba v centralizirani arhitekturi podatkovnega skladišča
Operativna podatkovna shramba je v tej strukturi eden izmed podatkovnih virov podatkovnega
skladišča. Je hibridna struktura, ki izpolnjuje hibridne in analitična zahteve. Nudi kratek transakcijski
odzivni čas, hkrati pa je tudi prostor združenih podatkov. V primerjavi s podatkovnimi skladišči
izpolnjuje zahteve po predmetni usmerjenosti, združenosti, ne vsebuje pa zgodovinskih podatkov,
ampak le trenutne, aktualne in podrobne podatke določene organizacije.
Ker izhaja iz arhitekture centraliziranega podatkovnega skladišča je osrednje podatkovno skladišče
edini vir podatkov za področno skladišče.[5]
4.3.2.4 Osnovne značilnosti, ki ločujejo področno in podatkovno skladišče
Te so:
- Podatkovno skladišče vsebuje zelo veliko količino podrobnih podatkov daljšega obdobja v
enostavnih strukturah, področno skladišče pa le združene podatke za določeno časovno
obdobje v preteklosti v veliko bolj zapletenih strukturah.
- Strukture podatkovnega skladišča so namenjene neznani uporabi, strukture področnega
skladišča so načrtovane za točno določene, znane namene.
- Področna skladišča so manjša.
- Podatkovno skladišče ne vsebuje samo istovrstnih podatkov, ampak tudi skupne podatke
poslovanja celotne organizacije. [5]
19
4.3.3 Hibridna rešitev ali pristop, imenovan federativna arhitektura ali kombiniran pristop
Zagovorniki obeh pristopov od zgoraj navzdol (ali centralizirana arhitektura) in spodaj navzgor (ali
distribuirana arhitektura) so spoznali, da imata oba ugodnosti in tveganja. Hibridna metodologija se je
razvila, da bi izkoristila hiter časovni preobrat pristopa od spodaj navzgor in široko (podjetno)
usklajenost podatkov pristopa zgoraj navzdol. Za izbiro pravilne, učinkovite in ustrezne arhitekture
podatkovnega skladišča, ki zagotavlja primerne odzivne čase in ustrezno izbiro virov, je obvezno
poznavanje lastnosti posameznih arhitektur, njihovih prednosti in pomanjkljivosti. Pravilna odločitev
zmanjša tveganje, znižuje stroške izgradnje in vzdrževanja ter omogoča optimalno delovanje. [6]
4.3.3.1 Gradnja hibridnega ali federativnega podatkovnega skladišča
1. Obdelovanje obstoječih sistemov podatkovnih in področnih skladišč lahko prikažemo v
diagramu, ki prikazuje sisteme in vse podatkovne tokove med njimi.
2. Obdelovanje obstoječih sistemov na nivoju toka podatkov vključuje podatkovni tok,
pripadajoče korake povezovanja in združevanja ter hrambo meta podatkov. Vsak podatkovni
element mora biti ocenjen, preverjena kakovost, razpoložljivost in enostavnost dostopa.
3. Določitev podatkov, ki prinašajo dodatno vrednost in imajo dovolj velik pomen v celotnem
sistemu.
4. Zbiranje podatkov iz prejšnjega koraka in analiziranje njihovega vpliva in možnosti za
izvršitev. V tem koraku se tudi izbere ustrezne kandidate, ki najbolj prispevajo k strateškemu
načrtu organizacije in so tudi najbolj tvegani. Podatke, ki jih uporablja le majhna količina
uporabnikov, izpustimo.
5. Izvedba orodja za zajem, preoblikovanje in nalaganje podatkov, ki podpira skupno, celotno
shrambo meta podatkovnih sistemov in področnih skladišč.
6. Sledi gradnja manjše federativne arhitekture in nato analiza in poročilo narejenega. To
potrebujemo za nadaljnje združevanje. Te združitve morajo biti majhne in se morajo
osredotočiti na najbolj pomembne točke poslovanja. [2, 5]
20
Metapodatki
Izvornipodatki
Zajem
Transformacija
Področjapripravepodatkov
Neodvisnepodročneshrambe
Centraliziranopodatkovnoskladišče
Odvisnepodročneshrambe
Skupni informacijskimodel
Metapodatki
OLAPorodja
Slika 2: Federativna arhitektura podatkovnih skladišč.
Vir: Izidor Golob, Tatjana Welzer, Arhitekture podatkovnih skladišč
5. PODATKOVNO SKLADIŠČE V PRIMERJAVI Z OPERATIVNIM SISTEMOM
Operativni sistemi so pomembni za ohranitev popolnosti podatkov in hitrosti snemanja poslovnih
transakcij skozi uporabo normalizacije baze podatkov in podjetnega modela odnosov. Oblikovalci teh
sistemov navadno sledijo Coddovim pravilom normalizacije podatkovne baze z namenom zagotoviti
celovitost podatkov. E. F.Codd je bil angleški računalničar, ki je izumil relacijski model za upravljanje
baz podatkov in teoretično podlago za relacijske zbirke podatkov. Codd je definiral pet strogo
naraščajočih pravil normalizacije. Polno normalizirane oblike podatkovne baze (tiste, ki zadovoljujejo
vseh pet pravil) se pogosto odražajo v informacijah in poslovnih transakcijah, shranjene v ogromnem
številu tabel. Relacijske podatkovne baze so učinkovite v upravljanju odnosov med temi tabelami.
21
Baze imajo zelo hiter vnosni, nadgradnji čas, kjer je le majhna količina podatkov teh tabel
uporabljenih vsakokrat, ko se obdela transakcija. Na koncu so starejši podatki, ki so z namenom
izboljšati učinkovitost, po navadi periodično odstranjeni iz operativnega sistema.
Podatkovna skladišča so optimizirana za hitrost analize podatkov. Pogosto so podatki v skladišču
denormalizirani preko dimenzioniranega dela. Da bi pospešili iskanje podatkov, so v skladiščih le-ti
večkrat shranjeni v njihovih najbolj enovitih in povzetih oblikah, ki jih imenujemo agregati. Isti
podatki, podatki iz skladišč, so zbrani iz operativnega sistema in v skladišču shranjeni tudi potem, ko
so bili iz sistema odstranjeni. [6, 24]
5.1 RAZVOJ PODATKOVNIH SKLADIŠČ V ORGANIZACIJSKI UPORABI
Organizacije v glavnem začnejo z relativno preprosto uporabo skladiščenja podatkov. Čez čas pa
razvijejo tudi bolj prefinjene oblike skladiščenja podatkov.
Splošne stopnje uporabe podatkovnih skladišč se delijo na:
- Operativna podatkovna baza
V tej začetni fazi so podatkovna skladišča razvila kopiranje podatkov iz operacijskega sistema na drug
strežnik, kjer prenos podatkov obremeni opravila operativnega sistema.
- Odklučno (angl. Off line) podatkovno skladišče
Skladišče je v tej fazi nadgrajeno s podatki operativnega sistema, na ravni redne baze in podatki iz
skladišča so shranjeni v podatkovne strukture, zasnovane za lažje poročanje.
- Časovno realna podatkovna skladišča
V tej fazi so skladišča nadgrajena vsakokrat, ko operativni sistem opravi transakcijo (naročilo,
dostavo, rezervacijo pošiljke).
- Integrirano podatkovno skladišče
V tej fazi podatkovno skladišče zbere podatke iz različnih področij poslovanja, tako lahko uporabnik v
drugih sistemih poišče informacije, ki jih potrebuje.
PREDNOSTI
Prednosti, ki jih ponuja podatkovno skladišče:
- Je navaden podatkovni model za podatke, ne glede na vir podatkov. Tako je poročanje in
analiza informacij lažja, kot če bi obstajalo več podatkovnih modelov za pridobivanje
informacij ( na primer: prodajni računi, naročilnice ... ).
- Podatki se nalagajo v skladišče, problemi pa so identificirani in razrešeni. To pa zelo
poenostavi poročanje in analizo.
22
- Informacije v skladišču so pod nadzorom uporabnikov skladišča tudi, če je sistem virov
podatkov čez čas odstranjen. Informacije so lahko varno shranjene za daljšo časovno obdobje.
- Ker so podatki ločeni od operativnega sistema, podatkovna skladišča ponujajo iskanje
podatkov brez upočasnjevanja operativnega sistema.
- Podatkovna skladišča lahko delujejo v povezavi z izboljšanjem vrednosti operativnih
poslovnih aplikacij, zlasti s sistemom upravljanja odnosa s strankami.
- Podatkovna skladišča lajšajo odločitve aplikacij podpornega sistema, kot je trend poročila (na
primer postavke z večino prodaje na določenem območju v zadnjih dveh letih), razen pri
poročilih, ki prikazujejo dejansko uspešnost v primerjavi s cilji. [3,6]
POMANJKLJIVOSTI
Nekatere pomanjkljivosti podatkovnega skladišča:
- Podatkovna skladišča niso optimalno okolje za nestrukturirane podatke.
- Podatki v skladišču imajo v času svojega obstoja visoke stroške.
- Podatki v skladišču lahko relativno hitro zastarajo. Tukaj se pojavi strošek dostave
neoptimalnih podatkov.
- Pogosto je majhna razlika med podatkovnim skladiščem in operativnim sistemom.
PRIMERI APLIKACIJ
Nekaj primerov aplikacij, v katerih se lahko uporabijo podatkovna skladišča:
- analiza kreditne kartice,
- analiza prevare zavarovanja,
- analiza zapisa (seznama) klicev,
- upravljanje logistike. [6]
6. OLAP
OLAP kocka je vizualni model za oblikovanje podatkov v podatkovnih skladiščih. OLAP
(angl.OnLine Analytical Processing) pomeni sprotna analitična obdelava. Je programska oprema ali pa
tudi postopek, ki je vgrajen v programsko opremo, ki nam omogoča, da v zelo kratkem času
analiziramo veliko količino podatkov. Podatke prikazuje večrazsežno. Taki strukturi pravimo OLAP
kocka. [8]
23
6.1 OLAP KOCKA OLAP kocka je osnovna podatkovna struktura v večdimenzionalnem sistemu OLAP. Predstavlja
oziroma prikazuje nam množico podatkov, ki so shranjeni in prikazani na večdimenzionalen način.
Kako je zgrajena kocka, natančno opisujejo množice dimenzij in merila. S pomočjo dimenzij
analiziramo podatke, merila pa predstavljajo vrednost ali velikost podatka, ki ga analiziramo.
Množica podatkov kocke je sestavljena iz podmnožice podatkov podatkovnega skladišča. Podmnožice
podatkovnega skladišča so pomembne, ker taka baza s podmnožicami ni preobremenjena s tekočimi
podatki in je bolj primerna za procesiranje kock kot živa baza. Baza podatkovnega skladišča se po
potrebi polni v nekem določenem časovnem intervalu. Na primer: lahko jo polnimo dnevno, tedensko,
mesečno ali letno. Tako se tudi procesiranje kock izvaja v nekem določenem časovnem intervalu. Še
preden pa ima uporabnik dostop do kocke, si kocka pri procesiranju pripravi tabelo oziroma strukturo,
ki vsebuje vnaprej preračunane podatke. [8]
Slika 3: Primer olap kocke.
Slika prikazuje primer enostavne kocke s tremi dimenzijami in eno meritvijo. Vsaka kocka vsebuje
shemo. [8]
6.2 PODATKOVNI MODEL – KOCKE IN PODATKOVNEGA SKLADIŠČA
Shema kocke je množica povezanih tabel v podatkovnem skladišču, iz katerih kocka črpa vir
podatkov. Shema kocke vsebuje več tabel, tabelo dejstev in tabele dimenzij. Tabela dejstev se nahaja v
24
središču sheme in ima svoj vir v meritvah kocke. Tabele dimenzij pa imajo vir v dimenzijah kocke.
Meritve in dimenzije torej tvorijo množico tabel, ki se imenuje shema kocke. Vsaka shema kocke je
sestavljena iz tabele dejstev in ene ali več tabel dimenzij.
Poznamo dva tipa podatkovnih modelov za podatkovna skladišča. Prvi je zvezdna shema in drugi je
snežinkasta shema. [8]
6.2.1 ZVEZDNA SHEMA
Zvezdna shema je dobila ime po obliki podatkovnega modela, kjer so tabele v modelu razporejene v
obliki zvezde. Ta model vsebuje glavno (osrednjo) tabelo, imenovano tabela dejstev, ki je obkrožena z
večjim številom dimenzijskih tabel.
Primer na spodnji sliki (slika 4) prikazuje, da tabela dejstev zajema podatke o študentu in ključe vseh
dimenzij, preko katerih je tabela dejstev povezana z ostalimi dimenzijskimi tabelami. V tem primeru
zvezdne sheme so to študent, delavec, naslov, izpiti in fakulteta.
Tabela dejstev vsebuje poleg ključev, preko katerih je povezana z ostalimi dimenzijskimi tabelami,
tudi dva atributa, ki vsebujeta vrednost. [8]
25
Slika 4: Primer zvezdne sheme.
6.2.2 SNEŽINKASTA SHEMA
Iz zvezdne sheme izpeljemo model snežinkaste sheme. Dimenzijske tabele v snežinkasti shemi
vsebujejo normalizirane podatke, to pa dosežemo z dodatno tabelo in s tem preprečimo podvajanje
atributov. S tem prihranimo prostor za shranjevanje podatkov, saj se zmanjša število zapisov v tabelah,
izgubimo pa učinkovitost. Snežinkasta shema ni tako priljubljena kot zvezdna. Njena največja težava
je kompleksnost poizvedb, kar je posledica bolj zapletenega podatkovnega modela. Kompleksnejše
poizvedbe podaljšujejo čas izvedbe in zmanjšujejo učinkovitost. [8]
26
Slika 5: Primer snežinkaste sheme.
6.2.3 PRIMERJAVA ZVEZDNE IN SNEŽINKASTE SHEME
Največja razlika med zvezdno in snežinkasto shemo se pokaže pri določanju dimenzijskih tabel. V
dimenzijskih tabelah, kjer se vrednosti v poljih posameznih atributov ponavljajo, takšne ponavljajoče
atribute prenesemo v pomožno tabelo. Ta pomožna tabela je z dimenzijsko tabelo povezana s ključem.
Normalizacija v nadaljevanju lahko sledi tudi v pomožni tabeli, tako da k tej tabeli povežemo še eno
pomožno tabelo. [8]
6.3 DIMENZIJE OLAP KOCKE
Vsaka kocka vsebuje dimenzije. V bazi podatkov je vsaka dimenzija predstavljena kot dimenzijska
tabela. Vsaka vsebuje atribute, ki opisujejo to posamezno dimenzijo. Vsaka dimenzija vsebuje enega
ali več nivojev, po katerih je dovoljeno spuščanje in dviganje, torej premikanje po eni dimenziji. S tem
je omogočeno, da si podatke pogledamo na različnih hierarhičnih nivojih. Dimenzije kategorizirajo
podatke kock na hierarhičen način, sestavljene so iz več nivojev. Nivo je naziv množice članov v
hierarhični dimenziji, kjer so vsi člani množice enako oddaljeni od korena do hierarhije. Pa si
poglejmo primer.
27
Razširimo časovno dimenzijo. V tem primeru bo vsebovala tri nivoje. Pri datumu diplomiranja nam
zadostujejo trije nivoji. To so:
1. Leto
2. Mesec
3. Dan
V našem primeru bodo nivoji oziroma množice članov vsebovali naslednje člane:
1. V nivoju Leto bomo imeli člane 2010, 2011, 2012.
2. V nivoju Mesec bomo imeli člane Januar, Februar, Marec ..., December.
3. V nivoju Dan bomo imeli merila od prvega do zadnjega dneva v mesecu. To merilo je odvisno od
vnosa zadnjega datuma diplomiranja, če delamo analizo nad operativno bazo. Če pa delamo analizo
nad podatkovnim skladiščem, bo zadnji tisti datum, ko je bilo zadnje polnjenje iz operativno baze
podatkov v podatkovno skladišče.
Posamezni členi so znotraj dimenzije urejeni hierarhično. Tako je nadrejeni člen vedno seštevek vseh
njemu podrejenih členov. Iz stolpcev tabele dimenzije so izpeljani nivoji, ki razvrščajo člane po
hierarhiji. V vsaki posamezni dimenziji so podatki prikazani od najvišjega do najnižjega, torej od
najbolj splošnega do najbolj podrobnega.[8]
Slika 6: Primer hierarhične predstavitve dimenzij, ki vsebujejo več kot en nivo.
Privatna dimenzija je dimenzija, ki se uporablja samo v eni kocki. Kocka te dimenzije ne deli z drugo
kocko.
28
Deljene dimenzije si kocke lahko delijo med seboj. Pogosto si kocke delijo med seboj časovne
dimenzije. [8]
6.4 MERILA (ANGL. MEASURES) V OLAP KOCKI
Množica vrednosti v kocki, ki temelji na stolpcu v tabeli dejstev kocke in so pogosto numerična, so
merila kocke. Vrednosti za vsaka merila vsebuje celica kocke, ki je najosnovnejši element kocke. Za
merila je podana funkcija agregacije, s pomočjo katere se določa, na kakšen način so vrednosti iz
nižjih nivojev združene na višjem nivoju. Kocka lahko vsebuje več meril.
Agregacije vnaprej izračunamo in shranimo povzetke podatkov, ki izboljšajo odzivne čase poizvedb.
Agregacije podatkov uporabljamo pri zahtevnejših analizah, ko želimo sproti prikazati čim več
informativnih in izpeljanih podatkov. [8]
6.5 OLAP IN PODATKOVNA SKLADIŠČA
Vloga tehnologije OLAP je, da iz velike količine podatkov izlušči pravila ali dejstva, ki jih na prvi
pogled ne opazimo. Primerna je za obdelavo velike količine ustrezno pripravljenih podatkov iz sistema
OLTP (transakcijski procesni sistem). Ta sistem je osnovni poslovni sistem, ki deluje na operacijskem
nivoju podjetja. Pomemben je za izvajanje dnevnih opravil v podjetju, ki so potrebna za normalno
delovanje ali poslovanje.
Sama uporaba OLAP tehnologije v transakcijskem sistemu OLTP nam ne bi prinesla pravilnih
rezultatov, zato se tehnologija OLAP vedno uporablja s podatki v podatkovnem skladišču. [23]
6.6 UČINKOVITA UPORABA OLAPA
Po procesu ETL v določenih časovnih obdobjih napolnimo podatkovno skladišče. Če so podatki v
podatkovnem skladišču že urejeni, nas čaka le še analiziranje. Tehnologija OLAP je pri tem
najprimernejša, saj v osnovi ponuja pogled na združene podatke z več dimenzij.
Poglejmo si za primer delovanja ene velike univerze. Če hočemo analizirati delovanje te izobraževalne
ustanove, potrebujemo naslednje dimenzije (celina, država, mesto), naziv fakultete (kratko ime, dolgo
ime), čas študiranja (leto, mesec, dan), študent (naslov, poštna številka, priimek, ime) in smer študija
(smer, letnik, semester).
29
Na študente lahko gledamo z več dimenzij, kot so dimenzija fakultete, časa, kraja in podobno. Temu
strokovno pravimo, da gledamo na podatke v podatkovnem skladišču večdimenzionalno, torej z več
vidikov hkrati. Vendar pa nam ni potrebno za vsako vprašanje upoštevati vse dimenzije, ampak v
analize vključujemo samo tiste dimenzije, ki nas trenutno zanimajo in so zanimive za analiziranje.
Preko dimenzij gledamo neko opravljeno povpraševanje (število študentov, vpisnina, smer študija in
podobno), za vsako povpraševanje pa določimo, kaj od tega bo merljivo. Vedno moramo vnaprej
določiti, glede na katero merljivo količino bomo pregledovali podatke prek več dimenzij. [8]
Slika 3 prikazuje število diplomiranih študentov od leta 2009 do leta 2012 na fakultetah FNM, FERI,
FF in PF ter iz katere regije prihajajo diplomiranci. Za vsako fakulteto lahko vidimo, koliko študentov
je diplomiralo v določenem letu.
Tabeli, v kateri shranjujemo podatke, pravimo tabela dejstev (fact table). Merimo število študentov, to
so dejstva. Časovno dimenzijo lahko razdelimo na leto, mesec, dneve, dimenzijo kraja na celino,
državo, mesto, občino, regijo, študente pa po fakultetah, kjer so diplomirali, FNM, FERI, FF, PF. Zdaj
vemo, kaj so dimenzije in kaj tabele dejstev. Oboje skupaj pa imenujemo kocka, kar se dobro vidi na
sliki 3.
Glede na podatke, ki jih imamo v podatkovnem skladišču, lahko izvajamo različne analize. Več kot je
dimenzij, bolj so analize zanimivejše in kompleksnejše. Tehnologija OLAP na tem področju upraviči
svojo uporabnost in obstoj. [8, 10]
7. UNIVERZE V SVETU Z RAZLIČNIMI PODATKOVNIMI SKLADIŠČI
V nadaljevanju bom predstavila nekaj svetovno znanih univerz. Prikazala bom, katero podatkovno
bazo, orodja za nalaganje podatkov orodja za podatkovno modeliranje, meta data orodja in katere
operacijske sisteme uporabljajo.
1) California Community Colleges
Predmetna področja: AC (Awards, Course, Curriculum, Faculty Loads), EN (Enrollment), FA:
(Financial Aid), FI (Fee Waiver Analysis), HR (Human Resources, Labor Distribution), ST:
(Assessment, Student Demographics).
Baza, ki jo uporabljajo: Microsoft SQL Server 7.0/Teradata
ETL orodja za nalaganje podatkov: N/A
Meta data orodja: N/A
30
Tip sheme: ASCII Extract files
Server OS: Win 2000 SQL / Unix (Teradata)
2) Georgetown University
Predmetna področja: AC (Awards – In progress, Course), FI (Budgeting – Actual vs Budgets, General
Ledger – PeopleSoft; HR Labor Distribution, Payroll Genesys), ST (Students Records – SCT/IA)
Baza, ki jo uporabljajo: Oracle
ETL orodja za nalaganje podatkov: Informatica
Orodja za podatkovno modeliranje: Erwin
Meta data orodja: Home grown Oracle tables
Server OS: Unix
3) Harvard University
Predmetno področje: AD (Development/Advancment), FI (Accounts Payable – OracleApps,
Budgeting – OracleApps, General Ledger – OracleApps, Purchasing – OracleApps), HR (Human
Resources – People Soft, Payroll – People Soft), ST (Student Information), OT (Catering Services,
Grant Mnagement)
Baza, ki jo uporabljajo: Oracle 8.1.6, 9.2.0.2
ETL orodja za nalaganje podatkov: Informatica, BCV of OraApps 10.7 NCA OLTP,
Orodja za podatkovno modeliranje: Oracle Designer
Meta data orodja: Oracle Designer
Server OS: Solaris
4) Indiana University
Predmetno področje: AC (Course, Library, Student Credit Hours), EN (Admissions, Enrolment,
Recruiting, Student Profiles), FA (Financial Aid) FI (Finance), HR (Human Resources, Payroll), ST
(Student)
Baza, ki jo uporabljajo: Oracle 9.2.03
ETL orodja za nalaganje podatkov: Informatica
Orodja za podatkovno modeliranje: različna kombinacija orodij
Meta data orodja: različna kombinacija orodij
Server OS: Unix delujoč na IBM SP Frame
5) Ithaca College
Predmetno področje: AD (Alumni/Development, Development/Advancment), FI (Acounts Payable,
Budgeting, General Ledger, Purchasing), HR (Human Resources)
Baza, ki jo uporabljajo: Oracle 8i
31
ETL orodja za nalaganje podatkov: Oracle Warehouse Builder
Orodja za podatkovno modeliranje: Oracle Designer
Server OS: Win NT/2000
6) Kentucky Community & Tehnical College System
Predmetno področje: /
Baza, ki jo uporabljajo: Oracle 10g in Oracle 11g
ETL orodja za nalaganje podatkov: Microsoft SQL Server 2000 (RDM), Ascential DataStage - Oracle
10g
Orodja za podatkovno modeliranje: Sybase – PowerDesigner, Ascential MetaStage, Pencil & Paper
Meta data orodja: Sybase – PowerDesigner, Ascential MetaStage
Tip sheme: Denormalizirane tabele, Dimezionalna in Zvezdna shema
Server OS: Solaris in Windows Server 2003
7) Nevada System of Higher Education
Predmetno področje: FI (Finance), HR (Human Resources), ST (Student Information), OT (Campus
Directory)
Baza, ki jo uporabljajo: Oracle 10g
ETL orodja za nalaganje podatkov: cobol, pl/sql
Orodja za podatkovno modeliranje: Designer, Pencil & Paper
Server OS: Unix
8) North Dakota University System
Predmetno področje: FI (Finance, General Ledger, Purchasing), HR (Humanic Resouces, Payroll), ST:
(Student)
Baza, ki jo uporabljajo: Oracle 8i
ETL orodja za nalaganje podatkov: Oracle Data Mart Suite
Orodja za podatkovno modeliranje: Designer component of Oracle Data Mart Suite
Meta data orodja: Designer component of Oracle Data Mart Suite
Tip sheme: zvezdnata shema, Oracle tables in tabela dejstev
9) Pennsylvania State System of Higher Education
Podatkovno področje: AD (Alumni/Development) EN (Admissions, Enrollment), FA (Financial Aid),
FI (Finance) HR (Human Resources), ST: (Student)
Baza, ki jo uporabljajo: MS SQL 2000
ETL orodja za nalaganje podatkov: MS DTS
Orodja za podatkovno modeliranje: SQL Server
Server OS: Windows 2000
32
10) Priceton University
Predmetno področje: EN (Admissions Un/Graduate, Recruiting), FA (Financial Aid), FI: (Accounts
Payable, Finance, General Ledger, Revenue), HR (Human Resources), ST (Graduation, Majors,
Student, Test Scores), OT (Campus Directory, Telephone Billing)
Baza, ki jo uporabljajo: Oracle
ETL orodja za nalaganje podatkov: Cognos Decision Stream/Data Manager
Orodja za podatkovno modeliranje: ERWIN, Visio
Tip sheme: zvezdnata shema, denormalized tables
Server OS: Sun Unix (Solaris)
11) South Orange County Community College District
Baza, ki jo uporabljajo: SQL Server DBMS
ETL orodja za nalaganje podatkov: SQL Server Integration Services
12) Trinity College
Predmetno področje: AD (Development/Advancement – People Soft), FI (Finance)
Baza, ki jo uporabljajo: Microsoft SQL
ETL orodja za nalaganje podatkov: Cognos Decision & SQL Code
Orodja za podatkovno modeliranje: Microsoft Visio
Meta data orodja: Microsoft Visio
Tip sheme: zvezdna shema
Server OS: Microsoft 2000
13) Tufts University
Predmetno področje: AC (Course, Student Credits Hours), AD (Alumni, Development/
Advancement), EN (Admissions – Undergraduate, Enrollment), ST (Degerss, Graduatins, Majors,
Students Demographics/ Records/ Registration), OT (Management, Telephone Billing)
Baza, ki jo uporabljajo: Oracle 10g
ETL orodja za nalaganje podatkov: pl/sql, sql loader, Business Objects Data Integrator
Orodja za podatkovno modeliranje: ER/Studio
Meta data orodja: MS Access, Exel
Tip sheme: zvezdna shema
Server OS: AIX
14) University of Michigan
33
Predmetno področje: AC (Instructional Activity), AD (Alumni/Development), EN: (Admission), FA
(Financial Aid), FI (Budgeting), HR (Human Resources), ST (Other – Students Financial)
Baza, ki jo uporabljajo: Oracle in SQL Server
ETL orodja za nalaganje podatkov: SQL Loader, PL/I SSIS
Orodja za podatkovno modeliranje: ER/Studio Data Architect, Visio
Meta data orodja: Informatica Metadata Maneger, Microsoft Word, Excel
Tip sheme: zvezdna shema, kocka (SSAS), denormalized relational
Server OS: AIX za Oracle, Windows za SQL Server, in Business Objects
15) Yale University
Predmetno področje: AC, AD, EN, FA, FI, HR, ST
Baza, ki jo uporabljajo: Oracle 10g R2 10.2.0.4
ETL orodja za nalaganje podatkov: Oracle PL/SQL Informatica PowerCenter 8.6
Orodja za podatkovno modeliranje: Oracle SQL Data Modeler
Tip sheme: zvezdna in snežinkasta shema
Server OS: DW delujoč na IBM AIX
16) Arizona State University
Predmetno področje: AC (Course – Homegrown System (IDMS), Research – COEUS (MIT)), FA
(Financial Aid – SIGMA (UDB)), FI: (Finance – Advantage (DB2)), HR (Human Resources – Integral
(DB2)), ST (Student – Homegrown System (IDMS), Student Fees – Homegrown System (IDMS)), OT
(Facolities/ Property – Homegrown System (Sybase))
Baza, ki jo uporabljajo: Sybase
ETL orodja za nalaganje podatkov: Cobol ali Sybase, Embracadero D/T Studio
Orodja za podatkovno modeliranje: PowerDesigner (Data Architect)
Meta data orodja: njihove narejene tabele, preko katerih dostopajo do BrioQuery
Orodja za povpraševanje podatkov: BrioQuery, MS-Access, ASP, JAVA, ColdFusion, Crystal Reports
Tip sheme: Denormalized E/R in Pseudo Star Schemas Extract Files, ali zvezdna shema
Serve OS: Unix. [19]
Kot je razvidno iz predstavljenih univerz po svetu, uporabljajo različno tehnologijo.
Podatkovna baza, ki jo uporabljajo v večini univerz, je Oracle. Sledijo pa MS SQL in Sybase.
Najpogostejša ETL orodja za nalaganje podatkov so: Informatica, različne verzije Oracla, op/sql, sql,
SQL Server Integration Services, Cobol, Cognos Decision, SQLCode ...
34
Meta data orodja, ki jih uporbljajo so: Oracle tabele, Oracle Designer, Sybase – PowerDesigner,
Ascential MetaStage, MS Access, Excel, Microsoft Word, Informatica Metadata Manager ... Tukaj
vidimo, da uporabljajo podobno orodja, kot jih uporabljamo v izobraževanju tudi v Sloveniji.
Operacijske sisteme, ki jih uporabljajo so: Windos 2000 SQL, Unix, Solaris, Win NT/2000, Windows
Server 2003, Microsoft 2000 ... Ponovno lahko vidimo, da uporabljajo operacijske sisteme, kot jih
uporabljamo tudi v Sloveniji.
Tipe shem, ki jih uporabljajo: ASCII Extract files, zvezdno shemo, kocko, denormalizirano shemo,
Oracle tabele in tabele dejstev, snežinkasta shema. Opazimo, da uporabljamo enake tipe shem tudi v
Sloveniji.
Slika 7: Pregled podatkovnega skladišča univerze Arizona State University.
Vir: http://www.asu.edu/data_admin/data_warehouse-overview.html
Slika 7 prikazuje podatkovno skladišče, ki ima svojo bazo. Ima tudi druge vire podatkov, kot so
transakcijski podatki, študenti in kadri na drugih bazah in računalnikih.
35
Vsi podatki te univerze so združeni, povezani v neko celoto, nato preoblikovani, na koncu pa naloženi
v podatkovno skladišče. To ima lahko različne kliente.
Slika 8: Zgradba podatkovne baze in skladišča.
Vir: http://www.asu.edu/data_admin/data_warehouse-Data%20Diagrams.html
Slika 8 prikazuje tri stolpce. V levem so primarne baze študentov. Tukaj so opisani študenti, njihovi
šolski predmeti, finančno stanje, kadrovski oddelek, sponzorji, popis, imenik storitev. Te so javno
dostopne primarne baze.
Srednji stolpec prikazuje uporabnike baze podatkov in opisuje uporabnikove tabele.
Desni stolpec prikazuje baze, ki imajo omejen vstop. Ti opisujejo študentsko pomoč, njihove vpisnine
in takse.
36
8. ORODJA ZA POVPRAŠEVANJE, ANALIZE IN POROČILA IZ PODATKOVNIH SKLADIŠČ IN EXCEL VRTILNE TABELE
Podatke iz podatkovnih skladišč lahko prenesemo v nekatere druge programe in jih med seboj
povezujemo, analiziramo ter primerjamo. V našem šolstvu je velik poudarek na Excelu. V svetu pa
med drugimi uporabljajo tudi Oracle Discoverer. V Excelu si bomo ogledali vrtilne/vrtljive tabele.
8.1 EXCEL VRTILNE (VRTLJIVE) TABELE Vrtilna tabela (angl. pivot table) je Excelovo orodje, ki povzame podatke danega izbora in jih
predstavi na način, ki nam, uporabnikom, nekaj pomeni. Omogoča nam hitro in preprosto izdelavo
različnih povzetkov, analiz in pregled podatkov iz različnih seznamov, tudi podatkovnih skladišč.
Večji kot je seznam, bolj pride do izraza vrtilna tabela. V kombinaciji z vrtilnimi tabelami poznamo
tudi vrtilne grafikone. Delo med njima je zelo povezno. S pomočjo vrtilnih grafikonov imamo boljšo
preglednost nad informacijami, ki jih dobimo z vrtilno tabelo.
8.1.1 DELO Z VRTILNIMI TABELAMI
V Excelu želimo narediti vrtilne tabele. V našem primeru smo vse tabele in poizvedbe naredili
v Accessu. Zato smo morali podatke naložiti v Excel, da smo lahko naredili vrtilne tabele. Ko
podatke prenašamo iz Accessa v Excel, da lahko naredimo vrtilne tabele, ne prenesemo vseh
podatkov, ampak samo polja, ki jih potrebujemo za izdelavo vrtilnih tabel. Ne prenašamo
vseh podatkov in tabel, kajti to so v večini primerov ogromne količine podatkov in s tem bi
otežili in upočasnili naše delo.
Kako to naredimo, prikazujejo spodnje tri slike.
37
Slika 9: Ustvarjanje vrtilne tabele z uporabo zunanjega vira podatkov.
Slika 9 prikazuje ustvarjanje vrtilne tabele, kjer uporabimo zunanji vir podatkov. V Excelu kliknemo
zavihek Vstavljanje, Vrtilna tabela, še enkrat Vrtilna tabela, tam obkljukamo Uporabi zunanji vir
podatkov in Izberi povezavo.
38
Slika 10: Izbiranje povezave (iskanje Accessove datoteke).
Slika 10 prikazuje naslednji korak pri ustvarjanju vrtilnih tabel. Najprej se nam prikaže levo okno
Obstoječe povezave, kjer moramo klikniti na Poišči več … , nato se nam odpre desno okno Izberi vir
podatkov. Tukaj sedaj poiščemo v mapi našo Accessovo datoteko in kliknemo Odpri. Prikaže se nam
spodnje okno.
39
Slika 11: Izbira poizvedb in tabel.
Slika 11 prikazuje tabele in poizvedbe, ki smo jih naredili vAccessu, in jih sedaj lahko prenesemo v
Excel. Označimo želeno poizvedboa ali tabelo in kliknemo V redu. Prikaže se nam ogrodje vrtilne
tabele (Slika 12). Sedaj lahko ustvarjamo vrtilne tabele v Excelu.
V nadaljevanju določimo obseg podatkov, ki jih želimo uporabiti, in kam se naj vrtilna tabela postavi.
Na novem delovnem listu se pojavi ogrodje vrtilne tabele (slika 12), na katerega bomo dodajali polja
za analiziranje podatkov. Ko je ogrodje vrtilne tabele pripravljeno, lahko z vlečenjem in spuščanjem
polj iz okna Seznam polj vrtilne tabele začnemo z analizo podatkov in spreminjanjem njene oblike.
Na desni strani v tabeli se nam prikaže Seznam polj vrtilne tabele (angl. pivot tabele field list). Sem se
shranijo seznami polj, ki smo jih ustvarili (Priimek, Ime, Naslov, Vpisnina ... ).
Pod Seznamom polj vrtilne tabele imamo štiri bela prazna polja: Oznake vrstice (angl. row fields), kjer
iz seznam polj vrtilne tabele povlečemo in spustimo želeno polje. Filter poročila, Oznake stolpcev,
Oznake vrstic in Vrednosti.
Filter poročila pomaga pri upravljanju prikazovanja velike količine podatkov, kjer izmed mnogih
podatkov izberemo (obkljukamo) samo želene podatke. V Oznako vrstic povlečemo polja, ki jih
želimo imeti prikazana v vrsticah v Oznako stolpcev pa polja, ki jih želimo imeti prikazana po
stolpcih. V Vrednosti vstavljamo številčna polja, vrednosti s številkami. V Vrednostih si nastavimo
sami, kaj želimo početi s podatki, jih seštevati, računati povprečje, minimum, maksimum …
40
V našem primeru smo v Oznake vrstice povlekli Priimek, v Oznake stolpca letnice, v Vrednosti pa
vpisnino. Tako nam je Excel sam izračunal skupno vsoto vpisnine (slika 13). V vrtilnih tabelah lahko
uporabimo Filter poročila za filtriranje podatkov. Ko v filter v povlečemo element iz Seznama polj
vrtilne table, se nam prikažejo v vrtilni tabeli ti elementi. Če na primer v polju Priimek izberemo samo
priimek Ofentavšek, se pokažejo le podatki s tem priimkom (slika 14).
Slika 12: Ogrodje vrtilne tabele.
Slika 12 prikazuje ogrodje vrtilne tabele za primer Študent iz naslednjega poglavja.
41
Slika 13: Vsota vpisnine vseh študentov po abecednem vrstnem redu v vrtilni tabeli.
Slika 13 je primer izdelane vrtilne tabele in prikazuje seznam vseh študentov vpisanih po abecednem
vrstnem redu v vrtilni tabeli in vsoto vpisnin, ki so jo študentje plačali v določenem letu in skupno
vsoto vpisnine.
42
Slika 14: Prikaz filtriranja podatkov.
Ko je vrtilna tabela ustvarjena, jo lahko spreminjamo. Najpogosteje spreminjamo obliko vrtilne tabele.
Gre za premik polj na nov položaj ali dodajanje in brisanje polj.
Ko določimo položaj polj v vrtilni tabeli, lahko izpeljemo različne vrste urejanj in analiz podatkov
glede na ustrezno polje.
Lahko izračunamo skupno vsoto, povprečje, minimum, maksimum, zmnožek itd.
43
Slika 15: Slika prikaza možnosti povpraševanja v vrtilnih tabelah.
Slika 15 prikazuje, kako izberemo različne vrednosti v tabelah. To naredimo na naslednji način. V
tabeli kliknemo z desno tipko na miški na izbrano vrednost (številko), odpre se nam okno, kjer
izberemo Povzemi vrednosti po … in kliknemo na želeno vrednost
44
Slika 16: Slika prikaza možnosti dopolnjevanja praznega prostora v vrtilnih tabel.
Slika 16 prikazuje, kako spremenimo okno, v katerem ni nobene vrednosti v želen znak ali besedilo.
V orodni vrstici kliknemo na Možnosti, nato še enkrat Možnosti (Vrtilna tabela) in se nam odpre okno
Možnosti vrtilne tabele. Tukaj v okvirčku, kjer piše Za prazne vrednosti prikaži: , vpišemo želeni znak
oziroma besedilo.
Podatke v vrtilni tabeli lahko prikažemo tudi v grafikonih.
45
Slika 17: Vrtilni grafikon.
Slika 17 prikazuje število diplomiranih študentov v letih 2010, 2011 in 2012 na treh fakultetah. V
priročnem meniju smo izbrali Vstavljanje, kjer smo izbrali obliko grafikona, ki ga želimo imeti.
Vrtilne tabele nam omogočajo, da s pomočjo Selektorja poročil (angl. format report) naredimo tabele,
ki nam jih ponuja že sam program. S klikom na to ikono se nam prikažejo že oblikovane tabele.
Slika 18: Prikaz tabele s pomočjo ikone Selektor poročil.
46
Slika 18 nam prikazuje naše podatke (ime, priimek, naslov, starost in vpisnino). Iz Seznama polj
vrtilne tabele smo povlekli polja v Oznake vrstice, Oznake stolpcev in v Vrednosti. Naredila se nam je
tabela, mi pa smo jo oblikovali s pomočjo orodne vrstice, ki nam sama ponuja veliko možnosti. Lahko
izbiramo razne oblike tabel, barve tabel, sloge celic …
9. PRIMER PODATKOVNEGA SKLADIŠČA ZA IZOBRAŽEVALNO USTANOVO V ACCESSU
V tej diplomski nalogi bom predstavila primer relacijske baze 'študenta' v programu Microsoft Access,
ki je del družine Microsoft Office okolja. Ustvarila sem bazo podatkov, ki sem jo poimenovala
Študent. Podatki v njej so shranjeni v tabelah, ki predstavljajo osnovo zbirke podatkov, te tabele pa so
med seboj povezane. Tabele predstavljajo vrstice s podatkovnimi zapisi. Vsak zapis je sestavljen iz
ene ali več celic. Vsebina, ki je vpisana v celice, je določena z imeni polj. Vsako polje dobi tudi
določen podatkovni tip. Nujno moramo določiti tudi primarni ključ v posamezni tabeli, ki nam
omogoča, da je vsak zapis v tabeli enoznačno določen.
Spodnji primer relacijske baze Študenta predstavlja študenta, ki je vpisan na fakulteto in opravlja
izpite. Iz te relacije izvemo naslednje:
- vpisno številko študenta,
- njegov priimek in ime,
- naslov (ulica, hišna številka, kraj, občina, regija, država),
- priimek in ime profesorja, pri katerem opravlja izpit,
- naziv profesorja in njegovo predmetno področje,
- ime fakultete,
- smer študija,
- letnik študija,
- oceno predmeta,
- prostor, kjer opravlja izpit,
- datum izpita,
- ime predmeta,
- leto vpisa in diplomiranja na fakulteto,
- cena izpita,
- vpisnino.
47
Naslovi tabel v relacijski bazi Študent so:
- Delavec
- Dimenzija naslova
- Dimenzija ocene
- Naslov
- Dimenzija predmet
- Organizacijska dimenzija
- Prostorska dimenzija
- Tabela dejstev (izpiti)
- Študent
Vse tabele v tem primeru vsebujejo eno ali več polj in vsako polje ima svoj podatkovni tip.
9.1 SHEMA PODATKOVNEGA SKLADIŠČA Spodnji primer Študent vsebuje devet tabel s polji.
1) Tabela Študent vsebuje naslednja polja: vpisna številka, TK šifra organizacijske enote, priimek,
ime, TK naslov študent, leto diplomiranja, vpisnina, leto vpisa, mesec diplomiranja.
2) Tabela Delavec vsebuje naslednja polja: šifra delavca, ime profesorja, priimek profesorja, naziv,
predmeti, predmetno področje.
3) Tabela Dimenzija ocene vsebuje naslednja polja: ID ocena, pozitivno – negativno, ocena.
4) Tabela Prostorska dimenzija vsebuje naslednja polja: šifra, zgradba, nadstropje, številka učilnice.
5) Tabela Dimenzija predmet vsebuje naslednje polje: predmet, podveda, predmetno področje, smer,
veda, podpodročje.
6) Tabela Naslov vsebuje naslednja polja: TK naslov, ulica, hišna številka, kraj, občina_ID.
7) Tabela Organizacijska dimenzija vsebuje naslednja polja: šifra, fakulteta, smer, letnik, semester.
8) Tabela Dimenzija naslova vsebuje naslednja polja: TK_ občina, poštna številka, občina_ime, regija,
država.
9) Tabela Tabela dejstev (izpiti) vsebuje naslednja polja: ID_dogodek, TK študenta, TK ocenjevalec,
TK šifra ocene, TK datum, TK šifra prostora, Ime_predmeta, dogodek, Plačilo prvega izpita, Plačilo
drugega izpita.
Tabele so med seboj povezane z relacijami. V tem primeru so med seboj povezane ena proti mnogo.
48
Slika 19: Model relacij za primer 'študenta'.
Slika prikazuje model relacij za primer 'Študent'. Tabele so napolnjene s testnimi podatki.
9.2 POIZVEDBE IZ PODATKOVNEGA SKLADIŠČA ZA IZOBRAŽEVALNO USTANOVO
Za prikaz podatkov v Excelovih tabelah je potrebno v Accessu pripraviti poizvedbe.
Poizvedba je zahteva za določene podatke. S poizvedbo je mogoče odgovoriti na preprosta ali
specifična vprašanja, izvesti izračune, združevati podatke iz različnih tabel. S poizvedbami
podatke filtriramo oziroma jih povzamemo. [26]
Sedaj bom vse podatke oziroma več tabel v poizvedbah, ki sem jih vnesla v bazo Študent v programu
Access, uporabila v vrtilnih tabelah. Vrtilne tabele sem naredila v Excelu, podatke sem uvozila iz
Accessa, kot sem opisala na slikah 9, 10 in 11.
Baza je napolnjena s testnimi podatki.
49
Tabela 1: Poizvedba 1.
Zgornja poizvedba predstavlja polja, ki jih potrebujemo za spodnje štiri vrtilne tabele.
Slika 20: Struktura poizvedbe 1.
50
Slika prikazuje strukturo poizvedbe 1. Polja, ki jih prikazuje poizvedba 1, so zapisana v tabelah:
Organizacijska dimenzija, Študent, Tabela dejstev (izpiti) in Dimenzija predmet. Med seboj so
povezana kot prikazuje zgornja slika.
Tabela 2: Vrtilna tabela dimenzije predmeta.
Štetje od priimek Letnik
Smer/Fakulteta prvi drugi tretji četrti Skupaj študentov
Nepedagoška 1 – 2 1 4
Naravoslovje 1 – 2 1 4
FNM 1 – 2 1 4
algebra – – – 1 1
analiza 1 – – – 1
biofizika – – 1 – 1
botanika – – 1 – 1
Vzgoja in izobraževanje 4 4 2 – 10
Družboslovje 1 – – – 1
FF 1 – – – 1
fizična geografija 1 – – – 1
Naravoslovje – 3 1 – 4
FNM – 3 1 – 4
algebra – 1 – – 1
analiza – – 1 – 1
astronomija – 1 – – 1
genetika – 1 – – 1
Pedagoška veda 2 – – – 2
PF 2 – – – 2
vzgoja 2 – – – 2
Tehnika 1 1 1 – 3
FNM 1 1 1 – 3
informacijski sistemi 1 1 – – 2
programiranje – – 1 – 1
Skupaj študentov 5 4 4 1 14
Tabela 2 prikazuje, koliko študentov je na določeni fakulteti, na katerem predmetnem področju so,
kateri predmet opravljajo in podvrsta predmeta.
Kot prikazuje zgornja tabela, vidimo, da določena okna nimajo nobenih vrednosti. Da ti prostori v
tabeli ne ostanejo prazni, jih lahko nadomestimo s poljubnimi znaki.
V naslednji vrtilni tabeli bomo pokazali povprečno oceno študentov leta 2012 na smereh Matematika
in ter Računalništvo in. Da lahko to prikažemo moramo narediti filter. Filter nam omogoča, da
prikažemo samo tiste podatke, ki jih želimo. V našem primeru bomo izmed vseh predmetov izbrali
samo dva predmeta in samo leto 2012.
51
Kot prikazuje spodnja slika moramo v Seznamu polj vrtilne tabele izbrati želeno polje, v našem
primeru smer, z miško klikniti na filter ob polju in odpre se okno. Tukaj obkljukamo želene predmete
in v vrtilni tabeli se nam bodo nato prikazali le ti.
Slika 21: Prikaz filtriranja podatkov.
52
Tabela 3: Vrtilna tabela za povprečno oceno na smereh Matematika in ter Računalništvo in.
Fakulteta/Smer 2012
FNM 8,2
Matematika in 8,0 drugi 6,0 tretji 8,0 četrti 10,0
Računalništvo in 8,3 prvi 9,0 drugi 8,0 tretji 8,0
Povprečna ocena 8,2
Tabela 3 prikazuje povprečno oceno na fakulteti FNM na smeri študija Matematika in in
Računalništvo in leta 2012. Vidimo, da je na študijski smeri Matematika in povprečna ocena študentov
8, na študijski smeri Računalništvo in pa 8,3, torej skupna ocena na fakulteti FNM je 8,2.
V naslednji vrtilni bomo pokazali, da lahko le na eni vrtilni tabeli prikažemo več različnih vrednosti.
Nas je zanimalo, koliko študentov je na določeni fakulteti, smeri in letniku, koliko so plačili vpisnino
in kolikšna je njihova povprečna ocena.
53
Tabela 4: Vrtilna tabela števila študentov, vpisnine in povprečne ocene na fakultetah.
Področje/Fakulteta Število študentov Vsota vpisnine Povprečna ocena
Nepedagoška 4 6250 9,0
Naravoslovje 4 6250 9,0
FNM 4 6250 9,0
Ekologija 1 1500 9,0
Fizika 1 1300 8,0
Matematika 2 3450 9,5
Vzgoja in izobraževanje 10 17450 8,6
Družboslovje 1 2000 8,0
FF 1 2000 8,0
Geografija in 1 2000 8,0
Naravoslovje 4 7150 8,5
FNM 4 7150 8,5
Biologija in 1 1450 10,0
Fizika in 1 1700 10,0
Matematika in 2 4000 7,0
Pedagoška veda 2 3200 9,5
PF 2 3200 9,5
Predšolska vzgoja 1 1800 10,0
Razredni pouk 1 1400 9,0
Tehnika 3 5100 8,3
FNM 3 5100 8,3
Računalništvo in 3 5100 8,3
Skupaj 14 23700 8,7
Tabela 4 prikazuje število študentov na določenem letniku na določeni smeri študija in fakulteti.
Prikazuje tudi vsoto vpisnine, ki so jo študentje plačali in povprečno oceno študentov po smereh
študija, po fakultetah in po vedah.
Kot vidimo, smo v zgornji tabeli šteli študente, izračunali skupno vsoto vpisnine in izračunali
povprečno oceno.
Poleg štetja, računanja vsote in povprečja lahko še iščemo minimum, maksimum, zmnožek in še več.
54
Tabela 5: Vrtilna tabela števila študentov po letnicah diplomiranja in smereh študija.
Štetje od priimek Leto diplomiranja
Fakulteta/Smer 2010 2011 2012 Skupaj diplomirancev
Nepedagoška 2 – 2 4
Naravoslovje 2 – 2 4
FNM 2 – 2 4
Ekologija – – 1 1
Fizika 1 – – 1
Matematika 1 – 1 2
Vzgoja in izobraževanje 1 4 5 10
Družboslovje – 1 – 1
FF – 1 – 1
Geografija in – 1 – 1
Naravoslovje – 2 2 4
FNM – 2 2 4
Biologija in – 1 – 1
Fizika in – 1 – 1
Matematika in – – 2 2
Pedagoška veda 1 1 – 2
PF 1 1 – 2
Predšolska vzgoja 1 – – 1
Razredni pouk – 1 – 1
Tehnika – – 3 3
FNM – – 3 3
Računalništvo in – – 3 3
Skupaj diplomirancev 3 4 7 14
Tabela 5 je vrtilna tabela, ki prikazuje število študentov, ki so diplomirali na določenih smereh študija
v letih 2010, 2011 in 2012. (Primer: na nepedagoški smeri na naravoslovju sta leta 2010 diplomirala
dva študenta, ki sta obiskovala fakulteto FNM, in sicer eden na smeri Fizika in eden na smeri
Matematika. Na smeri Ekologija pa leta 2010 ni diplomiral nihče.)
55
Tabela 6: Poizvedba 2 za število študentov po krajih.
Poizvedba 2 prikazuje polja, ki jih potrebujemo za spodnjo vrtilno tabelo.
Slika 22: Struktura poizvedbe 2.
Slika prikazuje strukturo poizvedbe 2. Polja priimek, leto diplomiranja, občina_ime, država in regija
se nahajajo v treh tabelah. Te so Dimenzija naslov, Naslov in Študent, ki so povezane med seboj, kot
prikazuje slika 22.
S pomočjo zgornje poizvedbe bomo naredili vrtilno tabelo, kjer nas zanima, od kod prihajajo
študentje.
56
Tabela 7: Tabela števila študentov po krajih.
Štetje od priimek Leto dipl.
Kraj 2010 2011 2012 Skupaj diplomirancev
Slo 3 5 8 16
Osrednjeslo – 3 4 7
Domžale – 3 1 4
Ljubljana – – 3 3
Primorska 1 – 1 2
Nova Gorica 1 – 1 2
Štajerska 2 2 3 7
Celje – 2 – 2
Maribor 1 – 1 2
Vojnik 1 – 2 3
Skupaj diplomirancev 3 5 8 16
Tabela 7 prikazuje, od kod so študentje (iz katere države, regije in iz katere občine v regiji prihajajo),
ki so diplomirali v letu 2010, 2011 in 2012. (Primer: en študent iz Slovenije iz štajerske regije,
natančneje iz Maribora, je diplomiral leta 2010, leta 2011 iz Maribora ni nihče diplomiral, leta 2012 pa
zopet en študent. Torej skupaj dva diplomiranca iz Maribora.)
Kot vidimo, nam poizvedbe iz tabele Študent prikažejo veliko količino uporabnih ali pa tudi
neuporabnih podatkov. S pomočjo vrtilnih tabel lahko te podatke obračamo oziroma vrtimo, tako da
pridemo do želenih informacij.
57
10. ZAKLJUČEK
Podatki so danes vir informacij in uspešnega poslovanja. Podjetja, šole in vse ostale izobraževalne
ustanove shranjujejo veliko količino podatkov. Ni dovolj, da imamo različne podatke oziroma
informacije samo zapisane in zabeležene. Biti morajo tudi primerno in čim bolj enostavno urejene.
Zaradi velike količine podatkov lahko pride do hitre zamenjave podatkov. Da so podatki in
informacije za daljše obdobje čim bolj urejeni, omogočajo podatkovna skladišča.
V diplomski nalogi so predstavljena podatkovna skladišča. Natančneje sem opisala arhitekturo
podatkovnih skladišč. Centralizirana arhitektura je sestavljena iz osrednjega podatkovnega skladišča in
področnih skladišč. Ta pa se polnijo le iz osrednjega podatkovnega skladišča. Značilnost distribuirane
arhitekture je, da temelji na množici povezanih, vendar samostojnih področnih shramb, ki tvorijo
podatkovno skladišče. Najnovejša je federativna arhitektura, ki temelji na skupnem poslovnem
modelu.
Pri izbiri ustrezne arhitekture podatkovnih skladišč je potrebno podrobno poznati prednosti in slabosti
vseh treh tipov arhitektur, da smo lahko uspešni.
Pomembno vlogo pri podatkovnih skladiščih ima OLAP (angl. OnLine Analiytical processing). Ta
omogoča hitrejšo analizo in pregled velike količine podatkov. Pomembna je tudi OLAP kocka kot
konceptualni model podatkovnih skladišč in analiz. Vsaka OLAP kocka je sestavljena iz mer in
dimenzij. Podatkovni model kocke je lahko zvezdna in snežinkasta shema. Slednja je izpeljana iz prve.
Univerze po svetu tudi uporabljajo podatkovna skladišča, različne podatkovne baze in orodja za
nalaganje podatkov. Najpogostejši bazi, ki ju univerze v svetu uporabljajo, sta Oracle in Microsoft
SQL.
Baza, ki sem jo naredila v programu Access, je izdelan model podatkovnega skladišča za
izobraževalno ustanovo. Da se študent vpiše na fakulteto, prijavlja na izpite, jih opravi in nato
diplomira, je potrebno veliko število podatkov. S temi podatki sem naredila analize in poročila s
pomočjo vrtljivih tabel v Excelu.
58
Literatura:
[1] C. S.R. Prabhu. Data warehousing: concepts, techniques, products and applications,
Pratice Hall, 2002.
[2] M. Humphries, M. W. Hawkins, M. C. Dy. Data warehousing: architecture and implementation,
Pratice Hall, 1999.
[3] M. J. Corey, M. Abbey. Oracle Data Warehousing, McGraw-Hill, 1997.
[4] R. Kimball, J. Caserta. The Data Warehouse ETL Toolkit, Indianapolis: Wiley, 2004.
Spletni viri:
[5] Golob I., Welzer T. (pridobljeno 20. 6. 2011). Arhitekture podatkovnih skladišč. Maribor:
Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko.
[6] http://en.wikipedia.org/wiki/Data_warehouse (pridobljeno 5. 6. 2010)
[7] http://www.bilab.si/?show=content&id=10&men=14&oce=13&oce=13 (pridobljeno 10. 9. 2011)
[8] http://wiki.fmf.uni-lj.si/wiki/OLAP (pridobljeno 4. 7. 2011)
[9] http://www.bilab.si/index.php?show=content&id=12&men=16 (pridobljeno 12. 5. 2011)
[10] http://www.bilab.si/uploads/clanki/arhivirana_datoteka_5.pdf (pridobljeno 12. 5. 2011)
[11] http://www.bilab.si/?show=content&id=5&men=10&oce=6 (pridobljeno 13. 5. 2011)
[12] http://www.lancom.si/resitve/informacijske/poslovne/podatkovna-skladisca/page.html
(pridobljeno 11. 9. 2011)
[13] http://www.rtvslo.si/blog/globo/podatkovno-skladisce/41880 (pridobljeno 15. 9. 2011)
[14] http://www.add.si/poslovne_resitve/add_bi/tehnologija/ (pridobljeno 6. 6. 2011)
[15] http://dataminingtools.net/wiki/introdw.php (pridobljeno 15. 5. 2011)
[16] http://wiki.fmf.uni-lj.si/wiki/Slika:StarShema1.jpg (pridobljeno 5. 7. 2011)
[17] http://wiki.fmf.uni-lj.si/wiki/Slika:SnowFlakeShema.JPG (pridobljeno 5. 7. 2011)
[18] http://www.cek.ef.uni-lj.si/u_diplome/tomic4088.pdf (pridobljeno 20. 7. 2011)
[19] http://www.asu.edu/data_admin/data_warehouse-overview.html (pridobljeno 9. 7. 2010)
[20] http://www.asu.edu/data_admin/data_warehouse-Data%20Diagrams.html (pridobljeno 9. 7. 2010)
[21] http://www.1keydata.com/datawarehousing/inmon-kimball.html (pridobljeno 10.1.2013)
[22] http://www.islovar.org/forumi/sporocila.asp?id=287&idk=5&debatestran=29 (pridobljeno 27. 11.
2011)
[23] http://en.wikipedia.org/wiki/Online_analytical_processing (pridobljeno 15. 7. 2011)
[24] http://en.wikipedia.org/wiki/Edgar_F._Codd (pridobljeno 15. 9. 2012)
[25] http://en.wikipedia.org/wiki/Extract,_transform,_load (pridobljeno 6. 6. 2010)
[26] http://office.microsoft.com/sl-si/access-help/uvod-v-poizvedbe-HA010341786.aspx (pridobljeno
4. 12. 2012)