HURTOWNIE DANYCH

Preview:

DESCRIPTION

HURTOWNIE DANYCH. Co to jest hurtownia danych?. Hurtownia danych (data warehouse) jest wydzieloną centralną bazą danych zbierającą informacje służące do zarządzania organizacją. - PowerPoint PPT Presentation

Citation preview

HURTOWNIE DANYCH

Co to jest hurtownia danych?

Hurtownia danych (data warehouse) jest wydzieloną centralną bazą danych

zbierającą informacje służące do zarządzania organizacją.

Jest ona odizolowana od baz operacyjnych a jej struktura i użyte do jej budowy

narzędzia powinny być zoptymalizowane pod kątem przetwarzania analitycznego.

Po co hurtownia danych?

Do sprawnego zarządzania firmą potrzeba, by:

• Dane zgromadzone w organizacji mogły być wykorzystywane w procesie

decyzyjnym,

• Istniała możliwość tworzenia analiz obejmujących całość organizacji,

Cechy hurtowni danych

• Jest scentralizowaną bazą,

• Jest oddzielona od baz operacyjnych,

• Scala informacje z wielu źródeł,

• Jest zorientowana tematycznie,

• Przechowuje dane historyczne,

• Utrzymuje wielką ilość informacji,

• Agreguje informacje,

Rodzaje danych w hurtowniach

• Elementarne,

• Zmaterializowane agregaty – wyliczone wartości obliczeń (sumy, średnie itp.),

• Historyczne,

• Metadane,

Cykl życia danych w HD

• Ładowanie i scalanie

• Agregacja

• Tworzenie danych historycznych

• Usuwanie

Architektura Hurtowni Danych

• Scentralizowana

• Warstwowa

• Federacyjna

Architektura scentralizowana

Scentralizowana hurtownia danych jest stosunkowo prostą architekturą. Znacznie

upraszcza dostęp do danych, głównym zastosowaniem takiego rodzaju architektury

są organizacje o scentralizowanej strukturze. Oczywiście architektura taka nie

oznacza że w jednej organizacji musi znajdować się jedna, scentralizowana

hurtownia danych – wręcz przeciwnie , zaleca się tworzenie kliku scentralizowanych

hurtowni.

Hurtownie danychArchitektura scentralizowana

Architektura warstwowa

Następnym rodzajem jest warstwowa architektura hurtowni danych. Główną

hurtownię danych uzupełniają kolejne warstwy, podsumowania danych (hurtownie

tematyczne). Architektura warstwowa może być również stosowana w przypadku

źródeł danych gdzie dane napływają z różnych oddziałów firmy i są

podsumowywane.

Hurtownie danychArchitektura warstwowa

Architektura federacyjna

Federacyjna hurtownia danych to aktywny związek i współpraca kilku hurtowni

danych które mogą znajdować się nie tylko w jednym ale w wielu systemach

komputerowych. Globalna hurtownia danych jest w tym wypadku tworem wirtualnym,

a hurtownie tematyczne odpowiadają zwykle odpowiednim działom w

przedsiębiorstwie.

Hurtownie danychArchitektura federacyjna

Hurtownie danychOLAP/OLTP

OLTP – On-Line Transaction Processing

(przetwarzanie transakcyjne)

OLAP – On-Line Analytical Processing

(przetwarzanie analityczne)

Systemy informatyczne możemy podzielić na transakcyjne(OLTP) i analityczne (OLAP).

Generalnie można przyjąć, że systemy OLTP dostarczają danych źródłowych do hurtowni

danych, natomiast systemy OLAP pomagają w ich analizie.

Hurtownie danychWstęp – OLAP/OLTP

• OLTP (On-line Transaction Processing) charakteryzuje się dużą ilością prostych

transakcji zapisu i odczytu. Główny nacisk kładziony jest na zachowanie integralności

danych w środowisku wielodostępowym oraz na efektywność mierzoną liczbą

transakcji w danej jednostce czasu.

• OLAP (On-line Analytical Processing) charakteryzuje się natomiast stosunkowo

nielicznymi, ale za to złożonymi transakcjami odczytu. Miarą efektywności jest czas

odpowiedzi. Powszechnie wykorzystuje się go w technikach związanych z Data

Mining'iem.

Hurtownie danychOLAP/OLTP - porównanie

OLAP OLTP

Dane zorientowane tematycznie Dane zorientowane procesowo

Duża wielkość (od kilkudziesięciu GB do kilku TB)

Mała wielkość (kilkadziesiąt MB – kilka GB)

Przechowywane są dane historyczne

Przechowywane są dane teraźniejsze

Zdenormalizowana struktura danych (kilka tabel – wiele kolumn w tabeli)

Znormalizowana struktura danych (wiele tabel – kilka kolumn w tabeli)

Złożone zapytania Proste zapytania

Dane zagregowane Dane jednostkowe

Hurtownie danychOLAP/OLTP

Hurtownie danych (dane) możemy potraktować jako

bufor pomiędzy systemami OLAP oraz OLTP

Wielowymiarowa kostka OLAPKostka składa się z Miar, Wymiarów i Poziomów oraz jest zoptymalizowany pod kątem szybkiego i bezpiecznego dostępu do danych wielowymiarowych. Miary to wskaźniki numeryczne (ile?), natomiast wymiary reprezentują dane opisowe (kto? co? kiedy? gdzie?). Wymiary są pogrupowane za pomocą poziomów, które odzwierciedlają hierarchię funkcjonującą w organizacji i pozwalają użytkownikom końcowym zwiększać lub zmniejszać poziom szczegółowości analizowanego wymiaru.

Z reguły w hurtowni danych jest zdefiniowanych co najmniej kilkanaście wymiarów, a najczęściej spotykanym i wymiarami są: czas, klient, produkt, lokalizacja, biuro sprzedaży.

Hierarchia każdego z wymiarów ustawiona jest za pomocą Poziomów.Przykładowo, hierarchia poziomów może być ułożona w następujący sposób:

Czas: Rok -> Kwartał -> Miesiąc -> Tydzień -> Dzień

Klient: Grupa klientów -> Nazwa klienta

Produkt: Linia Produktu -> Grupa Produktu -> Produkt

Lokalizacja: Obszar -> Region -> Kraj

Wielowymiarowa kostka OLAPKategorie to elementy danych które opisują poziomy w wymiarach. Przykładowo, dla wymiaru Lokalizacji, w hurtowni danych zostały ustawione poziomy obszaru, regionu i kraju. W tym przykładzie dla Polski kategoriami będą:

• Obszar - Europa • Region - Europa Środkowa • Kraj - Polska

Typowe, najczęściej występujące Miary w hurtowniach danych to:

• Przychód netto • Przychód brutto • Waga • Ilość • Koszt • Upust

Model wielowymiarowy

produkt

sklepcz

as150 PLN

Zawartość komórki: zagregowana miara ( np. suma sprzedaży danego produktu w danym sklepie, danego dnia).

Recommended