View
276
Download
1
Category
Preview:
Citation preview
Manajemen
DATAAdamMukharil Bachtiar, M.T.
Pengenalan Datawarehouse
Pemahaman Awal Datawarehouse
apa itu Datawarehouse?
Sebuah pendekatan penyimpanan data yang cenderung menyimpan data masa lalu yang mempunyai karakteristik
Subject Oriented, Integrated, Time Variant, dan Nonvolatile
Konsep Subject Oriented
Datawarehouse menyajikan informasi sekitar subjek bisnis dibandingkan operasi yang terjadi
OPERATIONAL DATAWAREHOUSE
E-Commerce
Transaksi Penjualan Pelanggan
E-Library
Peminjaman - Pengembalian Buku
Konsep Integrated
Datawarehouse mengintegrasikan data dari sumber yang heterogenous (beda sumber atau beda format)
Basis Data PT. X Cabang 1
Basis Data PT. X Cabang 2
Flat File PT. X Cabang 3
Datawarehouse PT. X
Tantangan Integrasi
Konsep Time Variant
• Time horizon: 60-90 days• Update of records• Key structure may/may not contains
element of time
OPERATIONAL DATAWAREHOUSE
• Time horizon: 5-10 years• Sophisticated snapshots of data• Key structure contains element of
time
Konsep Time Variant
Konsep Nonvolatile
Data yang sudah ada pada datawarehouse tidak akan dihapus ketika data baru ditambahkan
Sebelum membahas lebihlanjut tentang datawarehouse, ada aturan dasar yang berlakupada datawarehouse
Aturan 1:Datawarehouse dibuatterpisah dengan basis data operasional agar kinerjanyalebih baik
Aturan 2:Tidak ada frequent update pada datawarehouse
Aturan 3:Datawarehousemenyimpan data historical yang digunakan untukanalisis bisnis
Aturan 4:Setiap elemen kunci padadatawarehouse wajibmemiliki elemen waktu
Kenapa Datawarehouse?
Legacy applications + databases = chaos
ProductionControl
MRP
InventoryControl
PartsManagement
Logistics
Shipping
RawGoods
OrderControl
Purchasing
Marketing
Finance
Sales
Accounting
ManagementReporting
Engineering
Actuarial
HumanResources
ContinuityConsolidationControlComplianceCollaboration
Enterprise data warehouse = order
Singleversionofthetruth
EnterpriseDataWarehouse
Everyquestion=decision
Dua tujuan datawarehouse: 1) menghemat waktu pembuatan laporan; 2) mudah mengkotak-kotakan data
Apa perbedaan Datawarehousedengan basis data operasional?
DATABASE (OLTP) DATA WAREHOUSE (OLAP)
• Menangani data saat ini
• Data bisa saja disimpan pada beberapa
platform
• Data diorganisasikan berdasarkan fungsi
atau operasi seperti penjualan, produksi, dan
pemrosesan pesanan
• Pemrosesan bersifat berulang
• Untuk mendukung keputusan harian
(operasional)
• Melayani banyak pemakai operasional
• Berorientasi pada transaksi
• Lebih cenderung menangani data masa lalu
• Data disimpan dalam satu platform
• Data diorganisasikan menutut subjek seperti
pelanggan atau produk
• Pemrosesan sewaktu-waktu, tak terstruktur,
dan bersifat heuristik
• Untuk mendukung keputusan yang strategis
• Untuk mendukung pemakai manajerial yang
berjumlah relatif sedikit
• Berorientasi pada analisis
Bagaimana implementasiDatawarehouse?
DataWarehouse
ExtractTransformLoadRefresh
OLAP Engine
AnalysisQueryReportsData mining
Monitor&
IntegratorMetadata
Data Sources Front-End Tools
Serve
Data Marts
Operational DBs
Othersources
Data Storage
OLAP Server
Arsitektur Datawarehouse
Arsitektur Datawarehouse (alternatif)
Model Data Pada Datawarehouse
Data dari OLTP (Operasional) dipartisimenjadi dua bentuk, yaitutabel dimensi dan tabel fakta
Tabel dimensi berisi detail informasi dari kunci tamuyang digunakan padapengaksesan tabel fakta
Tabel fakta berisi item numerikhasil perhitungan agregatberdasarkan kunci pada tabeldimensi yang direlasikan
NIP NIM Kd. Matkul Nilai
Info Dosen
Info Mata Kuliah
. . .
Ukuran numerikdari tabel fakta
Kolom-kolom kunci dari tabel faktajuga kunci dari tabel-tabel dimensiInfo Mahasiswa
. . .. . .. . .. . .
Tabel-tabel dimensi
Tabel fakta
Gambaran Tabel Dimensi dan Tabel Fakta
ER model berfokus terhadaptransaksional sementaraDimensional Modelling berfokuskepada dimensi dan fakta
Konsep ER Model
Konsep Dimensional Modelling
Item Numerik
Ada tiga jenis skema model data pada datawarehouse, yaitu star, fact constellation, dan snowflake
STAR FACT CONSTELATION SNOWFLAKE
KONSEP DASAR
• Tabel dimensi berelasi
langsung dengan satu
tabel fakta
• Tabel dimensi tidak
bertingkat (denormalisasi)
• Tabel fakta berbagi tabel
dimensi dengan tabel
fakta lainnya
• Multiple facts
Tabel dimensi utama
berelasi dengan tabel fakta
dan dimensi lainnya berelasi
dengan dimensi utama
KELEBIHANAkses cepat dan mudah
dipahami oleh pengguna
Hemat ruang Mengurangi redundansi
karena ternormalisasi
KEKURANGAN
Boros ruang Tabel dimensi yang berelasi
dengan banyak fakta
kinerjanya menurun apabila
diakses bersamaan
Konsep normalisasi
menimbulkan query yang
kompleks
Store Key
Product Key
Period Key
Units
Price
Time Dimension
Product Dimension
Store Key
Store Name
City
State
Region
Period Key
Year
Quarter
Month
Product Key
Product Desc
Store Dimension Sale Fact
Skema Star
Skema Fact Constellation
Store Key
Product Key
Period Key
Units
Price
Store Dimension
Product Dimension
Sales Fact
Store Key
Store Name
City
State
Region
Product Key
Product Desc
Shipper Key
Store Key
Product Key
Period Key
Units
Price
Shipping Fact
Skema Snowflake
Store Key
Product Key
Period Key
Units
Price
Time Dimension
Product Dimension
Sale Fact
Store Key
Store Name
City Key
Period Key
Year
Quarter
Month
Product Key
Product Desc
City Key
City
State
Region
City Dimension
Store Dimension
Metodologi Pembangunan Datawarehouse
Ada dua pendekatan yang biasa digunakan untukmembangun datawarehouse
Dua Methodologi Umum Datawarehouse (Common)
Pendekatan Relasional
Bill Inmon Ralph Kimball
Pendekatan Dimensional
Dua pendekatan ini memilikiperbedaan dari penyusunandatawarehouse maupunpendekatan skema data
INMON (RELATIONAL APPROACH) KIMBALL (DIMENTIONAL APPROACH)
• Entity Relationship (ER) model
• Normalization rules
• Many tables using joins
• History Tables, natural keys
• Good for indirect end-user access of data
• Top-down approach
• Fact and dimensions, star schema
• Less tables but have duplicate data
(denormalized)
• Easier for user to understand (but strange for
IT people used to relational)
• Slowly changing dimensions, surrogate keys
• Good for direct end-user access of data
• Bottom-up approach
Relational Model Dimensional Model
If you are a business user, which model is easier to use?
Relational VS. Dimension Approach
Konsep Kimball
Why staging: Limit source contention (ELT), Recoverability, Backup, Auditing
Konsep Inmon
Dari dua pendekatantersebut, timbul sebuahpendekatan baru yang disebut sebagai Hybrid
Konsep Hybrid
Perancangan Datawarehouse
Datawarehouse dibuat untukmendukung pengambilankeputusan pihak manajerial
Tahap pertama dalammerancang datawarehouseadalah mendefinisikaninformasi-informasi apa sajayang dibutuhkan
Ada enam pertanyaan dasaryang ditanyakan sebelummerancang datawarehouse
Pertanyaan 1:Siapa yang membutuhkaninformasi dari datawarehouse?
Pertanyaan 2:Informasi apa saja yang dibutuhkan?
Pertanyaan 3:Seperti apa layout dan isiinformasi-informasi tersebut?
Pertanyaan 4:Kapan informasi tersebutdigunakan?
Pertanyaan 5:Untuk keperluan apa informasitersebut?
Pertanyaan 6:Basis data apa yang menjadisumber informasi tersebut?
Bagaimana
implementasinya?
Pertanyaan 1:Siapa yang membutuhkan informasi daridatawarehouse?
Jawaban:Manajer pemasaran
Pertanyaan 2:Informasi apa saja yang dibutuhkan?
Jawaban:• Barang apa saja yang paling banyak dijual
di lokasi tertentu sepanjang tahun• Barang apa yang paling banyak
memberikan pendapatan sepanjang tahun
Pertanyaan 3:Seperti apa layout dan isi informasi-informasitersebut?
Jawaban:
TAHUN KECAMATAN KATEGORI SUM(TOTAL_PENJUALAN)
2007 ANDIR KONSUMSI 26
2007 SUMUR BANDUNG ATK 17
2007 ASTANA ANYAR ATK 16
2007 BANDUNG WETAN KONSUMSI 15
2007 SUMUR BANDUNG KONSUMSI 13
2007 ANDIR ATK 13
2007 BANDUNG WETAN ATK 7
Barang apa saja yang paling banyak dijual di lokasi tertentu sepanjang tahun?
TAHUN KECAMATAN SUBKATEGORI SUM(TOTAL_PENDAPATAN)
2007 ATK ALAT TULIS 4.270.000
2007 ATK ELEKTRONIK 511.000
2007 KONSUMSI SEMBAKO 116.000
2007 KONSUMSI SNACK 87.100
Barang apa yang paling banyak memberikan pendapatan sepanjang tahun?
Pertanyaan 4:Untuk keperluan apa informasi tersebut?
Jawaban:Dasar untuk menentukan strategipenjualan barang
Pertanyaan 5:Kapan informasi tersebut digunakan?
Jawaban:Awal periode penjualan
Pertanyaan 6:Basis data apa saja yang menjadi sumber informasi tersebut?
Jawaban:• Barang (#kode_barang, nama_barang, kelompok, satuan, harga)• Kategori (#kelompok, sub_kategori, kategori)• Pelanggan (#kode_cust, nama_cust, alamat, kota, kode_pos, telepon)• Lokasi (#kode_pos, kelurahan, kecamatan) • Penjualan (#no_faktur, #kode_barang, qty)• Pembayaran (#no_faktur, tanggal, total, discount, #kode_cust)
Tahap kedua dalam merancangdatawarehouse adalahmenentukan measure dandimension per informasi
Informasi:Barang apa saja yang paling banyak dijual di lokasitertentu sepanjang tahun?
Jawaban:Measure: total penjualanDimension: barang, tahun (waktu/periode), lokasi
Informasi:Barang apa saja yang memberikan pendapatanpaling banyak sepanjang tahun?
Jawaban:Measure: total pendapatanDimension: barang, tahun (waktu/periode)
Dimensi mempunyai hirarki danhirarki ditentukan sesuai denganproses drill down dan roll up pada OLAP
Hirarki Barang:Nama barang > sub kategori > kategori
Hirarki Periode:Minggu > bulan > tahun
Hirarki Lokasi:Kelurahan > kecamatan > kota
BARANG PERIODE LOKASITOTAL
PENJUALANTOTAL
PENDAPATANKODE NAMA SUB
KATEGORIKATEGORI MINGGU BULAN TAHUN KELURAHAN KECAMATAN KOTA
B-001 SUKRO SNACK KONSUMSI 44 11 2007 ARJUNA ANDIR BANDUNG 5 12.500
45 11 2007 ARJUNA ANDIR BANDUNG 1 2.500
45 11 2007 SUKALUYU BANDUNGWETAN
BANDUNG 1 2.500
45 11 2007 BRAGA SUMURBANDUNG
BANDUNG 2 5.000
9 22.500
..
..
TOTAL 54.500
Layout Informasi
Tahap ketiga adalahperancangan konseptualmenggunakan tiga skema yang sudah dijelaskan
Kode_barang
Kode_periode
Kode_lokasi
Total_penjualan
Total_pendapatan
Tabel DimensiLokasi
Tabel DimensiWaktu
kode_barang
nama_barang
sub_kategori
kategori
Kode_lokasi
kelurahan
kecamatan
kota
Kode_periode
minggu
bulan
tahun
Tabel DimensiBarang
Tabel FaktaPenjualan
Model Konseptual
Tahap terakhir adalahmengimplementasikanrancangan skemadatawarehouse ke DBMS
Masing-masing metodologipengembangandatawarehouse punyaproses yang berbeda
OLAP (Online Analytical Processing)
Kategori dari teknologi perangkat lunak yang memungkinkan analist, manajer, dan eksekutif mendapatkan insight pada data secara cepat, konsisten, interaktif, aneka
ragam tampilan dari datawarehouse
OLAP merepresentasikandata dan relasi dalambentuk multidimensional
Representasi data padamultidimensional biasanya disajikan dalambentuk cube
Setiap sisi pada suatucube adalah dimensiyang ada padadatawarehouse
Gambaran Umum Multidimensional Data
Gambaran Umum Multidimensional Data
Kubus 3-dimensi:Tabel fakta:
sale prod-Id store-Id tgl jumlahp1 s1 1 12p2 s1 1 11p1 s3 1 50p2 s2 1 8p1 s1 2 44p1 s2 2 4
tgl 2 s1 s2 s3p1 44 4p2 s1 s2 s3
p1 12 50p2 11 8
tgl 1
Ada empat operasi dasarOLAP pada multidimensional data
1. Aggregation (Roll Up)
2. Navigation to detailed data (Drill Down)
3. Selection (Slice and Dice)
4. Visualization Operation (Pivot)
Operation 1:Roll Up
Roll up mengaggregasikandata pada suatu cube
Aggregasi dibentukdengan dua cara: climbing up sesuai hirarki dimensidan reduksi dimensi
Gambaran Umum Roll Up
Hirarki Locations: street < city < province < country
Gambaran Umum Roll Up
Gambaran Umum Roll Up
tgl 2 s1 s2 s3p1 44 4p2 s1 s2 s3
p1 12 50p2 11 8
tgl 1
s1 s2 s3p1 56 4 50p2 11 8
s1 s2 s3sum 67 12 50
sump1 110p2 19
129
. . .
Contoh: penghitungan total
Operation 2:Drill Down
Drill down mendetailkaninformasi pada suatu cube dan merupakan kebalikandari Roll up
Drill down dibentukdengan dua cara: stepping down hirarki dimensi danpengenalan dimensi baru
Gambaran Umum Drill Down
Hirarki time: day < month < quarter < year
Gambaran Umum Drill Down
Operation 3:Slice
Slice digunakan untukmemilih satu dimensi yang dibutuhkan untuk dibentuksub-cube baru
Gambaran Umum Slice
Time = “Q1”
Gambaran Umum Slice
tgl 2 s1 s2 s3p1 44 4p2 s1 s2 s3
p1 12 50p2 11 8
tgl 1
s1 s2 s3p1 12 50p2 11 8
WAKTU = tanggal 1
Operation 4:Dice
Dice digunakan untuk memilihdua atau lebih dimensi yang dibutuhkan untuk dibentuksub-cube baru
Gambaran Umum Dice
Location = “Toronto” or “Vancouver”Time = “Q1” or “Q2”Item = “Mobile” or “Modem”
Operation 5:Pivot
Pivot memungkinkan rotasi(perubahan baris dan kolom) pada informasi yang dimunculkanpada datawarehouse
Gambaran Umum Pivot
Item dan Location dirotasi
Gambaran Umum Pivot
Recommended