Upload
vukhuong
View
230
Download
0
Embed Size (px)
Citation preview
5
BAB 2
2 LANDASAN TEORI
2.1 Pengertian Data
Menurut Inmon (2002, p388), data adalah rekaman dari fakta-fakta, konsep-
konsep, atau instruksi-instruksi pada media penyimpanan untuk komunikasi,
pengambilan, dan pemrosesan dengan cara otomatis dan presentasi sebagai informasi
yang dapat dimengerti oleh manusia.
Menurut Turban et al (2005, p38), data adalah deskripsi dasar tentang sesuatu,
kejadian, kegiatan, dan transaksi yang ditangkap, direkam, disimpan, dan
diklasifikasikan, namun tidak terorganisir untuk menyampaikan suatu arti khusus.
Menurut Hoffer, Prescott dan McFadden (2002,p5), data adalah sebuah
representasi dari objek-objek dan kejadian-kejadian yang berarti dan penting di
lingkungan pemakai.
Berdasarkan pengertian–pengertian di atas, dapat disimpulkan bahwa data
merupakan rekaman dari fakta-fakta tentang sesuatu, kejadian, dan transaksi yang
disimpan pada media penyimpanan sebagai informasi yang dapat dimengerti oleh
manusia.
2.2 Pengertian Database
Menurut Inmon (2002, p388), database adalah sebuah koleksi data yang disimpan
yang saling berhubungan berdasarkan sebuah skema. Sebuah database dapat melayani
satu atau banyak aplikasi.
6
Menurut Connoly dan Begg (2002, p14), database adalah sekumpulan dari data
yang terhubung secara logis, dan deskripsi dari data ini, yang dirancang untuk
memenuhi kebutuhan informasi dari sebuah organisasi
Berdasarkan pengertian–pengertian di atas, dapat disimpulkan bahwa database
adalah sekumpulan data yang disimpan yang saling berhubungan secara logis
berdasarkan sebuah skema.
2.3 Database Management System (DBMS)
Menurut Connolly dan Begg (2002, p16), Database Management System (DBMS)
adalah sistem perangkat lunak yang memungkinkan pengguna untuk mendefinisikan,
membuat, menjaga, dan mengontrol akses ke database.
Berdasarkan pengertian di atas, dapat disimpulkan bahwa Database Management
System (DBMS) adalah system perangkat lunak yang digunakan untuk mendefinisikan,
membuat, menjaga, dan mengontrol akses ke database.
2.4 Pengertian OLTP (Online Transaction Processing)
Menurut Turban et al (2005, p241), OLTP adalah Transaction Processing System
(TPS) beroperasi pada arsitektur client/server, memperbolehkan pemasok organisasi
untuk masuk TPS melalui ekstranet dan memperhatikan tingkat persediaan perusahaan
atau jadwal produksi.
Berdasarkan pengertian di atas, dapat disimpulkan bahwa OLTP adalah sistem
yang mengatur transaction processing yang mengunakan arsitektur client/server.
7
2.5 Pengertian OLAP (Online Analytical Processing)
Menurut Connolly dan Begg (2002, p1101), OLAP (Online Analytical Processing)
adalah sintesis, analisis dan konsolidasi dinamis dari sejumlah besar multidimensional
data.
Berdasarkan pengertian di atas, dapat disimpulkan bahwa OLAP adalah analisis
dari sejumlah besar multidimensional data.
2.6 Pengertian Data Warehouse
Menurut Inmon (2002, p31), data warehouse adalah koleksi data yang berorientasi
subjek (subject oriented), terintegrasi (intergrated), tidak berubah (non volatile),
memiliki variasi waktu (time variant) yang mendukung keputusan manajemen.
Menurut Connolly dan Begg (2002, p1047), data warehouse adalah suatu
kumpulan data yang bersifat subject-oriented, integrated, time-variant, dan non-volatile
dalam mendukung proses pengambilan keputusan.
Menurut Berson dan Smith (2001,p4), data warehouse adalah gabungan teknologi
yang bertujuan mengefektifkan integrasi database operasional ke dalam lingkungan yang
memungkinkan penggunaan secara strategis.
Menurut Poe (1996,p24) data warehouse adalah database yang bersifat analisis
yang digunakan sebagai landasan dalam sistem pendukung keputusan.
Berdasarkan pengertian–pengertian di atas, dapat disimpulkan bahwa data
warehouse adalah suatu kumpulan data yang bersifat berorientasi subjek (subject
oriented), terintegrasi (intergrated), tidak berubah (non volatile), memiliki variasi waktu
(time variant) yang mendukung proses pengambilan keputusan.
8
2.7 Perbandingan Data Operasional dan Data Warehouse
Secara umum, perbandingan antara data operasional dan data warehouse:
Tabel 2.1 Perbandingan Umum antara Data Operasional dan Data warehouse (Inmon, 2002, p15)
Data Operasional Data Warehouse • Berorientasi aplikasi • Berorientasi subjek • Detail • Ringkas dan telah disaring • Dapat di-update • Tidak dapat di-update • Disajikan untuk komunitas operasional • Disajikan untuk komunitas manajerial • Sesuai dengan SDLC (System
Development Life Cycle) • Siklus hidup yang lebih lengkap
• Jumlah data yang diproses kecil • Jumlah data yang diproses besar • Non-redundancy (Normalisasi) • Redundancy (Denormalisasi) • Struktur yang tetap / statis • Struktur yang fleksibel • Mendukung operasional sehari-hari • Mendukung kebutuhan manajerial • Pengaksesan data besar • Pengaksesan data kecil / sedang
2.8 Karakteristik Data Warehouse
Menurut Inmon (2002, p31), beberapa karaketeristik data warehouse antara lain :
2.8.1 Subject Oriented
Pada awalnya sistem pengoperasian diatur berdasarkan aplikasi dari perusahaan.
Contohnya untuk perusahaan asuransi, aplikasi yang digunakan adalah kesehatan,
kehidupan, dan kecelakaan. Subjek dari perusahaan tersebut adalah pelanggan,
kebijakan, premi, dan klaim. Jadi pada data warehouse tidak berdasarkan aplikasi
melainkan berdasarkan subjek.
2.8.2 Integrated
Karakteristik kedua dari data warehouse adalah terintegrasi. Dari semua aspek
data warehouse, integrasi adalah yang terpenting. Data diambil dari beberapa sumber ke
dalam data warehouse. Data tersebut diubah, diformat ulang, disusun ulang, diringkas
9
dan seterusnya. Hasil dari data tersebut tinggal di data warehouse mempunyai sebuah
gambar fisik perusahaan.
Gambar 2.1 Permasalahan dalam integrasi (Inmon, 2005, p31)
2.8.3 Non volatile
Karakter penting ketiga dari data warehouse adalah tidak berubah (non volatile).
Data dapat diakses, dimanipulasi (update) pada lingkungan operasional akan tetapi, pada
data warehouse data hanya dapat di-load dan diakses tetapi tidak dapat di-update.
10
2.8.4 Time variant
Karakteristik terakhir dari data warehouse adalah variasi waktu. Maksudnya
adalah setiap unit data dalam data warehouse akurat dalam suatu momen dalam waktu.
Tabel 2.2 Perbandingan Time Variant antara Data Operasional dan Data Warehouse (Inmon, 2002, p35)
Data Operasional Data Warehouse • Mempunyai time horizon 60-90 hari • Mempunyai time horizon 5-10 tahun • Data atau record dapat di-update • Data atau record tidak dapat di-update • Key structure dapat termasuk atau
tidak termasuk elemen waktu • Key structure termasuk elemen waktu
2.9 Struktur Data Warehouse
Menurut Inmon (2002, p35), data mengalir ke dalam data warehouse dari
lingkungan operasional. Biasanya data mengalami transformasi signifikan dari tingkat
operasional ke tingkat data warehouse. Data dilewatkan dari current detail data ke older
detail. Setelah data diringkas, data tersebut dilewatkan dari current detail ke lightly
summarized data, kemudian dari lightly summarized data ke highly summarized data.
11
Gambar 2.2 Struktur Data Warehouse (Inmon, 2002, p36)
Current Detailed Data
Current detailed data merupakan data yang sekarang yang diperoleh dari database
operasional. Data ini sangat banyak dan detail.
Old Detailed Data
Old detailed data merupakan ringkasan data atau summary didapat dari current
detail data yang di-backup dan disimpan dalam media penyimpanan yang terpisah. Data
disimpan dalam sebuah penyimpanan seperti magnetic tape atau optical disk.
12
Lightly Summarized Data
Lightly summarized data merupakan data ringkasan atau summary dari current
detailed data yang bersifat "total summary" dan rinci. Lightly summarized data biasa
disebut data mart.
Highly Summarized Data
Highly summarized data merupakan data yang telah diringkas secara menyeluruh
dan digunakan untuk mendukung pengambilan keputusan.
Metadata
Menurut Inmon (2002, p393), metadata adalah data tentang data, deskripsi dari
struktur, isi, kunci, indeks, dan lain-lain dari data.
Menurut Inmon (2005, p269-270), hal-hal penting dari metadata meliputi:
a. ID dokumen
b. Tanggal entri ke warehouse
c. Deskripsi dari dokumen
d. Sumber dari dokumen
e. Tanggal sumber dari dokumen
f. Klasifikasi dokumen
g. Indeks kata
h. pembersihan tanggal
i. Lokasi fisikal
j. Panjang dokumen
k. Referensi terkait
13
Menurut Connolly dan Begg (2002, p1055), metadata digunakan untuk berbagai
tujuan meliputi :
a. Proses ekstraksi dan loading
Metadata digunakan untuk memetakan sumber data ke dalam pandangan
umum dari data dalam warehouse.
b. Proses manajemen warehouse
Metadata digunakan untuk mengotomatiskan pembuatan tabel ringkasan.
c. Sebagai bagian dari proses manajemen query
Metadata digunakan untuk menghubungkan suatu query dengan sumber data
yang tepat.
2.10 Arsitektur Data warehouse
Arsitektur data warehouse merupakan suatu kerangka yang dirancang dengan cara
memahami bagaimana data dipindahkan di dalam sistem. Karakteristik arsitektur dari
data warehouse adalah:
a. Data diambil dari sistem informasi yang telah ada, database, dan file.
b. Data tersebut diintegrasikan dan ditransformasikan sebelum disimpan ke dalam
data warehouse.
c. Data warehouse adalah read-only database yang diciptakan untuk mengambil
keputusan.
d. User mengakses data warehouse melalui front-end tool atau aplikasi.
14
Gambar 2.3 Gambar Arsitektur Data warehouse (Connolly dan Begg , 2002, p1053)
Komponen utama data warehouse menurut Connolly dan Begg (2002, p1053)
adalah:
a. Operational Data, sumber data ini didapat dari data operasional yang
dilakukan pada database awal.
b. Operational Data Store (ODS), tempat penyimpanan data operasional yang
sedang terjadi dan yang terintegrasi digunakan untuk analisa.
c. Load Manager (sering juga disebut komponen front-end), menampilkan semua
operasi yang diasosiasikan dengan data yang telah diekstrak dan di-load ke
dalam warehouse.
d. Warehouse Manager, menampilkan semua operasi yang diasosiasikan dengan
manajemen data dalam warehouse.
15
e. Query Manager (disebut juga dengan komponen back-end), menampilkan
semua operasi yang diasosiasikan dengan manajemen dari queries pengguna.
f. Archive/ Backup Data, area warehouse yang menyimpan detailed dan
summarized data yang bertujuan sebagai arsip dan backup data.
g. End-User Access Tools, dapat dikategorikan menjadi lima grup utama: data
reporting and query tools, application development tools, executive
information systems (EIS) tools, online analytical processing (OLAP) tools and
data mining tools.
h. Detailed Data, Meta-data, Lightly and Hightly Summarized Data, untuk
komponen ini sudah dijelaskan pada bagian struktur data warehouse.
2.11 Aliran Data Pada Data Warehouse
Menurut Connolly dan Begg (2002, p1057), Data warehouse memfokuskan pada
manajemen dari lima aliran data utama yaitu inflow, upflow, downflow, outflow, dan
meta-flow. Proses yang berasosiasi dengan setiap aliran data, yaitu:
a. Inflow: Proses yang berhubungan dengan pengekstrakan (extraction),
pembersihan (cleansing), dan pemuatan (loading) data dari sistem sumber ke
dalam data warehouse.
b. Upflow: Proses yang berhubungan dengan penambahan nilai dari data dalam
data warehouse melalui peringkasan (summarizing), pengemasan (packaging),
dan pendistribusian data.
c. Downflow: Proses yang berhubungan dengan pengarsipan (archiving) dan
pembuatan cadangan (back-up) data dalam data warehouse.
16
d. Outflow: Proses yang berhubungan dengan pengadaan data agar tersedia bagi
end-user.
e. Meta-flow: Proses yang berhubungan dengan manajemen dari metadata.
Gambar 2.4 Gambar Aliran Data warehouse (Connolly dan Begg , 2002, p1058)
2.12 Keuntungan Data warehouse
Menurut Connolly dan Begg (2002, p1048), pengimplementasian yang sukses dari
sebuah data warehouse dapat memberikan keuntungan besar bagi perusahaan, yaitu:
1. Keuntungan potensial yang besar dalam investasi.
Suatu organisasi harus memiliki sumber daya dalam jumlah besar untuk
memastikan kesuksesan pengimplementasian data warehouse dan jumlah biaya
yang dikeluarkan bervariasi besarnya tergantung dari solusi teknis yang
17
tersedia. Tetapi investasi dalam data warehouse dapat memberikan keuntungan
yang besar setelah pengimplementasiannya.
2. Keuntungan yang kompetitif
Keuntungan kompetitif didapatkan dengan memperbolehkan para pengambil
keputusan untuk mengakses data yang dapat mengungkapkan data-data yang
sebelumnya tidak tersedia, tidak diketahui dan informasi yang tidak tercatat.
3. Meningkatnya produktivitas dari pengambil keputusan perusahaan
Dengan mentransformasikan data menjadi informasi yang berarti, data
warehouse memungkinkan para manajer bisnis melakukan analisa yang lebih
konsisten, akurat dan substantive sehingga terjadi peningkatan produktivitas
dari pengambilan keputusan perusahaan.
Menurut Mallach (2000,p182), kerugian dari penerapan data warehouse yaitu :
• Terdapat beban tambahan pada sistem pusat karena perlunya melakukan transfer
data diantara dua sistem (sistem operasional dan data warehouse) untuk menjaga
data tetap update.
• Harus mempunyai karyawan yang mengerti kedua sistem tersebut.
• User yang mengakses kedua sistem memerlukan dua tipe terminal.
• Transfer data dari sistem operasional kedata warehouse memerlukan waktu yang
relatif lama.
2.13 Data Mart
Menurut Connoly (2002, p 1067), data mart adalah bentuk atau versi yang lebih
kecil dari data warehouse, biasanya mengandung data yang berhubungan dengan sebuah
18
area fungsional dari perusahaan atau memiliki lingkup yang terbatas. Berikut
karakteristik yang membedakan antara data mart dengan data warehouse:
a. Data mart berfokus pada kebutuhan pengguna yang berhubungan dengan satu
bagian departemen atau fungsi bisnis.
b. Data mart tidak berisi data operasional yang bersifat detail.
c. Data mart lebih mudah dimengerti dan digunakan karena berisi data yang lebih
sedikit dari data warehouse.
2.14 Teori Permodelan Data warehouse
Untuk pemodelan data warehouse, lebih digunakan teknik pemodelan
dimensional. Dengan teknik ini, dapat dibuat tabel fakta, tabel dimensi, dan membangun
relasi antara masing-masing tabel dimensi dan tabel fakta. Ada beberapa hasil
pemodelan tersebut, antara lain :
2.14.1 Skema Bintang (Star Schema)
Menurut Ponniah (2001, p210-216), skema bintang (star schema) adalah teknik
dasar desain data untuk data warehouse. Struktur skema bintang adalah suatu struktur
yang dapat dengan mudah dipahami dan digunakan oleh pengguna seperti yang terlihat
pada Gambar 2.5. Struktur tersebut mencerminkan bagaimana pengguna biasanya
memandang ukuran-ukuran kritis mengikuti dimensi-dimensi bisnis yang ada.
19
Gambar 2.5 Contoh Skema Bintang (www.juergen-konicek.de/Pictures/DWHSchemas.gif)
Karakteristik dari komponen skema bintang:
1. Tabel dimensi
a. Key tabel dimensi
Key tabel dimensi merupakan primary key dari tabel dimensi yang
mengidentifikasi setiap baris dalam tabel secara unik.
b. Merupakan tabel yang lebar
Tabel dimensi memiliki jumlah kolom atau atribut yang banyak, oleh
karena itu tabel dimensi bersifat lebar.
20
c. Atribut berupa teks
Dalam tabel dimensi, jarang ditemukan nilai numerik untuk perhitungan,
atribut umumnya berupa teks yang merepresentasikan deskripsi tekstual
dari komponen-komponen dalam dimensi bisnis.
d. Atribut-atribut tidak berhubungan secara langsung
Sebagai contoh, ukuran paket dan merek produk tidak saling berhubungan,
namun sama-sama dapat menjadi atribut tabel dimensi produk.
e. Tidak dinormalisasi
Untuk kinerja query yang efisien, paling baik jika query mengambil dari
tabel dimensi dan langsung ke tabel fakta tanpa melalui tabel perantara
yang akan terbentuk jika tabel dimensi dinormalisasi.
f. Kemampuan drill-down dan roll-up
Atribut-atribut dalam tabel dimensi menyediakan kemampuan untuk
mendapatkan detail dari tingkat tinggi agregasi sampai tingkat detail yang
rendah. Sebagai contoh, jumlah penjualan dapat dilihat berdasarkan
propinsi, lalu dapat drill-down ke kota dan kode pos atau total penjualan
berdasarkan kode pos dapat roll-up ke kota dan propinsi.
g. Terdapat beberapa hirarki
Berbagai bagian perusahaan dapat mengelompokkan dimensi dengan cara
yang berbeda, sehingga terbentuk lebih dari 1 hirarki.
h. Jumlah record yang lebih sedikit
Tabel dimensi umumnya memiliki jumlah record atau baris yang lebih
sedikit dari tabel fakta.
21
2. Tabel fakta
a. Concatenated key
Baris dalam tabel fakta diidentifikasi dengan menggunakan primary key
dari tabel-tabel dimensi, maka primary key dari tabel fakta merupakan
gabungan primary key dari semua tabel dimensi.
b. Data grain
Data grain merupakan tingkat detail untuk pengukuran. Sebagai contoh,
jumlah pemesanan berhubungan dengan jumlah produk tertentu pada suatu
pesanan, tanggal tertentu, untuk pelanggan spesifik dan diperoleh oleh
seorang perwakilan penjualan spesifik tertentu. Jika jumlah pesanan dilihat
sebagai jumlah untuk suatu produk perbulan, maka data grain-nya berbeda
dan pada tingkat yang lebih tinggi.
c. Fully additive measures
Agregasi dari fully additive measures dilaksanakan dengan penjumlahan
sederhana nilai-nilai atribut tersebut.
d. Semiadditive measures
Semiadditive measures merupakan nilai yang tidak dapat langsung
dijumlahkan, sebagai contoh persentase keuntungan.
e. Tabel besar, tidak lebar
Tabel fakta umumnya memiliki lebih sedikit atribut daripada tabel dimensi,
namun memiliki jumlah record yang lebih banyak.
f. Sparse data
Tabel fakta tidak perlu menyimpan record yang nilainya null, maka tabel
fakta dapat memiliki gap.
22
g. Degenerate dimensions
Terdapat elemen-elemen data dari sistem operasional yang bukan
merupakan fakta ataupun dimensi, seperti nomor pesanan, nomor tagihan,
dan lain-lain. Namun atribut-atribut tersebut dapat berguna dalam jenis
analisis tertentu. Sebagai contoh, mencari rata-rata jumlah produk per
pesanan, maka produk harus dihubungkan ke nomor pesanan untuk
mendapatkan nilai rata-rata. Atribut-atribut tersebut disebut degenerate
dimension dan disimpan sebagai atribut dari tabel fakta.
Keuntungan skema bintang:
1. Mudah dipahami pengguna
Skema bintang menggambarkan dengan jelas bagaimana pengguna berpikir
dan memerlukan data untuk query dan analisa. Skema bintang menggambarkan
hubungan antar tabel sama seperti cara pengguna melihat hubungan tersebut
secara normal.
2. Mengoptimalkan navigasi
Skema bintang mengoptimalisasikan navigasi melewati database sehingga
lebih mudah dilihat. Meskipun hasil query terlihat kompleks, tetapi navigasi itu
memudahkan pengguna.
3. Paling cocok untuk pemrosesan query
Skema bintang paling cocok untuk pemrosesan query karena skema ini
berpusat pada query. Tanpa bergantung pada banyak dimensi dan kompleksitas
query, setiap query akan dengan mudah dijalankan, pertama dengan memilih
23
baris dari table dimensi dan kemudian menemukan baris yang sama di tabel
fakta.
2.14.2 Skema Snowflake (Snowflake Schema)
Menurut Ponniah (2002, p235), Snowflake merupakan variasi lain dari skema
bintang dimana tabel dimensi dari skema bintang dinormalisasi, seperti yang
digambarkan pada Gambar 2.6. Prinsip dasar dari skema ini tidak jauh berbeda dari
skema bintang. Dalam menormalisasi tabel dimensi, ada beberapa pilihan yang dapat
diperhatikan, antara lain :
1. Secara parsial, lakukan normalisasi hanya beberapa tabel dimensi saja, dan
sisakan yang lain tetap utuh.
2. Secara lengkap atau parsial, lakukan normalisasi hanya pada beberapa tabel
dimensi, dan tinggalkan yang tersisa dengan utuh.
3. Secara parsial, lakukan normalisasi pada setiap tabel dimensi.
4. Secara lengkap, lakukan normalisasi pada setiap tabel dimensi.
Keuntungan dari skema snowflake:
1. Ukuran penyimpanan kecil di dalam tempat penyimpanan.
2. Struktur yang normal lebih mudah untuk di-update dan dijaga.
Kerugian dari skema snowflake :
1. Skemanya kurang intuitif / jelas dan pengguna akhir terhambat oleh
kompleksitas.
2. Sulit untuk mencari isi skema karena terlalu kompleks.
3. Performa query menurun karena adanya tambahan gabungan tabel.
24
Gambar 2.6 Contoh Skema Snowflake (www.juergen-konicek.de/Pictures/DWHSchemas.gif)
2.15 ETL (Extract, Transform, Loading)
ETL (Extract, Transform, and Load) adalah proses-proses dalam data warehouse
yang meliputi:
1. Mengekstrak data dari sumber-sumber eksternal.
2. Mentransformasikan data ke bentuk yang sesuai dengan keperluan.
3. Memasukkan data ke target akhir, yaitu data warehouse.
ETL merupakan proses yang sangat penting, dengan ETL, data dapat dimasukkan
ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data
dengan sistem yang sudah ada sebelumnya.
Tujuan ETL adalah mengumpulkan, menyaring, mengolah, dan menggabungkan
data-data yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse.
Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data
warehouse seperti data yang historis, terpadu, terangkum, statis, dan memiliki struktur
yang dirancang untuk keperluan proses analisis.
25
2.15.1 Extract
Langkah pertama pada proses ETL adalah mengekstrak data dari sumber-sumber
data. Kebanyakan proyek data warehouse menggabungkan data dari sumber-sumber
yang berbeda. Sistem-sistem yang terpisah sangat mungkin menggunakan format data
yang berbeda.
Ektraksi adalah mengubah data ke dalam suatu format yang berguna untuk proses
transformasi. Pada hakekatnya proses ekstraksi adalah proses penguraian dari data yang
diekstrak untuk mendapatkan struktur atau pola data yang diharapkan. Jika struktur atau
pola data tidak sesuai dengan harapan maka data tidak dimasukkan ke dalam data
warehouse.
2.15.2 Transform
Tahapan transformasi menggunakan serangkaian aturan atau fungsi untuk
mengekstrak data dari sumber dan selanjutnya akan dimasukkan ke data warehouse.
Berikut adalah hal-hal yang dapat dilakukan dalam tahapan transformasi:
1. Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data
warehouse.
2. Menterjemahkan nilai-nilai yang berupa kode (contohnya apabila database
sumber menyimpan nilai 1 untuk laki-laki dan nilai 2 untuk perempuan, tetapi
data warehouse yang telah ada menyimpan M untuk laki-laki dan F untuk
perempuan, ini disebut dengan automated data cleansing, tidak ada
pembersihan secara manual yang ditunjukkan selama proses ETL).
3. Mengkodekan nilai-nilai ke dalam bentuk bebas (Contohnya memetakan
“Male” , “1” dan “Mr” ke dalam M).
26
4. Melakukan perhitungan nilai-nilai baru (Contohnya sale_amount = qty *
unit_price).
5. Menggabungkan data secara bersama-sama dari berbagai sumber.
6. Membuat ringkasan dari sekumpulan baris data (Contohnya total penjualan
untuk setiap toko atau setiap bagian).
7. Men-generate nilai surrogate key.
8. Transposing atau pivoting (Mengubah sekumpulan kolom menjadi sekumpulan
baris atau sebaliknya).
9. Memisahkan sebuah kolom menjadi berbagai kolom (Contohnya meletakkan
sebuah comma-separated list yang dispesifikasikan sebagai sebuah string
dalam satu kolom sebagai nilai yang tersendiri dalam kolom yang berbeda).
10. Menggunakan berbagai bentuk validasi data baik yang sederhana maupun
kompleks.
2.15.3 Loading
Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam
target akhir, yang biasanya ke dalam suatu data warehouse. Jangka waktu proses ini
tergantung pada kebutuhan organisasi. Beberapa data warehouse dapat setiap minggu
menulis keseluruhan informasi yang ada secara kumulatif, data diubah, sementara data
warehouse yang lain (atau bagian lain dari data warehouse yang sama) dapat
menambahkan data baru dalam suatu bentuk yang historikal, contohnya setiap jam.
Waktu dan jangkauan untuk mengganti atau menambah data tergantung dari
perancangan data warehouse pada waktu menganalisis keperluan informasi.
27
Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam
skema database sebagai suatu trigger yang diaktifkan pada waktu me-load data
(Contohnya uniqueness, referential integrity, mandatory fields), yang juga berkontribusi
untuk keseluruhan performance dan kualitas data dari proses ETL.
Masalah-masalah yang terjadi dalam ETL adalah sumber-sumber data umumnya
sangat bervariasi diantaranya:
1. Platform mesin dan operating system yang berlainan.
2. Mungkin melibatkan sistem kuno dengan teknologi basis data yang sudah
ketinggalan zaman.
3. Kualitas data yang berbeda-beda.
4. Aplikasi sumber data mungkin menggunakan nilai data (representasi) internal
yang sulit dimengerti.
28
Gambar 2.7 Extract, Transform, Loading (ETL) (http://www.unisys.com/eprise/main/admin/corporate/doc/ELTSQL.pdf)