View
61
Download
1
Category
Preview:
Citation preview
MODUL
DATA WAREHOUSE
&
BUSINESS INTELLIGENCE
Disusun oleh :
Sukmawati Anggraeni Putri Mkom. Indah Purnamasari ST, MKom
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
NUSA MANDIRI
JAKARTA
2019
MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE
2
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat Allah SWT, yang telah memberikan
rahmat dan hidayahnya sehingga modul Jaringan Komputer ini dapat terselesaikan dengan
baik. Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang
mempelajari mata kuliah Data warehouse & Business Intelligence dengan software Rapid
Miner.
Tak lupa penulis mengucapkan banyak terima kasih kepada semua pihak yang
telah membantu dengan tenaga dan pikirannya, terima kasih juga kepada rekan–rekan
instruktur, dosen dan semuanya yang tidak bisa disebutkan satu persatu, yang selalu
mendukung penulis sehingga modul ini sehingga dapat selesai sesuai yang kita
inginkan semua.
Penulis menyadari masih banyak kekurangan dalam penyusunan modul ini.
Untuk itu saran dan kritik yang membangun sangat penulis harapkan guna perbaikan
dan pengembangan modul ini ke depan.
Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat
dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk mahasiswa umum yang
ingin mempelajari mata kuliah Data warehouse & Business Intelligence dengan software
Rapid Miner.
Jakarta, Juli 2019
Penulis
MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE
3
DAFTAR ISI
Cover ........................................................................................................................................ 1
Kata Pengantar ......................................................................................................................... 2
Daftar Isi .................................................................................................................................. 3
Pertemuan 1 Business Intelligence dan penjelasan tugas ....................................................... 4
Pertemuan 2 Data Warehousing..............................................................................................7
Pertemuan 3 Business Performance Management...................................................................9
Pertemuan 4 Business Performance Management Methodologies........................................10
Pertemuan 5 Pengantar Data Mining......................................................................................13
Pertemuan 6 Metode Learning Algoritma Data Mining........................................................18
Pertemuan 9 Studi Kasus ...................................................................................................... 22
Pertemuan 10-14 Pembuatan Laporan dan Presentasi ........................................................... 29
Daftar Pustaka.........................................................................................................................30
MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE
4
Pertemuan 1
Business Intelligence
1. Definisi
BI adalah istilah umum yang menggabungkan arsitektur, alat, basis data, alat analisis, aplikasi, dan
metodologi.
Tujuan utama BI adalah untuk memungkinkan akses mudah ke data (dan model) untuk memberikan
manajer bisnis dengan kemampuan untuk melakukan analisis
Sejarah BI
Istilah BI diciptakan oleh Gartner Group pada pertengahan 1990-an
Evolusi Kemampuan BI
Arsitektur BI
Sistem BI memiliki empat komponen utama :
-Data warehouse, dengan data sumbernya
-Bussiness Analitycs, kumpulan alat untuk memanipulasi, menambang, dan menganalisis data di
gudang data;
-Bussiness Performance Management (BPM) untuk memantau dan menganalisis kinerja
-User interface(mis., dashboard)
Model BI
Keunggulan BI
Kemampuan untuk memberikan informasi yang akurat ketika dibutuhkan, termasuk pandangan waktu
nyata dari kinerja perusahaan dan bagian-bagiannya
Sebuah survei oleh Thompson (2004)
-Pelaporan lebih cepat, lebih akurat (81%)
-Pengambilan keputusan yang lebih baik (78%)
-Peningkatan layanan pelanggan (56%)
-Peningkatan pendapatan (49%)
Hubungan DSS dengan BI
MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE
5
Elemen Sistem Kerja
Kategori Alat Utama untuk MSS
2. Penjelasan Tugas
-Soal Latihan Individu setiap pertemuan
-Tugas Kelompok
a. Buat Kelompok maximal 4 orang/kelompok.
b. Pengolahan data menggunakan tools rapidminer
c. Menggunakan salahsatu metode data mining
d. Dataset menggunakan data public atau private, setiap kelompok beda dataset
e. Kumpulkan tugas kelompok tersebut berupa : makalah, dan powerpoint pada pertemuan 10 dan
bisa dipresentasikan.
f. Mengumpulkan draft artikel ilmiah.
g. Nilai project & presentasi akan menjadi nilai kelompok, keaktifan dan nilai penguasaan materi
3. Kriteria Penilaian
a. Penilaian secara kelompok:
1) Penilaian data dan metode data mining = 60% (kesesuaian data dan metode data mining)
2) Penilaian testing, presentasi = 40% (Eksekusi program, kesesuaian tampilan, cara
presentasi)
TOOL CATEGORY TOOLS AND THEIR ACRONYMS
Data management Databases and database management system (DBMS)
Extraction, transformation, and load (ETL) systems
Data warehouses (DW), real-time DW, and data marts
Reporting status tracking Online analytical processing (OLAP)
Executive information systems (EIS)
Visualization Geographical information systems (GIS)
Dashboards, Information portals
Multidimensional presentations
Business analytics Optimization, Web analytics
Data mining, Web mining, and text mining
Strategy and performance
management
Business performance management (BPM)/
Corporate performance management (CPM)
Business activity management (BAM)
Dashboards and Scorecards
Communication and
collaboration
Group decision support systems (GDSS)
Group support systems (GSS)
Collaborative information portals and systems
Social networking Web 2.0, Expert locating systems
Knowledge management Knowledge management systems (KMS)
Intelligent systems Expert systems (ES)
Artificial neural networks (ANN)
Fuzzy logic, Genetic algorithms, Intelligent agents
Enterprise systems Enterprise resource planning (ERP),
Customer Relationship Management (CRM), and
Supply-Chain Management (SCM)
MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE
6
b. Penilaian secara individu:
1) Range nilai: 0-100
2) Nilai individu diketahui pada saat tanya jawab, ketika kelompok mereka
melakukan presentasi.
3) Nilai rata-rata per individu=(total nilai kelompok + nilai individu) / 2.
4) Nilai rata-rata per individu yang diinput di web sebagai nilai UAS.
4. Contoh Penilaian
Data dan Metode : 60% x 100 =60
Testing, Presentasi : 40% x 100 = 40
TOTAL NILAI KELOMPOK : 100
NILAI INDIVIDU : 100
Nilai Rata-rata = (100+100)/2
Nilai UAS = 100
5. Project Program Data Mining
a. Klasifikasi
b. Asosiasi
c. Clustering
d. Prediction / Forecasting
7
MODUMM
PERTEMUAN 2
IP Address dan Subnetting
1. Definisi
Data Warehouse adalah kumpulan desain basis data terintegrasi dan berorientasi
subjek untuk mendukung fungsi DSS, di mana setiap unit data adalah non-volatile
dan relevan dengan waktu tertentu
2. Karakteristik DW
3. Data warehousing Environment
-Operational data stores (ODS)
-Operational Data Marts
-Enterprise data warehouse (EDW)
-Metadata
4. Arsitektur Umum DW
5. Extraction, Transformation, and Load (ETL) Process
6. Manfaat DW
✓ Mengizinkan tampilan konsolidasi data perusahaan
✓ Informasi yang lebih baik dan lebih tepat waktu
✓ Peningkatan kinerja sistem
✓ Penyederhanaan akses data
Manfaat tidak langsung dari data warehouse
✓ Meningkatkan pengetahuan bisnis
✓ Menghadirkan keunggulan kompetitif
✓ Meningkatkan layanan dan kepuasan pelanggan
✓ Memfasilitasi pengambilan keputusan
✓ Membantu dalam mereformasi proses bisnis
7. Pengembangan DW
8. Resiko Implementasi Dw
9. Hal yang harus dihindari untuk keberhasilan DW
10. Comparing Traditional and Active DW
8
MODUMM
11. DW Administration, Scalability dan Security
12. Tugas Individu Latihan Soal Per Pertemuan
9
MODUMM
PERTEMUAN 3
Business Performance Management
1. Definisi
Business Performance Management (BPM) adalah Sistem real-time yang mengingatkan manajer
akan peluang potensial, masalah yang akan datang, dan ancaman, dan kemudian memberdayakan
mereka untuk bereaksi melalui model dan kolaborasi
2. BPM dan BI
BPM adalah hasil dari BI dan menggabungkan banyak teknologi, aplikasi, dan tekniknya
3. Closed Loop
-Strategize
-Plan
-Monitor/analyze
-Act/adjust
4. Sistem Pengukuran Kinerja (KPI)
Suatu sistem yang membantu manajer dalam melacak implementasi strategi bisnis dengan
membandingkan hasil aktual dengan sasaran dan sasaran strategis
5. Tugas Individu Latihan Soal Per Pertemuan
10
MODUMM
PERTEMUAN 4
Business Performance Management Methodologies
1. Balanced scorecard (BSC)
Metodologi pengukuran dan manajemen kinerja yang membantu menerjemahkan
keuangan, pelanggan, proses internal, dan tujuan serta sasaran pembelajaran dan
pertumbuhan ke dalam serangkaian inisiatif yang dapat ditindaklanjuti,
2. Six Sigma
Metodologi manajemen kinerja yang bertujuan mengurangi jumlah cacat dalam proses
bisnis sedekat mungkin dengan sebisamungkin nol cacat per juta peluang/defects per
million opportunities (DPMO)
3. Arsitektur BPM
Desain logis dan fisik suatu sistem
Sistem BPM terdiri dari tiga bagian logis:
-Aplikasi BPM
-Pusat Informasi (Information Hub)
-Sumber Sistem (Source Systems)
Sistem BPM terdiri dari tiga bagian fisik:
-Tingkat Database
-Tingkat Application
-Client atau user interface
11
MODUMM
4. Aplikasi BPM
✓ Manajemen strategi
✓ Penganggaran, perencanaan, dan perkiraan
✓ Konsolidasi keuangan
✓ Pemodelan dan optimasi profitabilitas
✓ Pelaporan keuangan, perundang-undangan, dan manajemen
✓
5. Dashboard
Dashboards dan scorecards keduanya menampilkan tampilan visual dari informasi
penting yang dikonsolidasikan dan disusun dalam satu layar sehingga informasi dapat
dicerna dengan sekali pandang dan mudah dieksplorasi
12
MODUMM
Kinerja dashboards
Tampilan visual yang digunakan untuk memantau kinerja operasional (bentuk bebas ...)
Kinerja scorecards
Tampilan visual yang digunakan untuk memetakan kemajuan terhadap sasaran dan
target strategis dan taktis (tindakan yang telah ditentukan ...)
Tiga jenis kinerja dashboards:
Operational dashboards
Tactical dashboards
Strategic dashboards
6. Tugas Individu latihan soal perpertemuan
13
MODUMM
PERTEMUAN 5
Pengantar Data Mining
1. Definisi
Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau
menemukan pola dari suatu data yang besar
Ekstraksi dari data ke pengetahuan:
Data: fakta yang terekam dan tidak membawa arti
Pengetahuan: pola, rumus, aturan atau model yang muncul dari data
Nama lain data mining:
✓ Knowledge Discovery in Database (KDD)
✓ Knowledge extraction
✓ Pattern analysis
✓ Information harvesting
✓ Business intelligence
✓ Big data
2. Contoh Data
3. Hubungan Data mining dan Bidang lain
Himpunan DataMetode Data
MiningPengetahuan
14
MODUMM
4. Masalah data mining
1.Jumlah data yang luar biasa
Algoritma harus sangat skalabel untuk ditangani seperti tera-byte data
2. Dimensi data yang tinggi
Micro-array mungkin memiliki puluhan ribu dimensi
3. Kompleksitas data yang tinggi
Data stream dan data sensor
Data deret waktu, data temporal, data urutan
Struktur data, grafik, jejaring sosial dan data multi-link
Database heterogen dan basis data warisan
Data spasial, spasial, multimedia, teks dan Web
Program perangkat lunak, simulasi ilmiah
Aplikasi baru dan canggih
5. Tipe Data
Data Mining
Pattern Recognition
Machine Learning
StatisticsComputing Algorithms
Database Technology
High Performance Computing
15
MODUMM
6. Dataset
7. Peran Utama Data Mining
8. Clustering Waktu pengiriman, Bunga Iris, Jenis Pelanggan
1. Estimasi
2. Forecasting
3. Klasifikasi4. Klastering
5. Asosiasi
16
MODUMM
9. Prediction/ Forecasting Harga saham
10. Klasifikasi Kelulusan Mahasiswa
17
MODUMM
11. Asosiasi Pembelian Barang
Algoritma association rule (aturan asosiasi) adalah algoritma yang menemukan atribut
yang “muncul bersamaan”
Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan belanja di
supermaket ABC, dimana:
200 orang membeli Sabun Mandi
dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta
Jadi, association rule menjadi, “Jika membeli sabun mandi, maka membeli Fanta”,
dengan nilai support = 200/1000 = 20% dan nilai confidence = 50/200 = 25%
Algoritma association rule diantaranya adalah: A priori algorithm, FP-Growth
algorithm, GRI algorithm
12. Tugas individu latihan soal perpertemuan
18
MODUMM
PERTEMUAN 6
Metode Learning Algoritma Data Mining
1. Definisi
Machine learning (ML) adalah keluarga teknologi kecerdasan buatan yang terutama
berkaitan dengan desain dan pengembangan algoritma yang memungkinkan komputer
untuk "belajar" dari data historis
a. ML adalah proses dimana komputer belajar dari pengalaman
b. Ini berbeda dari perolehan pengetahuan di ES: bukannya mengandalkan para ahli
(dan kemauan mereka) ML bergantung pada fakta sejarah
c. ML membantu dalam menemukan pola dalam data
2. Metode
3. Supervised Learning
Pembelajaran dengan guru, data set memiliki target/label/class
Sebagian besar algoritma data mining (estimation, prediction/forecasting, classification)
adalah supervised learning
Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variable predictor
4. Unsupervised Learning
Algoritma data mining mencari pola dari semua variable (atribut)
Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada)
Machine Learning
Supervised
Learning
Reinforcement
Learning
Unsupervised
Learning
Classification
· Decision Tree
· Neural Networks
· Support Vector Machines
· Case-based Reasoning
· Rough Sets
· Discriminant Analysis
· Logistic Regression
· Rule Induction
Regression
· Regression Trees
· Neural Networks
· Support Vector Machines
· Linear Regression
· Non-linear Regression
· Bayesian Linear Regression
Clustering / Segmentation
· SOM (Neural Networks)
· Adaptive Resonance Theory
· Expectation Maximization
· K-Means
· Genetic Algorithms
Association
· Apriory
· ECLAT Algorithm
· FP-Growth
· One-attribute Rule
· Zero-attribute Rule
· Q-Learning
· Adaptive Heuristic Critic
(AHC),
· State-Action-Reward-State-
Action (SARSA)
· Genetic Algorithms
· Gradient Descent
19
MODUMM
Algoritma clustering adalah algoritma unsupervised learning
5. Semi supervised Learning
Semi-supervised learning adalah metode data mining yang menggunakan data dengan
label dan tidak berlabel sekaligus dalam proses pembelajarannya
Data yang memiliki kelas digunakan untuk membentuk model (pengetahuan), data tanpa
label digunakan untuk membuat batasan antara kelas
6. Algoritma Data Mining
Estimation (Estimasi):
Linear Regression, Neural Network, Support Vector Machine, etc
Prediction/Forecasting (Prediksi/Peramalan):
Linear Regression, Neural Network, Support Vector Machine, etc
Classification (Klasifikasi):
Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,
Logistic Regression, etc
Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
7. Algoritma klasifikasi
• Klasifikasi (Han, 2006) adalah proses penemuan model (atau fungsi) yang
menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa
digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui.
• Proses klasifikasi didasarkan pada empat komponen: (Gorunescu, 2011) yaitu :
1. Kelas
2. Predictor
3. Training Dataset
4. Testing Dataset
Algoritma Decision Tree
- Siapkan data training
- Pilih atribut sebagai akar
20
MODUMM
-
- Buat cabang untuk tiap-tiap nilai
- Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki
kelas yg sama
Algoritma NeuralNework
Neural Network adalah suatu model yang dibuat untuk meniru fungsi belajar yang
dimiliki otak manusia atau jaringan dari sekelompok unit pemroses kecil yang
dimodelkan berdasarkan jaringan saraf manusia
8. Analisis Clustering
Cluster: Kumpulan Objek Data
serupa (atau terkait) satu sama lain dalam kelompok yang sama
berbeda (atau tidak terkait) dengan objek dalam kelompok lain
Cluster analysis (atau clustering, segmentasi data, …)
Menemukan kesamaan antara data sesuai dengan karakteristik yang ditemukan dalam data
dan mengelompokkan objek data serupa ke dalam kelompok
Unsupervised learning: tidak ada kelas yang telah ditentukan (mis., learning by
observations vs. learning by examples: supervised)
Typical applications
Sebagai alat yang berdiri sendiri untuk mendapatkan wawasan tentang distribusi data
Sebagai langkah preprocessing untuk algoritma lain
K Means
Pilih jumlah klaster k yang diinginkan
Inisialisasi k pusat klaster (centroid) secara random
Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua objek ditentukan
berdasar jarak. Jarak yang dipakai pada algoritma k-Means adalah Euclidean distance (d)
21
MODUMM
x = x1, x2, . . . , xn, dan y = y1, y2, . . . , yn merupakan banyaknya n atribut(kolom) antara
2 record
Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang. Pusat klaster
adalah rata-rata (mean) dari semua data atau objek dalam klaster tertentu
Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru. Jika pusat klaster
sudah tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi ke
langkah nomor 3 sampai pusat klaster tidak berubah lagi (stabil) atau tidak ada penurunan
yang signifikan dari nilai SSE (Sum of Squared Errors)
9. Analisi Asosiasi
Frequent pattern: sebuah pola (satu set item, berikutnya, substruktur, dll.) Yang sering
terjadi dalam kumpulan data
Pertama kali diusulkan Agrawal, Imielinski, dan Swami [AIS93] dalam konteks frequent
itemset dan asosiasi rule mining
Motivation: Menemukan keteraturan yang melekat dalam data
Produk apa yang sering dibeli bersama? - Bir dan popok ?!
Apa pembelian selanjutnya setelah membeli PC?
Jenis DNA apa yang sensitif terhadap obat baru ini?
Bisakah kita secara otomatis mengklasifikasikan dokumen web?
Applications
Analisis data keranjang, pemasaran silang, desain katalog, analisis kampanye penjualan,
analisis log Web (aliran klik), dan analisis urutan DNA.
10. Tugas Individu latihan soal per pertemuan
22
MODUMM
PERTEMUAN 9
Studi Kasus
1. Himpunan Dataset
Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
Jenis dataset ada dua: Private dan Public
Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
Public Dataset: data set dapat diambil dari repositori pubik yang disepakati oleh para peneliti
data mining
UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)
ACM KDD Cup (http://www.sigkdd.org/kddcup/)
PredictionIO (http://docs.prediction.io/datacollection/sample/)
Data.go.id
Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti
dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable dan verifiable
2. Public Dataset (UCI Repository)
3. Metode Data Mining
Estimation (Estimasi):
Linear Regression, Neural Network, Support Vector Machine, Deep Learning, etc
Prediction/Forecasting (Prediksi/Peramalan):
Linear Regression, Neural Network, Support Vector Machine, Deep Learning, etc
Classification (Klasifikasi):
Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, DynamicCC4.5), Naive Bayes, K-
Nearest Neighbor, Linear Discriminant Analysis, Logistic Regression, etc
Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
4. Evaluasi (Akurasi, Error etc)
Akurasi
Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang
telah disediakan
23
MODUMM
Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang
digunakan
Kehandalan
Ukuran di mana model data mining diterapkan pada dataset yang berbeda
Model data mining dapat diandalkan jika menghasilkan pola umum yang sama terlepas dari data
testing yang disediakan
Kegunaan
Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang
berguna
Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
Clustering:
Internal Evaluation: Davies–Bouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix
Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
5. Instalasi Rapid Miner
-Fitur Rapid Miner
machine learning termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi,
modelling dan evaluasi
Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat
dengan GUI
Mengintegrasikan proyek data mining Weka dan statistika R
-Atribut Rapid Miner
Atribut: karakteristik atau fitur dari data yang menggambarkan sebuah proses atau situasi
ID, atribut biasa
Atribut target: atribut yang menjadi tujuan untuk diisi oleh proses data mining
24
MODUMM
Label, cluster, weight
-Tipe nilai atribut
nominal: nilai secara kategori
binominal: nominal dua nilai
polynominal: nominal lebih dari dua nilai
numeric: nilai numerik secara umum
integer: bilangan bulat
real: bilangan nyata
text: teks bebas tanpa struktur
date_time: tanggal dan waktu
date: hanya tanggal
time: hanya waktu
-Perspektif dan View
Perspektif Selamat Datang (Welcome perspective)
Perspektif Desain (Design perspective)
Perspektif Hasil (Result perspective)
View Operator
• Process Control
Untuk mengontrol aliran proses, seperti loop atau conditional branch
• Utility
Untuk mengelompokkan subprocess, juga macro dan logger
• Repository Access
Untuk membaca dan menulis repositori
• Import
Untuk membaca data dari berbagai format eksternal
• Export
Untuk menulis data ke berbagai format eksternal
• Data Transformation
Untuk transformasi data dan metadata
• Modelling
Untuk proses data mining yang sesungguhnya seperti klasifikasi, regresi, clustering, aturan asosiasi dll
• Evaluation
Untuk menghitung kualitas dan perfomansi dari model
25
MODUMM
View Proses dan Parameter
View help and comment
View Problem and Log
26
MODUMM
-Operator dan proses
Proses data mining pada dasarnya adalah proses analisa yang berisi alur kerja dari komponen
data mining
Komponen dari proses ini disebut operator, yang didefinisikan dengan:
Deskripsi input
Deskripsi output
Aksi yang dilakukan
Parameter yang diperlukan
Sebuah operator bisa disambungkan melalui port masukan (kiri) dan port keluaran (kanan)
Indikator status dari operator:
– Lampu status: merah (tak tersambung), kuning (lengkap tetapi belum dijalankan), hijau (sudah
behasil dijalankan)
– Segitiga warning: bila ada pesan status
– Breakpoint: bila ada breakpoint sebelum/sesudahnya
– Comment: bila ada komentar
– Subprocess: bila mempunyai subprocess
27
MODUMM
Melihat Hasil
6. Studi Kasus
-Penentuan Bunga Iris
Lakukan training pada data Bunga Iris (ambil dari repositories rapidminer) dengan
menggunakan algoritma decision tree
Tampilkan himpunan data (dataset) dan pengetahuan (model tree) yang terbentuk
Tampilkan grafik dari cluster yang terbentuk
-Asosiasi Data Transaksi
Lakukan training pada data transaksi (transaksi.xlsx)
Pilih metode yang tepat supaya menghasilkan pola
28
MODUMM
-Klasifikasi Breast Cancer
Lakukan training pada data breast cancer
(https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra)
Gunakan operator Split Data untuk memecah data secara otomatis menjadi dua dengan
perbandingan 0.9:0.1, di mana 0.9 untuk training dan 0.1 untuk testing
Pilih metode yang tepat supaya menghasilkan pola yang bisa menguji data testing 10%
-Forecasting Harga Saham
Lakukan training pada data Harga Saham (hargasaham-training.xls) dengan menggunakan
algoritma yang tepat
Tampilkan himpunan data (dataset) dan pengetahuan (model regresi) yang terbentuk
Lakukan pengujian terhadap data baru (hargasaham-testing.xls), untuk model yang dihasilkan
dari tahapan 1
Lakukan plot berupa grafik dari data yang terbentuk dengan menggunakan Scatter Multiple
29
MODUMM
PERTEMUAN 9
Pembuatan Laporan dan Presentasi
1. Gunakan data primer atau sekunder dari UCI Repository
2. Gunakan Rapid Miner
3. Lakukan training dengan menggunakan algoritma yang tepat
4. Tampilkan himpunan data (dataset) dan pengetahuan yang terbentuk
5. Lakukan pengujian terhadap data baru (hargasaham-testing.xls), untuk model yang
dihasilkan dari tahapan
6. Tampilkan grafik
7. Tampilkan hasil evaluasi
8. Presentasi
30
MODUMM
DAFTAR PUSTAKA
Imhoff C, Galemmo N, Geiger JG. Mastering Data Warehouse Design. Indianapolis, Indiana: Wiley
Publishing; 2003.
Han J, Kamber M. Data Mining: Concepts and Techniques. Soft Computing. 2006. 800 p.
Recommended