Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
PRAKTIKUM DATA MINING
KEMENTRIAN RISET, TEKNOLOGI DAN PENDIDIKAN TINGGI
UNIVERSITAS ANDALAS FAKULTAS TEKNOLOGI INFORMASI
JURUSAN SISTEM INFORMASI LABORATORIUM BUSINESS INTELLIGENCE
Kampus Universitas Andalas, Limau Manis, Padang – 25163
MODUL PERTEMUAN 8
Logistic Regression dan Support Vector Machines
A. Tujuan
1. Praktikan mampu memahami konsep Logistic Regression pada python
2. Praktikan mampu memahami konsep Support Vector Machines pada phyton
A. Landasan Teori
Logistic Regression
- Logistic Regression merupakan salah satu teknik machine learning untuk melakukan
klasifikasi record dari dataset.
- Logistic Regression atau regresi logistik adalah sebuah pendekatan untuk membuat
model prediksi seperti halnya regresi linear atau yang biasa disebut dengan istilah
Ordinary Least Squares (OLS) regression. Perbedaannya adalah pada regresi logistik,
peneliti memprediksi variabel terikat yang berskala dikotomi. Skala dikotomi yang
dimaksud adalah skala data nominal dengan dua kategori, misalnya: Ya dan Tidak, Baik
dan Buruk atau Tinggi dan Rendah.
PRAKTIKUM DATA MINING
Variabel yang ada pada logistic regression:
• Indepentent Variable = Variable / Fitur yang merupakan input dan akan dipakai untuk
memprediksi sebuah output, churn.
• Dependent Variable = Nilainya bergantung pada nilai-nilai input
• Pelanggan akan berhenti atau tidak bergantung dari data pelanggan tsb.
Perbedaan antara Linear Regression dengan Logistic Regression:
Linear Regression Logistic Regression
• Melakukan Prediksi
• Prediksi nilai kontinyu dari sebuah
variable, seperti:
• Harga rumah berdasarkan ciri
• Tekanan darah berdasarkan
symptom
• Konsumsi bensin berdasarkan
kondisi mobil
• Melakukan Klasifikasi
• Klasifikasi nilai biner, seperti:
• Kelompok A atau B
• Sukses atau tidak sukses
• Tetap berlangganan atau tidak.
PRAKTIKUM DATA MINING
- Asumsi yang harus dipenuhi dalam Regresi Logistik antara lain:
1. Regresi logistik tidak membutuhkan hubungan linier antara variabel bebas dengan
variabel terikat.
2. Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non
linier log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik
sering dinyatakan sebagai probabilitas. Misal Odd sebuah perusahaan dapat
bangkrut atau berhasil atau odd seorang anak dapat lulus atau tidak pada Ujian
Nasional.
3. Variabel bebas tidak memerlukan asumsi multivariate normality
4. Asumsi homokedastis tidak diperlukan
5. Variabel bebas tidak perlu dirubah ke bentuk metric (interval atau skala ratio)
6. Pengamatan dilakukan secara independen (misalnya, dengan teknik random
sampling)
7. Logistic Regression mewajibkan seluruh data dalam bentuk numerik
8. Jika berkategori (Pria/Wanita, Ya/Tidak) harus diubah dalam bentuk angka.
Langkah analisis regresi logistik
PRAKTIKUM DATA MINING
Beberapa Contoh Aplikasi
• Memprediksi probabilitas seseorang mengalami serangan jantung dalam satu periode
tertentu
• Berdasarkan: umur, sex, berat badan.
• Memprediksi apakah pasien memiliki penyakit yang dicurigai (seperti diabetes)
• Berdasarkan: berat, tinggi, tekanan darah, dan beragam test darah lainnya.
• Memprediksi kemungkinan pelanggan akan membeli sebuah produk, atau berlangganan
sebuah layanan (seperti contoh kita sebelumnya)
• Berdasarkan: umur, sex, pekerjaan, lingkungan hidup.
• Memprediksi probabilitas kegagalan sebuah produk untuk menghindari kekecewaan
pelanggan.
• Berdasarkan: tingkat ketahanan produk, durabilitas, dll.
• Memprediksi apakah nasabah dapat menyanggupi pembayaran kredit.
• Berdasarkan: umur, sex, pekerjaan, jumlah anak, gaji, dll.
Kapan kita gunakan Logistic Regression?
• Jika data berupa binary, seperti:
• Kelompok A atau B
• Lulus atau Tidak
• Berlangganan atau Tidak
• Jika kita membutuhkan pengelompokkan dalam bentuk probabilitas
• Data bersifat “linearly separable”
• Linearly Separable
• Dapat dipisahkan secara linear
• Jika data 2D, dipisahkan garis
• Jika data 3D, dipisahkan plane
• Jika data >3D, dipisahkan hyper-plane.
• Secara teori, Logistic Regression sebenarnya juga dapat digunakan untuk data yang
bersifat “non-linearly separable”
PRAKTIKUM DATA MINING
Memodelkan Logistic Regression
Logistic Function
• Logistic Function juga umum disebut dengan Sigmoid Function.
• Didefinisikan sebagai
PRAKTIKUM DATA MINING
Support Vector Machines
- SVM adalah algoritma supervisi untuk melakukan klasifikasi baik linear maupun
nonlinear tergantung pada margin maksimalisasi diantara titik suporrt, mapping data
dapat ditransformasi kedalam dimensi yang lebih tinggi.
- Support Vector Machine Salah satu algoritma Machine Learning termasuk dalam
kategori Supervised Learning, termasuk dalam algoritma klasifikasi sehingga SVM
membutuhkan data traning.
- SVM dibangun oleh Vapnik dan Cortes pada 1992, SVM telah sukses diaplikasikan
kebanyak kasus seperti pengenalan tulisan tangan, prediksi runtun waktu, pengenalan
suara.
- Karakteristik SVM adalah sebagai berikut:
1. Secara prinsip SVM adalah linear classifier
2. Pattern recognition dilakukan dengan mentransformasikan data pada input space ke
ruang yang berdimensi lebih tinggi, dan optimisasi dilakukan pada ruang vector
yang baru tersebut. Hal ini membedakan SVM dari solusi pattern recognition pada
umumnya, yang melakukan optimisasi parameter pada ruang hasil transformasi
yang berdimensi lebih rendah daripada dimensi input space.
3. Menerapkan strategi Structural Risk Minimization (SRM)
4. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua class.
Tujuan SVM
Menemukan sebuah hyperplane pemisah yang optimal, yang memaksimalkan margin training
data.
Hyperplane yaitu garis pemisah antara 2 kelompok data.
PRAKTIKUM DATA MINING
Persamaan Hyperplane:
Optimize Hyperplane dengan Margin
PRAKTIKUM DATA MINING
Contoh Margin dua Hyperplane yang tidak baik:
Contoh Margin dua Hyperplane yang baik:
Jenis Data
Secara umum jenis data yang akan ditemukan ada 2 linear dan non linear seperti gambaran
berikut:
PRAKTIKUM DATA MINING
Untuk kasus linear sangat mudah untuk menemukan margin/pembatas seperti berikut:
Sedangkan untuk kasus nonlinear, dibutuhkan teknik hyperplane yaitu transformasi ke
dimensi lebih tinggi lagi
PRAKTIKUM DATA MINING
Inti dari SVM adalah mencoba untuk mencari separating hyperplane alias pembatas secara
linear (yang non linear harus dibikin linear dulu).
Tools yang Digunakan
Ada banyak tools untuk melakukan mencoba SVM, jika dengan Python dengan
menggunakan pustaka sklearn.
Persiapan Pustaka/Library
Library yang digunakan cukup banyak yaitu:
- Numpy untuk mengolah matrix
- Pandas untuk membaca data struktur
- Matplotlib untuk visualisasi plot
- Sklearn untuk machine learningnya
B. Instruksi Praktikum