Upload
ayla
View
122
Download
0
Embed Size (px)
DESCRIPTION
Marselina Silvia Suhartinah 50406459 / 4IA05. APLIKASI PREDIKSI KELULUSAN MAHASISWA UNIVERSITAS GUNADARMA MENGGUNAKAN ALGORITMA NAIVE BAYES DAN ALGORITMA C4.5. Latar Belakang Masalah. mahasiswa yang tidak lulus sesuai dengan waktu studi . - PowerPoint PPT Presentation
Citation preview
Page 1
APLIKASI PREDIKSI KELULUSAN MAHASISWA UNIVERSITAS GUNADARMA MENGGUNAKAN
ALGORITMA NAIVE BAYES DAN ALGORITMA C4.5
Marselina Silvia Suhartinah50406459 / 4IA05
Page 2
Latar Belakang Masalah
mahasiswa yang tidak lulus sesuai dengan waktu studi. Jumlah data mahasiswa baru yang setiap tahun terus meningkat Mencoba menemukan pola untuk memprediksi mahasiswa yang dapat lulus sesuai dengan waktu studi yang ditentukan. penerapan dan perbandingan algoritma naive bayes dan algoritma C4.5
Page 3
Batasan Masalah1. Penerapan algoritma naive bayes dan C4.5 dalam
prediksi kelulusan mahasiswa yang dapat lulus sesuai dengan waktu studi menggunakan Java Netbeans.
2. Analisa perbandingan hasil dan akurasi algoritma naive bayes dan algoritma C4.5.
Tujuan mencari dan menemukan pola yang terdapat pada data
mahasiswa berdasarkan data NEM, IP DNS semester 1, IP DNS semester 2, IPK DNU semester 1-2, gaji orang tua dan pekerjaan orang tua, untuk memprediksi mahasiswa yang lulus atau tidak lulus sesuai dengan waktu studi dengan menggunakan algoritma naive bayes dan C4.5, kemudian membandingkan hasil dan akurasi kedua algoritma tersebut.
Page 4
Gambaran Umum Sistem
PROSES1. Data Mining dengan algoritma
naive bayes dan C4.52. Pengujian dengan data tes set
OUTPUTPrediksi kelulusan
mahasiswa yang tepat waktu
INPUTData mahasiswa tahun
2005 sebagai training set
Page 5
Flowchart Naive Bayes(bag. 1)
Mulai
1. Tabel Training dalam databases
2. k, P_1, P_2 =03. Prob_1, Prob_2=14. kasus[k]={data kasus}5. atribut[k] ={atribut input}
data_lulus = select count(*) from training where keterangan = lulus
data_tidak = select count(*) from training where keterangan = tidak
lulusjum = data_lulus + data_tidak
P(lulus) = data_lulus / jumP(tidak) = data_tidak / jum
A
Page 6
Flowchart Naive Bayes(bag. 2)
1. data1[k] = select count(atribut[k]) dari table training where atribut[k] = kasus[k] and keterangan = lulus.
2. data2[k] = select count(atribut[k]) dari table training where atribut[k] = kasus[k] and keterangan = tidak lulus
Prob1 = Prob1 * (data1[k]+(m*1/jum_nilai_atribut[k])) /jum_data[0]+m)Prob2 = Prob2 * (data2[k]+(m*1/jum_nilai_atribut[k])) /(jum_data[1]+m)Inc(k)
P_1 = P(lulus) * Prob1P_2 = P(tidak) * Prob2
Selesai
k = k.length?
A
P_1 > P_2 ?
1. “LULUS”2. Posterior = P_1 / (P_1+P_2)
Tidak
Ya
Tidak
Ya
1. “TIDAK LULUS”2. Posterior = P_2 /
(P_1+P_2)
mn
mpnP c
jia
)|(
Page 7
Algoritma C4.5
Label / output adalah atribut yang dipilih untuk pemisah obyek. Pada penelitian kali ini atribut output adalah keterangan dengan nilai lulus dan tidak lulus. - [Select count(keterangan) as jum from training where keterangan = lulus;]- [Select count(keterangan) as jum from training where keterangan = tidak lulus;]
Data / example adalah atribut-atribut data yang berisi record-record data sebagai dasar perhitungan
untuk menentukan record tersebut tergolong ke dalam obyek atau ouput yang
mana (lulus dan tidak lulus). - [Select count(atribut[x]) as jum from training where
atribut[x]= a[y] and keterangan = lulus;] - [Select count(atribut[x]) as jum from training where
atibut[x]=a[y] and keterangan = tidak lulus;]
Nem IP DNS 1 IP DNS 2 IPK DNU(1-2)
GajiOrang tua
PekerjaanOrang tua
Keterangan
5-6 1,01-2,00 1,01-2,00 2,51-3,00 <1 juta Lainnya Tidak lulus
6-7 2,01-2,50 2,01-2,50 2,51-3,00 <1 juta Karyawan Lulus
8-9 3,01-3,50 2,51-3,00 2,51-3,00 1-3 juta BUMN Lulus
Page 8
Algoritma C4.5 Entropi
Contoh perhitungan entropi atribut gaji
- gaji = a (<1 juta)
- gaji = b (1-3 juta)
Entropi [16,13] = 0.9922
- gaji = c (>3 juta)
Entropi [4,5] = 0.9910
Entropi Total Atribut Gaji
nn ppppppyEntropi 2222121 log......loglog)(
0.988632
14log
32
14
32
18log
32
18]14,18[ 22 Entropi
0.99048)9910,0(70
9)9922,0(
70
29)9886,0(
70
32]14,18[ Entropi
Page 9
Algoritma C4.5
Information Gain
)()(),()(
cAnilaic
c yentropiy
yyentropiAygain
Page 10
Tampilan Output
Page 11
Hasil Uji Coba dan AnalisisNPM Keterangan Prediksi dengan Naive
BayesPrediksi dengan algoritma
C4.5
50405696 Tidak Lulus Tidak Lulus Tidak Lulus
50405782 Lulus Tidak Lulus Tidak Lulus
50405761 Tidak Lulus Tidak Lulus Tidak Lulus
50405762 Lulus Tidak Lulus Tidak Lulus
50405779 Tidak Lulus Tidak Lulus Tidak Lulus
50406659 Lulus Lulus Lulus
50406145 Lulus Lulus Lulus
50406168 Lulus Lulus Tidak Lulus
50406737 Lulus Lulus Lulus
50406574 Lulus Lulus Lulus
50406650 Lulus Lulus Lulus
50405006 Tidak Lulus Tidak Lulus Tidak Lulus
50405054 Lulus Tidak Lulus Lulus
50405204 Lulus Lulus Lulus
50405218 Tidak Lulus Tidak Lulus Tidak Lulus
50405137 Lulus Lulus Lulus
50405407 Tidak Lulus Lulus Tidak Lulus
50405408 Lulus Lulus Lulus
50405425 Tidak Lulus Tidak Lulus Tidak Lulus
50405427 Lulus Lulus Lulus
50405438 Tidak Lulus Tidak Lulus Tidak Lulus
Page 12
Hasil Uji Coba dan Analisis
Perbandingan akurasi naive bayes dan C4.5
Berdasarkan tabel data hasil pengujian maka didapatkanperbandingan akurasi hasil dan nilai kesalahan dari keduaalgoritma dimana :1. hasil prediksi naive bayes adalah : ((17/21) x 100%) = 80,85%.
Sementara Presentase kesalahan adalah : ((4/21) x 100%)=
19,05%.2. Akurasi ketepatan hasil prediksi C4.5 adalah : ((18/21)
x 100%) = 85,7%. Sedangkan nilai kesalahan pada penelitian dengan algoritma C4.5 adalah : ((3/21) x 100%) = 14,3%.
Prediksi Naive Bayes
Prediksi C4.5
Akurasi Ketepatan
80,85% 85,7%
Kesalahan 19,05% 14,3%
Page 13
Hasil Uji Coba dan Analisis akurasi dari algoritma C4.5 lebih tinggi
dibandingkan akurasi naive bayes. Selain itu nilai kesalahan dari algoritma C4.5 lebih rendah dibandingkan nilai kesalahan naive bayes.
Hal ini dikarenakan algoritma C4.5 membentuk sebuah pohon keputusan dengan cara melakukan klasifikasi record-record ke dalam kelas tujuan yang ada. Namun proses prediksi C4.5 memiliki waktu proses yang sedikit lebih lama karena terlebih dahulu harus membangun pohon keputusan berdasarkan data training selanjutnya melakukan penelusuran berdasarkan data kasus yang dicari.
Page 14
Hasil Uji Coba dan Analisis
Pada tabel, hasil pengujian data dari record 1-11 merupakan data yang tidak digunakan dalam proses training. Pada 11 record data ini naive bayes memiliki nilai kesalahan ((2/11) * 100%) = 18,18%, sedangkan C4.5 memiliki nilai kesalahan ((3/11) * 100%)= 27,27%. Ini berarti tingkat akurasi naive bayes untuk data yang berbeda dari data training lebih baik.
Hal ini dikarenakan pada naive bayes nilai suatu atribut adalah independent terhadap nilai lainnya dalam satu atribut yang sama. Sehingga hanya satu nilai dari suatu atribut dalam sebuah kelas tujuan yang dibutuhkan untuk menentukan klasifikasi.
Page 15
Kesimpulan
1. Proses pengklasifikasian nilai sangat penting karena dapat mengelompokkan nilai-nilai yang akan diuji.
2. Dengan menggunakan algoritma C4.5 kesalahan yang dihasilkandalam proses prediksi lebih sedikit karena C4.5 melakukan klasifikasi record-record ke dalam kelas tujuan yang ada.
3. Algoritma decision tree memiliki kompleksitas yang lebih besar. Karena pada algoritma C4.5 setiap nilai dalam suatu atribut ditelusuri
dan diproses untuk mendapatkan entropi masing-masing nilai yang
akan digunakan untuk mencari ukuran purity masing-masing atribut yang dinyatakan dengan information gain. Proses penelusuran ini akan membentuk sebuah pola berupa pohon keputusan.
Page 16
Kesimpulan
4. Algoritma naive bayes bila diimplementasikan menggunakan data yang digunakan dalam proses training akan menghasilkan nilai kesalahan yang lebih besar karena pada naive bayes nilai suatu atribut adalah independent terhadap nilai lainnya dalam satu atribut yang sama. Namun memiliki akurasi yang lebih tinggi bila dimplementasikan ke data yang berbeda dari data training dan kedalam data yang jumlahnya lebih besar.
Page 17 Thank You
Merci
Grazie
Gracias
Obrigado
Danke
Japanese
English
French
Russian
German
Italian
Spanish
Brazilian Portuguese
Arabic
Traditional Chinese
Simplified Chinese
Hindi
Tamil