klasifikasi level kemampuan berbahasa inggris

i

KLASIFIKASI LEVEL KEMAMPUAN BERBAHASA INGGRIS

BERDASARKAN HASIL PLACEMENT TEST

MENGGUNAKAN METODE NAIVE BAYES

SKRIPSI

Diajukan untuk memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

Oleh:

Indah Permata Sari

165314113

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

THE CLASSIFICATION OF ENGLISH ABILITY

BASED ON PLACEMENT TEST RESULT

USING NAIVE BAYES METHOD

THESIS

Present as Patrial Fulfillment of the Reiquirements

to Obtain Sarjana Komputer Degree

in Informatics Study Program

By:

Indah Permata Sari

165314113

INFORMATICS STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2020


v

HALAMAN PERSEMBAHAN

“Selalu berpikir optimis, jangan menyerah dulu.

Berusaha semaksimal mungkin, masalah hasil belakangan.”

Ayah (14 Juni 2020)

“Skripsi ini saya persembahkan kepada ayah dan ibu yang sudah merawat

dan mendidik putri tunggalnya menjadi manusia yang seperti sekarang.

Jarang terucap, terima kasih atas segalanya.”-Indah Permata Sari


viii

ABSTRAK

Saat ini banyak sekali tempat yang menyediakan kursus untuk melatih

kemampuan berbahasa inggris di Jogja. Salah satunya Lembaga Bahasa

Universitas Sanata Dharma Yogyakarta. Lembaga Bahasa USD memiliki banyak

program kursus bahasa inggris, salah satunya yaitu Center of English for

International Communication (CEIC). Peserta yang akan mengikuti tes ini akan

ditempatkan di level yang sesuai dengan hasil tes. Level-level yang ada yaitu

Real Beginner, Mid Beginner, Upper Beginner dan Pre Intermediate. Pihak

Lembaga Bahasa harus melakukan penempatan level yang selama ini dilakukan

dengan cara yang manual. Pada penelitian ini data program CEIC tahun 2019

diolah menggunakan salah satu teknik Data Mining dengan menggunakan Naive

Bayes. Data yang digunakan sebanyak 240 data, terdiri dari 6 atribut (Question 1-

10, Question 11-20, Question 21-30, Question 31-40, Reading dan Listening) dan

4 label (Level 2, Level 3, Level 4 dan Level 5).

Pengujian dilakukan dengan dua skenario yaitu menggunakan berbagai

jumlah fold, dengan atau tanpa outlier. Secara keseluruhan pada setiap skenario

dilakukan dengan menguji berbagai jumlah atribut dan menggunakan semua label

yang ada. Pada skenario pertama menggunakan 240 data, dan dilakukan dengan 3,

4 dan 5 fold. Dari skenario pertama menghasilkan akurasi tertinggi pada

pengujian dengan menggunakan 3 atribut dan menggunakan 4-fold dan 5-fold,

yaitu 65%. Sedangkan pada skenario kedua menggunakan 3-fold dan outlier

dengan 226 data, diperoleh akurasi tertinggi pada uji coba menggunakan 3 atribut,

yaitu 67.5556%.

.

Kata kunci : Level Bahasa Inggris, Naive Bayes, Klasifikasi, Cross

Validation.


ix

ABSTRACT

Currently, many places are providing courses to practice English skills in

Jogja. One of them is the Yogyakarta Sanata Dharma Language Institute. The

Sanata Dharma Language Institute has many English courses, one of which is the

Center of English for International Communication (CEIC). Participants who sign

up for the course, need to take the English test first and then will be placed at the

level that matches the test results. Participants who will take this test will be

placed at the level that matches the test results. The levels are Basic, Real

Beginner, Mid Beginner, Upper Beginner and Pre Intermediate. The Language

Institution must place the level in a manual way. From the 2019 CEIC program

data will be processed using one of the Data Mining techniques using Naive

Bayes. The data used are 240 data, consisting of 6 attributesn (Question 1-10,

Question 11-20, Question 21-30, Question 31-40, Reading dan Listening) and 4

labels (Level 2, Level 3, Level 4 dan Level 5).

There are two scenarios used, namely using various folds, with or without

outliers. Overall, each scenario is done by testing various numbers of attributes

and using all existing labels. In the first scenario using 240 data, and performed

with 3, 4 and 5-fold, from the first scenario the highest accuracy in testing using 3

attributes using 5-fold and 4-fold is 65%. While in the second scenario using 3-

fold with outlier. The data used were 226 data. As in the first scenario, the highest

accuracy is in the trial using 3 attributes, namely 67.5556%.

Keywords : Level, Language Institute, Naive Bayes, Classification, Cross

Validation.


x

KATA PENGANTAR

Puji dan syukur kepada Allah swt atas berkat dan rahmat-Nya penulis dapat

menyelesaikan penyusunan skripsi yang berjudul “Klasifikasi Level Kemampuan

Berbahasa Inggris Berdasarkan Hasil Placement Test Menggunakan Metode

Naive Bayes ”. Penulis mendapatkan banyak bimbingan, bantuan dan dukungan

dari berbagai pihak. Penulis mengucapkan banyak terima kasih kepada:

1. Ayah dan ibu yang tiada henti selalu mendoakan, memberikan motivasi

dan semangat kepada penulis.

2. Bapak Robertus Adi Nugroho, S.T., M.Eng. selaku ketua program studi

Informatika.

3. Ibu Agnes Maria Polina S.Kom., M.Sc. selaku dosen pembimbing skripsi

yang telah meluangkan waktu untuk membimbing dan memberikan

dukungan sehingga penulis dapat menyelesaikan skripsi.

4. Bapak Eduardus Hardika Sandy Atmaja, S.Kom., M.Cs. selaku dosen

pembimbing selama masa kolokium.

5. Ibu Paulina Heruningsih Prima Rosa M.Sc. selaku dosen pembimbing

akademik yang telah memberikan dukungan dan bimbingan selama

perkuliahan.

6. Lembaga Bahasa Universitas Sanata Dharma yang telah mempercayakan

data program CEIC tahun 2019 untuk dijadikan sebagai data penelitian

penulis.

7. Vincen dan Michelle selaku tetangga kos dari jaman maba yang selalu

mendengar keluh kesah, tempat bertukar pikir dan memberi semangat

kepada penulis.

8. Sobat Toileterzzz, Palenjuseyo dan Yicing yang telah menjadi sohib dari

awal perkuliahan, berbagi segala jenis ilmu, pandangan hidup, masalah

perkuliahan dan motivasi untuk menuju S.Kom.

9. Grup ~ yang terdiri dari Dodi, Caroline, Dian, Hananto, Paulina, Rachel

dan Alfri, yang telah menemani dan membantu penulis.


https://www.usd.ac.id/detail_dosen.php?id=02090

xi

10. Kepada teman-teman Informatika 16 yang menemani dan menghibur

penulis semasa menjalani perkuliahan di kampus Paingan.

11. Reni, Fitria dan Maylana yang memberi semangat dan selalu menanyakan

progres skripsi.

12. Kru Bulprof yang sudah menemani dan memberikan banyak warna warni

kehidupan dari awal hingga akhir perkuliahan. Semoga sehat, bahagia dan

sukses selalu! We Are Bulprof!

13. Role model penulis saat ini, yaitu T∞ dan grup lawak G0SE yang telah

hadir dan menemani disaat penulis mengalami kesulitan dan menjadi

mood booster penulis saat sedang stres menghadapi that thing who cannot

be named (Skripsi). Semoga sehat, bahagia dan sukses bersama kru!

Always together until the last Say The Name!!

14. Indah, terima kasih sudah berjuang dan bertahan dengan pilihannya,

hingga bisa menyelesaikan studinya dengan baik. Selamat dan tetap

semangat untuk perjuangan-perjuangan selanjutnya.

Penulis sadar masih banyak kekurangan dalam penelitian ini, maka penulis

mengharapkan saran dan kritikan yang kiranya dapat membangun penelitian ini.

Akhir kata penulis mengucapkan terima kasih.


xii

DAFTAR ISI

HALAMAN PERSETUJUAN PEMBIMBING .................................................iii HALAMAN PENGESAHAN .............................................................................iv HALAMAN PERSEMBAHAN .........................................................................v

PERNYATAAN KEASLIAN KARYA .............................................................vi LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS ...........................................................vii ABSTRAK ..........................................................................................................viii ABSTRACT ........................................................................................................ix KATA PENGANTAR ........................................................................................x DAFTAR ISI .......................................................................................................xii

DAFTAR TABEL ...............................................................................................xiv DAFTAR GAMBAR ..........................................................................................xvi Bab I. PENDAHULUAN ...................................................................................1

I.1. Latar Belakang 1

I.2. Rumusan Masalah 3 I.3. Tujuan 3

I.4. Batasan Masalah 3 I.5. Sistematika Penulisan 3

Bab II. LANDASAN TEORI ...............................................................................5 II.1. Lembaga Bahasa 5 II.2. Penambangan Data 6

II.3. Klasifikasi 8 II.4. Naive Bayes 8

II.5. Confusion Matrix 11 Bab III. METODE PENELITIAN .......................................................................13

III.1. Data 13 III.2. Spesifikasi Alat Penelitian 15

III.3. Desain Alat Uji 15 III.4. Preprocessing 18

III.5. Modeling Naive Bayes 19 III.6. Desain User Interface 20

a. Baca Data 20

b. Panel jumlah atribut 20

c. Tabel confussion matrix 21

d. Tombol Akurasi 21

e. Tabel uji data kelompok 21

f. Tabel uji data tunggal 21

Bab IV. IMPLEMENTASI SISTEM ...................................................................22 4.1 Implementasi Preprocessing 22

4.1.1 Data Selection 22


xiii

4.1.2 Transformasi Data 23

4.1.3 Source Code Preprocessing 23

4.2 Implementasi Naive Bayes 24 4.2.1 Klasifikasi 24

4.2.2 Source Code Naive Bayes 25

4.3 Implementasi 5-fold Cross Validation 26

4.3.1 Source Code 5-fold Cross Validation 26

4.4 Implementasi Confusion Matrix 28 4.4.1 Source Code Confusion Matrix 28

4.5 Implementasi Uji Data Tunggal 29

4.5.1 Uji Data Tunggal 29

4.5.1.1 Uji Data 1 29

4.5.1.2 Uji Data 2 29

4.5.1.3 Uji Data 3 30

4.5.1.4 Uji Data 4 30

4.5.2 Source Code Uji Data Tunggal 31

4.6 Implementasi Uji Data Kelompok 31 4.6.1 Uji Data Kelompok 31

4.6.2 Source Code Uji Data Kelompok 32

4.7 User Interface Sistem 33 Bab V. ANALISIS HASIL .................................................................................35

5.1 Uji Validasi 35

5.1.1 Perhitungan Manual Naive Bayes 35

5.1.2 Hasil Run Sistem Dengan 20 Data 46

5.2 Uji Akurasi dengan 240 Data Menggunakan Sistem 47

5.2.1 Dengan 5 k-fold 47



5.3 Uji Akurasi Dengan Data Tunggal Menggunakan Sistem 50 5.4 Uji Akurasi Menggunakan Outlier 51

Bab VI. PENUTUP ..............................................................................................55 6.1 Kesimpulan 55 6.2 Saran 56

DAFTAR PUSTAKA ............................................................................................57


xiv

DAFTAR TABEL

Tabel 2.1 Confusion Matrix ........................................................................ 11

Tabel 3.1 Keterangan Atribut ..................................................................... 12

Tabel 3.2 Indikator Placement Test Section 1 ............................................ 13



Tabel 4.1 Atribut Sebelum Dilakukan Seleksi Atribut ............................... 21

Tabel 4.2 Seleksi Atribut Berdasarkan Information Gained ........................ 21

Tabel 4.3 Contoh Data Sebelum Di Transformasi ....................................... 22

Tabel 4.4 Contoh Data Setelah Di Transformasi ......................................... 22

Tabel 4.5 Uji Coba Dengan Berbagai Jumlah Atribut ................................. 23

Tabel 5.1 Contoh Data ................................................................................. 34

Tabel 5.2 Nilai Mean dan Standar Deviasi Question 1-10 .......................... 35

Tabel 5.3 Nilai Mean dan Standar Deviasi Question 11-21 ........................ 35



Tabel 5.6 Nilai Mean dan Standar Deviasi Reading ................................... 36

Tabel 5.7 Nilai Mean dan Standar Deviasi Listening .................................. 36

Tabel 5.8 Probabilitas Kelas ........................................................................ 36

Tabel 5.9 Data Testing ................................................................................. 36

Tabel 5.10 Probabilitas Setiap Atribut ........................................................ 40

Tabel 5.11 Klasfikasi Data Testing .............................................................. 43

Tabel 5.12 Confusion Matrix ....................................................................... 43

Tabel 5.13 Confusion Matrix 1..................................................................... 44






xv

Tabel 5.18 Uji Coba Dengan 5 k-fold .......................................................... 46



Tabel 5.21 Uji Akurasi Data Tunggal .......................................................... 49

Tabel 5.22 Information Gained Percobaan kedua ....................................... 50

Tabel 5.23 Uji Akurasi Sebelum Menggunakan Outlier ............................. 51

Tabel 5.24 Uji Akurasi Setelah Menggunakan Outlier ............................... 52


xvi

DAFTAR GAMBAR

Gambar 2.1 Cross Validation ..............................................................................10

Gambar 3.1 Desain Alat Uji ................................................................................14

Gambar 3.2 Diagram Flowchart Umum Sistem ..................................................15

Gambar 3.3 Diagram Flowchart Uji Data Tunggal ............................................16

Gambar 3.4 Diagram Flowchart Uji Data Kelompok .........................................17

Gambar 3.5 Tampilan User Interface ..................................................................19

Gambar 4.1 Tampilan Confusion Matrix dengan 5k-fold.................................... 24

Gambar 4.2 Uji Data 1 ........................................................................................ 28

Gambar 4.3 Uji Data 2 ........................................................................................ 28

Gambar 4.4 Uji Data 3 ........................................................................................ 29

Gambar 4.5 Uji Data 4 ........................................................................................ 29

Gambar 4.6 Uji Data Kelompok ......................................................................... 31

Gambar 4.7 User Interface Sistem ..................................................................... 32

Gambar 5.1 Hasil Sistem Dengan 20 Data ......................................................... 46

Gambar 5.2 Dengan 5 k-fold .............................................................................. 47



Gambar 5.5 Uji Sistem Menggunakan Outlier ................................................... 53


1

Bab I. PENDAHULUAN

I.1. Latar Belakang

Bahasa Inggris merupakan bahasa universal yang berlaku secara

internasional untuk berkomunikasi antar manusia dari negara yang berbeda. Selain

untuk berkomunikasi, Bahasa Inggris diperlukan sebagai pembelajaran bagi anak

sekolah dari Sekolah Dasar (SD), Sekolah Menengah Pertama (SMP), Sekolah

Menengah Atas (SMA), hingga tahap perguruan tinggi dan untuk interview saat

melamar kerja atau keperluan pekerjaan. Saat ini banyak institusi pendidikan

menyediakan les atau kursus Bahasa Inggris, terutama di wilayah Yogyakarta.

Salah satunya Universitas Sanata Dharma, yang memiliki program-program

kursus Bahasa Inggris yang disediakan oleh Lembaga Bahasa.

Lembaga Bahasa Universitas Sanata Dharma (USD) merupakan suatu

lembaga yang menyediakan program-program untuk belajar berbagai bahasa.

Bahasa yang ada yaitu Bahasa Inggris, Mandarin, Korea, Jepang dan Indonesia.

Lembaga Bahasa USD juga menyediakan beberapa program kursus Bahasa

Inggris, seperti Center of English for International Communication (CEIC),

Center of English for Specific Purposes (CESP), English Extension Course (EEC)

dan tes kemampuan berbahasa Inggris, speperti TOEFL, IELTS dan TOEIC.

Center of English for International Communication (CEIC) adalah program

yang dirancang untuk pelajar Indonesia atau pelajar asing yang ingin belajar dan

mengembangkan keterampilan komunikasi mereka dalam berbahasa Inggris.

Pelajar yang mengikuti program ini, akan mengikuti tes yang terdiri Reading,

Writing dan Listening. Kemudian dari hasil tes tersebut akan ditempatkan pada

level yang sesuai dengan hasil tes. Level - level yang ada yaitu Level 2: Real

Beginner, Level 3: Mid Beginner, Level 4: Upper Beginner, Level 5: Pre

Intermediate. Pihak Lembaga Bahasa USD melakukan penempatan level dengan

cara yang masih manual dan hanya tersimpan dalam bentuk hard copy.

Cara manual yang dilakukan oleh pihak Lembaga Bahasa USD dalam

penempatan level yaitu dengan berpedoman pada indikator yang telah dibuat. Tes


2

dibagi menjadi 3 kategori, yaitu Language Use, Reading dan Listening. Untuk

Language Use penilaian yang dilakukan yaitu jika nomor 1-10 jawabannya benar

semua maka akan ditempatkan di level 2, seterusnya hingga nomor 40 dengan

toleransi kesalahan maksimal 4 kali. Sedangkan Reading dan Listening dilihat dari

jumlah soal yang benar dan disesuaikan dengan levelnya.

Penelitian menggunakan metode Naive Bayes pernah dilakukan oleh

Antonius Rachmat C dan Yuan Lukito (2018) dengan judul Klasifikasi Sentimen

Komentar Politik dari Facebook Page menggunakan Naive Bayes. Data yang

digunakan adalah data status dan komentar Pemilu Presiden tahun 2014 dari

Facebook page. Nilai akurasi dari penelitian ini sebesar 82%.

Penelitian lain yang menggunakan metode Naive Bayes yaitu Klasifikasi

Status Gizi Menggunakan Naive Bayesian Classification oleh Sri Kusumadewi.

Data yang digunakan adalah data hasil pengukuran Antropometri Mahasiswa.

Naive Bayesian Classification dapat digunakan sebagai salah satu metode untuk

klasifikasi dan memiliki kinerja yang baik karena hasil pengujian menunjukkan

total kinerja sebesar 93,2%.

Berdasarkan permasalahan diatas, penelitian ini bertujuan untuk

mengklasifikasi data penempatan level program CEIC menggunakan metode

Naïve Bayes. Data yang digunakan yaitu data hasil tes penempatan level program

CEIC tahun 2019 di Lembaga Bahasa Universitas Sanata Dharma. Atribut data

hasil penempatan terdiri dari 6 atribut, yaitu Question 1-10, Question 11-20,

Question 21-30, Question 31-40, Reading dan Listening. Empat level (Level 2:

Real Beginner, Level 3: Mid Beginner, Level 4: Upper Beginner, Level 5: Pre

Intermediate) yang sudah disebutkan diatas dijadikan sebagai label. Penulis

berharap hasil dari penelitian ini dapat membantu Lembaga Bahasa Universitas

Sanata Dharma dalam penempatan level program CEIC untuk kedepannya.


3

I.2. Rumusan Masalah

Berdasarkan latar belakang yang telah disebutkan sebelumnya, beberapa rumusan

masalah yang akan diselesaikan adalah sebagai berikut :

1. Apakah metode Naïve Bayes dapat melakukan klasifikasi data hasil

penempatan level program CEIC?

2. Berapa akurasi klasifikasi data hasil penempatan level program CEIC

dengan menggunakan metode Naïve Bayes?

I.3. Tujuan

Adapun tujuan dari penelitian ini sebagai berikut :

1. Menerapkan metode Naïve Bayes untuk mengklasifikasikan data

penempatan level program CEIC ke dalam program komputer.

2. Mengetahui akurasi klasifikasi data hasil penempatan level progran CEIC

dengan menggunakan metode Naïve Bayes .

I.4. Batasan Masalah

Penelitian yang dilakukan untuk tugas akhir ini, memiliki beberapa batasan

masalah, sebagai berikut :

1. Data yang digunakan adalah data penempatan level program CEIC yang

ada di Lembaga Bahasa Universitas Sanata Dharma pada tahun 2019

dengan jumlah 240 data.

2. Data yang digunakan berupa hard copy yang diubah ke dalam file bertipe

.xsl.

3. Metode yang digunakan dalam penelitian ini adalah metode Naive Bayes.

I.5. Sistematika Penulisan

BAB 1. Pendahuluan

Dalam bab ini berisi mengenai latar belakang, rumusan masalah, tujuan,

batasan masalah dan sistematika penulisan.


4

BAB 2. Landasan Teori

Dalam bab ini dibahas mengenai objek studi kasus, teori atau metode yang

digunakan dalam penelitian ini meliputi : Lembaga Bahasa, Penambangan Data,

Klasifikasi, Naive Bayes, Cross Validation dan Confusion Matrix.

BAB 3. Metodologi Penelitian

Dalam bab ini dibahas mengenai langkah-langkah yang dilakukan dalam

penelitian dengan menggunakan metode yang berkaitan, meliputi : Data,

Spesifikasi Alat Penelitian, Desain Alat Uji, Preprocessing, Modeling Naive

Bayes dan desain User Interface.

BAB 4. Implementasi Sistem

Dalam bab ini dibahas mengenai Implementasi Preprocessing,

Implementasi Naive Bayes, Implementasi 5-Fold Cross Validation, Implementasi

Confusion Matrix, Implementasi Uji Data Tunggal, Implementasi Uji Data

Kelompok dan Implementasi User Interface Sistem.

BAB 5. Analisis Hasil

Dalam bab ini dibahas mengenai uji validasi, uji akurasi dengan

menggunakan sistem untuk 240 data tanpa menggunakan outlier, uji akurasi

dengan menggunakan sistem untuk 226 data dengan outlier, serta uji akurasi

dengan data tunggal menggunakan sistem.

BAB 6. Penutup

Dalam bab ini berisi mengenai kesimpulan dan saran penulis untuk

penelitian yang lebih baik.


5

Bab II. LANDASAN TEORI

II.1. Lembaga Bahasa

Lembaga bahasa terdiri dari dua kata, yaitu Lembaga dan Bahasa. Kata

Lembaga dalam Kamus Besar Bahasa Indonesia (KBBI) memiliki arti badan

(organisasi) yang tujuannya melakukan suatu penyelidikan keilmuan atau

melakukan suatu usaha. Sedangkan, kata Bahasa memiliki arti sistem lambang

bunyi yang arbitrer, yang digunakan oleh anggota suatu masyarakat untuk bekerja

sama, berinteraksi, dan mengidentifikasi diri.

Lembaga Bahasa Sanata Dharma pada awalnya bernama Pusat Pengembangan

dan Pelatihan Bahasa Universitas Sanata Dharma. Institusi ini awalnya membuka

layanan untuk pelatihan intensif budaya dan Bahasa Indonesia untuk mahasiswa

dan dosen dari luar Indonesia. Seiring berkembangnya, layanan yang ditawarkan

berupa ekpatriat yang ingin bekerja di Indonesia maupun mahasiswa asing dan

mahasiswa Indonesia yang ingin mendalami bahasa dan budaya di universitas.

Lembaga Bahasa Sanatha Dharma memiliki beberapa divisi yaitu Indonesia

Language Course, Korean Language Course, Japanese Language Course,

Chinese Language Course dan English for Communication. Tiap divisi memiliki

program-program yang berbeda. Salah satunya divisi English for Communication

yang memiliki program CEIC. Tujuan dari program ini adalah agar pelajar

Indonesia atau pelajar asing yang ingin belajar dan mengembangkan keterampilan

komunikasi mereka dalam berbahasa Inggris. Peserta yang akan mengikuti

program ini harus mendaftar administrasi terlebih dahulu, lalu mengikuti tes yang

terdiri dari dua tahap, pertama tes tertulis berupa Writing, Reading dan Listening,

dan tes wawancara. Level-level tersebut terdiri dari Level 2: Real Beginner,

Level 3: Mid Beginner, Level 4: Upper Beginner, Level 5: Pre Intermediate.


6

II.2. Penambangan Data

Penambangan Data atau Knowledge Discovery in Database merupakan

salah satu teknik yang digunakan untuk mendapatkan pengetahuan baru

dengan memanfaatkan jumlah data yang sangat besar (Nurul Rohmawati W,

et.al. 2015). Data mining mengacu pada mining knowledge dari data

jumlah besar (Han dan Kamber, 2006). Data mining dikenal dengan

Knowledge Discovery from Data (KDD), yaitu:

1. Pembersihan Data

Proses ini bertujuan untuk membersihkan data yang tidak konsisten atau

menghilangkan gangguan yang ada pada data.

2. Integrasi Data

Proses ini bertujuan untuk menyatukan atau menggabungkan data dari

sumber yang berbeda.

3. Seleksi Data

Proses ini bertujuan untuk memilih atribut yang baik atau relevan dengan

penelitian.

4. Transformasi Data

Proses ini bertujuan untuk menggabungkan data kedalam bank yang sesuai.

5. Penambangan Data

Proses ini bertujuan untuk menerapkan metode yang tepat untuk mengolah

data.

6. Evaluasi Pola

Pada tahap ini bertujuan untuk mengidentifikasi pola dalam pengetahuan

7. Presentasi Pengetahuan

Pada tahap ini akan menyajikan hasil klasifikasi data CEIC dalam bentuk

tampilan yang mudah dipahami user.


7

Pengelompokan Penambangan Data

Penambangan data dibagi menjadi beberapak kelompok berdasarkan tugas

yang dapat dilakukan, yaitu (Kursini dan Luthfi, 2009) :

1. Deskripsi

Deskripsi dalam Penambangan Data adalah menggambarkan penjelasan

suatu pola.

2. Estimasi

Estimasi merupakan numerik pada variabel target. Nilai dari variabel

target dibuat dari nilai prediksi, itu lah yang dimaksud dengan estimasi.

3. Prediksi

Seperti Estimasi, prediksi juga dipakai dalam klasifikasi. Prediksi adalah

memperkirakan sesuatu yang akan terjadi pada masa yang akan

mendatang.

4. Klasifikasi

Klasifikasi adalah pemrosesan untuk menemukan sebuah model atau

fungsi yang menjelaskan dan mencirikan konsep atau kelas data, untuk

kepentingan tertentu [2].

5. Pengklusteran

Pengklusteran digunakan untuk pengelompokkan data berdasarkan

kemiripan pada objek data dan sebaliknya meminimalkan kemiripan

terhadap kluster yang lain [3].

6. Asosiasi

Asosiasi atau Market Basket Analysis adalah metode untuk menemukan

suatu kombinasi atribut yang muncul bersamaan (Andriyana Veronica,

2015).


8

II.3. Klasifikasi

Klasifikasi adalah pemrosesan untuk menemukan sebuah model atau fungsi

yang menjelaskan dan mencirikan konsep atau kelas data, untuk kepentingan

tertentu. Ada berbagai klasifikasi dalam Penambangan Data, yaitu :

1. Decision Tree

Decision Tree merupakan suatu metode yang bentuk klasifikasi seperti

struktur pohon.

2. K-Nearest Neighbor

K-Nearest Neighbor merupakan metode pengkalasifikasian data berdasarkan

jarak terdekat. Metode ini biasanya sering digunakan dalam pencarian jarak

3. Neural Network

Neural Network merupakan metode yang memproses data dengan meniru

cara kerja sistem saraf manusia.

4. Naive Bayes

Klasifikasi dengan metode Naive Bayes yaitu mengklasifikasi data untuk

memprediksi probabilitas anggota suatu kelas.

II.4. Naive Bayes

Naive Bayes adalah suatu pengklasifikasian dengan metode probabilsitik

yang dikemukakan oleh ilmuan Inggris bernama Thomas Bayes. Metode ini

menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan

kombinasi nilai dari dataset yang diberikan. Algoritma menggunakan teorema

Bayes dan mengasumsikan semua atribut independen atau tidak saling

ketergantungan yang diberikan oleh nilai pada variabel kelas (Patil dan Sherekar,

2013). Keuntungan dari Naive Bayes yaitu metode ini memperlukan jumlah data

Training yang kecil untuk menentukan atribut yang diperlukan (Saleh, 2015).

Berikut merupakan rumus Naive Bayes:

𝑃(𝑐|𝑥) =P(x|C)p(c)

p(x) (2.1)


9

Keterangan :

x : Data dengan class yang belum diketahui

c : Hipotesis data merupakan suatu class spesifik

P(c|x) : Probabilitas hipotesis berdasar kondisi (posteriori probability)

P(c) : Probabilitas hipotesis (prior probability)

P(x|c) : Probabilitas berdasarkan kondisi pada hipotesis

P(x) : Probabilitas c

Dalam proses klasifikasi diperlukan sejumlah petunjuk untuk memutuskan kelas

yang cocok untuk sampel yang akan di analisa. Oleh karena itu rumus 2.1 di

jabarkan sebagai berikut :

𝑃(𝑐|𝑓1 … 𝑓𝑛) =P(f1 … fn|c)p(c)

p(f1 … fn) (2.2)

Variabel C merupakan kelas, sedangkan F1...Fn merupakan karakteristik petunjuk

yang menentukan klasifikasi. Rumus (2.2) menjelaskan peluang dari suatu sampel

karakteristik tertentu pada kelas C (Posterior) merupakan peluang kemunculan

kelas C, lalu dikali dengan peluang karakteristik – karakteristik sampel kelas C

(Likelihood), kemudian dibagi dengan peluang karakteristik-karakteristik secara

global (evidence). Maka penjelasan diatas dapat dijabarkan sebagai berikut (Saleh,

2015) :

𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 =𝑝𝑟𝑖𝑜𝑟 𝑥 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑

𝐸𝑣𝑖𝑑𝑒𝑛𝑐𝑒 (2.3)

Setiap kelas pada satu sampel akan selalu tetap disebut nilai Evidence. Lalu, nilai

Posterior dibandingkan dengan nilai –nilai posterior kelas yang lain untuk

menentukan klasifikasi suatu sampel ke kelas apa.


10

Mengklasifikasi data kontinyu dengan menggunakan persamaan densitas gauss :

𝑃(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑦𝑖) =1

√2𝜋(𝜎)𝑒

−(𝑥𝑖−µ)2

2(𝜎)2 (2.4)

Keterangan:

P = Peluang

Xi = Atribut ke-i

Xi = Nilai atribut ke-i

Y = Kelas yang dicari

µ= Mean (rata-rata)

σ = Standar Deviasi

2.5 Cross Validation

Cross Validation atau k-fold cross validation adalah data yang akan

digunakan untuk pelatihan (Training Data) dan pengujian (Testing Data). Cross

validation akan membagi set menjadi k set data dengan ukuran yang sama. Jika

setiap kali berjalan, data yang lain akan menjadi data latih dan data yang lain

menjadi data latih sebanyak k-kali. Jumlahkan semua error dari k-kali proses

untuk mendapatkan total error. Berdasarkan gambar 2.1, akan dilakukan 5-fold

cross validation. Untuk tiap fold akan menjadi data training sebanyak empat kali

dan menjadi data testing hanya sekali. Fold yang memiliki nilai tertinggi akan

menjadi pembagian data yang terbaik.


11

Gambar 2.1 Cross Validation

II.5. Confusion Matrix

Confusion Matrix merupakan metode yang digunakan untuk mengukur

kinerja suatu metode klasifikasi. Confusion matrix memiliki informasi yang

membandingkan hasil klasifikasi yang dilakukan oleh sistem dengan klasifikasi

yang seharusnya (E. Prasetyo, 2012).

Tabel 2.1 Contoh Confusion Matrix

Fij Label hasil prediksi (j)

True = 1 False = 0

Label asli (i) True = 1 f11 f10

False = 0 f01 f00

Diatas ini merupakan tabel yang akan melakukan klasifikasi dengan

penggunaan biner untuk kelas True (1) dan False (0). f11 merupakan sel yang

bernilai benar dan memiliki hasil prediksi benar, sedangkan f10 yaitu sel yang

bernilai benar dan memiliki hasil prediksi yang salah. f01 adalah sel label asli yang

bernilai salah dan memiliki hasil prediksi benar dan yang terakhir f00 memiliki

label asli bernilai salah dan hasil prediksi yang salah. Berdasarkan isi tabel

tersebut, dapat diketahui hasil jumlah data yang diprediksi secara benar (f11 + f00)

dan hasil jumlah data yang diprediksi secara salah (f10 + f01). Hasil jumlah data

yang diklasifikasi secara benar diketahui sebagai hasil akurasi prediksi, sedangkan


12

jumlah data yang diketahui secara salah diketahui sebagai laju error. Berikut

adalah formulasi untuk menghitung akurasi :

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =jumlah data yang diprediksi secara benar

jumlah prediksi yang dilakukan 𝑥 100 (2.5)

Akurasi =f11 + f00

f11 + f10 + f01 + f00 𝑥 100% (2.6)


13

Bab III. METODE PENELITIAN

III.1. Data

Data yang digunakan dalam penelitian ini merupakan data dari program

Center of English for International Communication (CEIC) tahun 2019 dari

Lembaga Bahasa Universitas Sanata Dharma. Total jumlah data yang digunakan

sebanyak 240 data. Pada program CEIC terdapat enam atribut yaitu Question 1-

10, Question 11-20, Question 21-30, Question 31-40, Reading dan Listening

dan lima label kelas yaitu Level 1, Level 2, Level 3, Level 4 dan Level 5.

Namun karena tidak terdapat data dengan atribut <Question 1-10 dan label Level

1, maka label tersebut tidak diikut sertakan. Keterangan atribut dapat dilihat

pada tabel 3.1.

Tabel 3.1 Keterangan Atribut

No Atribut Keterangan

1 Question 1-10

Jika terdapat banyak jawaban yang salah maka

akan ditempatkan Level 2 : Real Beginner

2 Question 11-20


akan ditempatkan Level 3 : Mid Beginner

3 Question 21-30


akan ditempatkan Level 4 : Upper Beginner

4 Question 31-40


akan ditempatkan Level 5 : Pre Intermediate

5 Reading Nilai dari section Reading

6 Listening Nilai dari section Listening

Indikator level yang telah disebutkan di atas dapat dilihat pada tabel 3.2, 3.3 dan

3.4.


14

Tabel 3.2 Indikator Placement Test Section 1

Section 1 Language Use

Question 1-10 Level 2





Section 2 Reading

5-10 correct answers Level 2





Section 2 Listening






15

III.2. Spesifikasi Alat Penelitian

3.2.1 Spesifikasi Hardware

a) Laptop : Asus X453M

b) Processor : Intel(R) Celeron(R) CPU N2840 @ 2.16GHz 2.16

GHz

c) Memori : 4GB

d) Graphic Card : Intel IGP

e) Storage : 500GB

3.2.2 Spesifikasi Software

a) Sistem Operasi : Windows 8.1 Pro

b) Matlab : R2016b

III.3. Desain Alat Uji

Gambar 3.1 Desain Alat Uji

Gambar 3.1 merupakan desain alat uji yang digunakan dalam penelitian


16

ini. Pada tahap pertama dilakukan preprocessing data, yaitu data akan langsung

di proses dalam model Naive Bayes, dimana data Training dan data Testing

dibuat jadi modelnya. Kemudian, data uji kelompok dan tunggal dilakukan

untuk menghasilkan klasifikasi dan akurasi.

Gambar 3.2 Diagram Flowchart Umum Sistem

Gambar 3.2 merupakan alur data yang digunakan dalam sistem yang akan

melewati dari proses inputan data awal menjadi output nilai akurasi.

Algoritma Umum Sistem:

1. Baca data mentah.

2. Masuk tahap preprocessing, seleksi atribut dan transformasi.


17

3. Data siap pakai.

4. Bagi menjadi k bagian, kemudian masukkan ke masing-masing variabel

fold-1 sampe fold-k

5. Masuk ke model Naive Bayes

a. Mencari nilai mean untuk setiap atribut ke semua label data Training .

b. Mencari nilai standar deviasi untuk setiap atribut ke semua kelas data

Training.

c. Mencari nilai probabilitas dengan menggunakan persamaan (2.4)

Densitas Gauss untuk tiap atribut pada semua label.

d. Mencari nilai likelihood dengan mengalikan semua atribut untuk tiap

label, lalu dikalikan dengan nilai probabilitas kelas.

6. Mencari hasil confusion matrix

7. Mendapatkan hasil akurasi dengan menjumlahkan data yang diprediksi

secara benar dibagi dengan jumlah total data Testing.

8. Hasil klasifikasi didapatkan.

Sedangkan Gambar 3.3 merupakan alur data dari data uji tanggal yang

menghasilkan keluaran hasil klasifikasi.

Gambar 3.3 Diagram Flowchart Uji Data Tunggal


18

Algoritma :

1. Masukkan data uji tunggal yang diinputkan.

2. Masuk ke model Naive Bayes yang sudah mengelola data Training.

3. Hasil klasfikasi keluar.

4. Selesai

Gambar 3.4 Diagram Flowchart Uji Data Kelompok

Algoritma :

1. Baca data uji data kelompok.

2. Masuk ke model Naive Bayes yang sudah mengelola data Training.

3. Hasil klasifikasi keluar.

4. Selesai.

III.4. Preprocessing

Pada tahap ini ada dua proses yang dilakukan, yang pertama yaitu seleksi

data dan transformasi data. Seleksi data dilakukan dengan cara meranking atribut

dengan menggunakan information gained. Pada tahap ini bertujuan untuk


19

mencari atribut mana yang relevan dan menghapus atribut yang tidak diperlukan.

Seleksi data dilakukan dengan menggunakan Weka tools. Selanjutnya adalah

transformasi data. Proses ini dilakukan dengan mengubah kolom label, yaitu

Level. Dilakukan transformasi sebagai berikut :

Level 2 : 2

Level 3 : 3

Level 4 : 4

Level 5 : 5

III.5. Modeling Naive Bayes

Pada tahap ini dilakukan proses klasifikasi menggunakan metode Naive

Bayes. Data akan dibagi menjadi dua, yaitu data Testing dan data Training, lalu

data akan diolah menggunakan perhitungan algoritma. Berikut merupakan tahap-

tahap pengolahan data menggunakan modeling Naive Bayes.

1. Data Training dibaca

2. Karena data yang digunakan adalah numerik, maka perlu mencari

nilai mean dan standar deviasi tiap atribut. Berikut adalah

persamaan untuk menghitung nilai mean (nilai rata-rata):

Keterangan :

µ : mean (rata -rata)

xi : nilai sampel ke-i

n : jumlah sampel

untuk menghitung standar deviasi digunakan persamaan berikut:

3. Menghitung nilai probabilistik dengan menghitung jumlah data

𝜇 =∑ 𝑥𝑖𝑛

𝑖=1

𝑛 (2.3)

s =∑ ( 𝑥𝑖−𝑥)2𝑛

𝑖=1

𝑛 −1 (2.4)


20

dari kategori yang sama dibagi dengan jumlah data pada kategori.

4. Sistem akan menghasilkan output.

III.6. Desain User Interface

Penulis membuat sebuah interface pada penilitan ini dengan tujuan

mempermudah proses membaca data, menghitung confesion matrix, proses

klasifikasi dan hasil akurasi. Berikut ini adalah gambar dari user interface.

Gambar 3.5 Tampilan User Interface

Gambar 3.5 adalah sketsa user interface sistem yang dibuat untuk

mempermudah user dalam menggunakan sistem tersebut. User interface tersebut

memiliki beberapa fitur yang berbeda-beda penggunaannya. berikut adalah

penjelasan kegunaan untuk tiap fitur :

a. Baca Data

Pada tombol ini akan menginputkan file data yang akan digunakan dalam

sistem ini.

b. Panel jumlah atribut

Pada panel ini akan dilakukan uji coba dengan berbagai jumlah atribut dan


21

terdapat tombol preprocessing yang bertujuan untuk melakukan tahap

preprocessing seperti yang sudah dijelaskan diatas.

c. Tabel confussion matrix

Pada fitur ini akan menghasilkan hasil perhitungang confusion matrix

dengan menggunakan 5 k-fold, yang mana hasil perhitungan ini akan

menghasilkan akurasi.

d. Tombol Akurasi

Saat tombol ini ditekan, akan menghasilkan akurasi dari perhitungan

confusion matrix dengan menggunakan percobaan berbagai jumlah atribut.

e. Tabel uji data kelompok

Pada tahap ini akan dilakukan uji coba dengan menggunakan data yang

lebih dari satu. Menginputkan file data yang berformat .xls, lalu menekan

tombol klasifikasi, maka pada tabel kedua akan menghasilkan klasifikasi

yang dilakukan.

f. Tabel uji data tunggal

Seperti yang dilakukan pada tabel uji data kelompok, hal yang sama juga

dilakukan pada tahap ini. Hal yang membedakan antara keduanya, yaitu

pada tahap ini inputan data yang dilakukan hanya satu data untuk tiap

atribut, setelah dilakukan inputan, tekan tombol klasifikasi untuk melihat

hasil klasifikasi.


22

Bab IV. IMPLEMENTASI SISTEM

.

4.1 Implementasi Preprocessing

4.1.1 Data Selection

Pada tahap ini data diseleksi dengan cara menghitung information

gained. Seleksi atribut dilakukan menggunakan Weka Tools. Tabel

merupakan atribut sebelum dirankingkan.

Tabel 4 .1 Atribut sebelum dilakukan seleksi atribut

No Atribut

1 Question 1-10

2 Question 11-20

3 Question 21-30

4 Question 31-40

5 Reading

6 Listening

Setelah dilakukan perankingan menggunakan Weka menghasilkan

urutan yang terlihat pada tabel 4.2.

Tabel 4.2 Seleksi Atribut Berdasarkan Information Gained

Atribut Persentase

Listening 0.737%

Reading 0.449%

Question 11-20 0.379%

Question 21-30 0.266%

Question 1-10 0.27%

Question 31-40 0%


23

4.1.2 Transformasi Data

Transformasi Data

Pada tahap ini akan dilakukan transformasi pada data, yaitu

mengubah Label yang awalnya bertipe String menjadi bertipe

numerik. Tabel 4.3 merupakan label data yang belum

ditransformasi.

Tabel 4.3 Contoh Data sebelum di Transformasi

Label

Level 2

Level 3

Level 4

Level 5

Berikut merupakan label yang sudah ditransformasikan.

Tabel 4.4 Contoh Data setelah di Transformasi

Label Setelah di Transformasi

Level 2 2

Level 3 3

Level 4 4

Level 5 5

4.1.3 Source Code Preprocessing

global row;

a = row(:,7);

[m,n]= size(a);

for i=1:m

if (strcmp(row(i,7),'Level 2'))

row(i,7)={2};

elseif (strcmp(row(i,7),'Level 3'))


24

row(i,7)={3};

elseif(strcmp(row(i,7),'Level 4'))

row(i,7)={4};

else

row(i,7)={5};

end

end

d = row;

rating = [6,5,2,1,3,4];

jumlahCiri =str2num(get(handles.edit27,'String'));

if jumlahCiri > size(rating,2)-1

jumlahCiri = size (rating,2);

end

for i=1:jumlahCiri

if i ==1

Data = d(:,rating(i));

else

Data = [Data,d(:,rating(i))];

end

end

global datapakai;

datapakai=[Data,d(:,7)];

set(handles.uitable8,'data',datapakai);

4.2 Implementasi Naive Bayes

4.2.1 Klasifikasi

Data yang digunakan pada proses ini sudah melalui proses

perankingan dan transformasi. Data yang dipakai dalam proses

ini sebanyak 240 data dengan 3 atribut dan 4 label. Selanjutnya

dilakukan uji coba dengan jumlah atribut untuk melihat akurasi

yang optimal pada tabel 4.5.

Tabel 4.5 Uji Coba dengan berbagai jumlah atribut

Jumlah Atribut Akurasi

6 atribut 64,5833%

5 atribut 63,3333%

4 atribut 62,0833%


25

3 atribut 65%

2 atribut 64,1667%

1 atribut 58,75%

Berdasarkan tabel 4.5 dengan jumlah 3 atribut mendapat akurasi

optimal sebesar 65%.

Gambar 4.1 Tampilan Confusion Matrix dengan 5 k-folds

4.2.2 Source Code Naive Bayes

function output = naiveBayes( DataTr,LabelTr,DataTs )

Label = [2,3,4,5];

DataTr = cell2mat(DataTr);

LabelTr = cell2mat(LabelTr);

DataTs = cell2mat(DataTs);

Level2 = find(LabelTr(:) == 2);




%nilai prior

probabilitas_Level2 = length(Level2)/length(LabelTr);





26

probabilitas =

[probabilitas_Level2,probabilitas_Level3,probabilitas_Level4,prob

abilitas_Level5];

%nilai Likehood

for i=1:length(Label(1,:))

mn(i,:) = mean(DataTr(LabelTr == Label(1,i),:));

st_dev(i,:) = std(DataTr(LabelTr == Label(1,i),:));

end

%nilai Posterior

for j=1:size(Label,2)

likelihood = normpdf(DataTs, mn(j,:),st_dev(j,:));

posterior(j) = prod(likelihood)*probabilitas(j);

end

assignin('base', 'posterior', posterior);

if posterior(1) > posterior(2) && posterior(1) > posterior(3) &&

posterior(1) > posterior(4)

output = 2;

elseif posterior(2) > posterior(1) && posterior(2) posterior(3) &&


output = 3;

elseif posterior(3) > posterior(1) && posterior(3) posterior(2) &&


output = 4;

else

output = 5;

end

end

4.3 Implementasi 5-fold Cross Validation

4.3.1 Source Code 5-fold Cross Validation

global datapakai;

Baca = datapakai;

dataSize = size(Baca,2);

X = Baca(:,1:dataSize-1);

Y = Baca(:,dataSize);

totalData = size(X);

training = X;

LabelTraining = Y;

save 'LabelTraining.mat' 'LabelTraining';


27

range = totalData(1)/5;

kel1 = X(1:range,:);

kel2 = X(range+1:range*2,:);

kel3 = X(range*2+1:range*3,:);



dataTr1 = [kel2;kel3;kel4;kel5];

dataTs1 = kel1;


dataTs2 = kel2;


dataTs3 = kel3;


dataTs4 = kel4;


dataTs5 = kel5;

LabelKel1 = Y(1:range,:);

LabelKel2 = Y(range+1:range*2,:);

LabelKel3 = Y(range*2+1:range*3,:);



LabelTr1 = [LabelKel2;LabelKel3;LabelKel4;LabelKel5];

LabelTs1 = LabelKel1;

LabelTs1 = cell2mat(LabelTs1);












28



4.4 Implementasi Confusion Matrix

4.4.1 Source Code Confusion Matrix

for i=1:size(dataTs1,1)

hasil(i,1) = naiveBayes(dataTr1,LabelTr1,dataTs1(i,:));

end

cf1 = confusionmat(LabelTs1,hasil);

output1 = (sum(diag(cf1))/sum(sum(cf1)))*100;

set(handles.uitable5,'data', cf1);


hasil(i,1) =

naiveBayes(dataTr2,LabelTr2,dataTs2(i,:));

end





hasil(i,1) =naiveBayes(dataTr3,LabelTr3,dataTs3(i,:));

end





hasil(i,1) naiveBayes(dataTr4,LabelTr4,dataTs4(i,:));

end





hasil(i,1) =naiveBayes(dataTr5,LabelTr5,dataTs5(i,:));

end




akurasi = (output1+output2+output3+output4+output5)/5;


29

set(handles.text32,'String',['Akurasi : ' num2str(akurasi)

'%']);

4.5 Implementasi Uji Data Tunggal

4.5.1 Uji Data Tunggal

Tampilan dari sistem dengan uji data tunggal dapat dilihat pada

gambar 4.2, 4.3, 4.4, dan 4.5.

4.5.1.1 Uji Data 1

Pada uji data tunggal, data 1 berhasil diklasifikasi menjadi

Level 2.

Gambar 4.2 Uji Data 1

4.5.1.2 Uji Data 2


Level 3.


30


4.5.1.3 Uji Data 3


Level 4.


4.5.1.4 Uji Data 4


Level 5.


31


4.5.2 Source Code Uji Data Tunggal

load training;

load LabelTraining;

training = training(:,1:3);

question2 = str2num(get(handles.edit14,'String'));

listening = str2num(get(handles.edit18,'String'));

reading = str2num(get(handles.edit17,'String'));

inputan = [reading,listening,question2];

inputan = num2cell(inputan);

hasil = naiveBayes(training,LabelTraining,inputan);

if hasil==2

set(handles.text33,'String','Level 2')

elseif hasil==3


elseif hasil==4


else


end

4.6 Implementasi Uji Data Kelompok

4.6.1 Uji Data Kelompok


32

Tampilan dari Sistem Uji Data Kelompok dapat dilihat pada

gambar

Gambar 4.6 Uji Data Kelompok

4.6.2 Source Code Uji Data Kelompok

global row1;

load training;

load LabelTraining;

training = training(:,1:3);

LabelTraining = LabelTraining;

testing = row1(:,[6 5 2]);

tampil= row1(:,[2 5 6]);

tampil= cell2mat(tampil);

ukuran = testing(:,1);

[m,n] = size(ukuran);

for i=1:m

hasil(i) = naiveBayes(training,LabelTraining,testing(i,:));

if hasil(i)==2

output(i,1)=2;

elseif hasil(i)==3

output(i,1)=3;

elseif hasil(i)==4


33

output(i,1)=4;

else

output(i,1)=5;

end

end

gabung = [tampil,output];

set(handles.hasilKlasifikasi,'ColumnName',{'Question 11-20',

'Reading', 'Listening', 'Level'});

set(handles.hasilKlasifikasi,'ColumnWidth',{'auto', 'auto', 'auto',

'auto'});

set(handles.hasilKlasifikasi,'ColumnFormat',{'short', 'short',

'long'});

set(handles.hasilKlasifikasi,'data',gabung);

4.7 User Interface Sistem

Gambar 4.1 User Interface Sistem

Berikut ini adalah keterangan mengenai fitur-fitur yang terdapat

pada User Interface Sistem :

1. Tombol Pilih File digunakan untuk mengambil file yang

diinginkan, lalu isi data file akan ditampilkan pada tabel.

2. Jumlah Atribut digunakan untuk mnguji dengan berbagai

jumlah atribut, namun untuk pemodelan naive bayes

menggunakan jumlah atribut dengan hasil akurasi yang

optimal. Setelah itu tekan tombol preprocessing untuk

1

2

3

4

5 6


34

dilakukan preprocessing.

3. Tombol akurasi digunakan untuk menampilkan nilai

akurasi yang merupakan hasil dari model naive bayes.

Selain itu, terdapat lima tabel confusion matrix yang

berfungsi untuk menampilkan nilai confusion matrix pada

tiap fold.

4. Tombol Pilih File pada Uji Data Kelompok, berfungsi

untuk mengambil file data kelompok, lalu isi dari file

tersebut akan ditampilkan pada tabel.

5. Tombol klasifikasi berfungsi untuk mengklasifikasi isi file

data yang sebelumnya belum diklasifikasikan. Setelah

menekan tombol klasifikasi, akan muncul hasil klasifikasi.

6. Uji Data Tunggal, memiliki tiga kolom inputan yang

berfungsi untuk menginput data, kemudian dari data

tersebut akan diklasifikasikan dengan menggunakan tombol

klasifikasi.


35

Bab V. ANALISIS HASIL

5.1 Uji Validasi

5.1.1 Perhitungan Manual Naive Bayes

Berikut merupakan contoh perhitungan manual menggunakan excel. Data

yang digunakan ada sebanyak 20 data. Data pada baris 1 - 4 digunakan

sebagai data Testing pada fold-1, sedangkan data ke 5 – 20 digunakan sebagai

data Training.

Tabel 5.1 Contoh Data

No Question

1-10

Question

11-20

Question

21-30

Question

31-40

Reading Listening Level

1 8 3 4 2 18 16 Level 4

2 7 4 2 7 5 12 Level 2

3 4 1 2 3 13 11 Level 3

4 9 7 8 4 24 23 Level 5

5 10 8 10 6 26 24 Level 5

6 6 4 7 2 14 14 Level 3

7 7 6 4 2 23 20 Level 4

8 9 2 3 4 16 10 Level 2

9 8 8 4 3 21 20 Level 4

10 5 2 2 1 13 10 Level 2

11 10 6 9 4 25 21 Level 5

12 10 6 7 4 20 17 Level 3

13 10 9 8 1 24 18 Level 4

14 9 6 3 3 21 13 Level 3

15 6 5 1 1 8 10 Level 2

16 9 6 6 3 23 21 Level 5

17 8 10 7 4 25 21 Level 5

18 7 4 2 7 5 12 Level 2

19 9 8 9 5 26 19 Level 4

20 10 5 4 2 22 12 Level 3


36

Berikut ini adalah contoh perhitungan nilai mean dan standar deviasi untuk tiap

atribut terhadap semua kelas. Hasil dari perhitungan mean dan standar deviasi

ditunjukkan pada Tabel 5.2, 5.3, 5.4, 5.5, 5.6 dan 5.7.

Tabel 5.2 Nilai mean dan standar deviasi Question 1-10 terhadap semua atribut

Question 1-10 Level 2 Level 3 Level 4 Level 5

Mean 6,75 8,75 8,5 9,25

Standar Deviasi 1,707825 1,892969 0,129099 0,957427



Mean 3,25 5,25 7,25 7,5

Standar Deviasi 1,5 0,957427 2,217355 1,914854



Mean 2 5,25 6,25 8

Standar Deviasi 0,816496 2,06155 2,629955 1,825741



Mean 3,25 2,75 2,75 4,25

Standar Deviasi 2,87228 0,95743 1,707825 1,25830

Tabel 5.6 Nilai mean dan standar deviasi Reading terhadap semua atribut

Reading Level 2 Level 3 Level 4 Level 5

Mean 10,5 19,25 23,5 24,75


37

Standar Deviasi 4,93288 3,59398 2,08166 1,258305

Tabel 5.7 Nilai mean dan standar deviasi Listening terhadap semua atribut

Listening Level 2 Level 3 Level 4 Level 5

Mean 10,5 14 19,25 21,75

Standar Deviasi 1 2,160247 0,957427 1,5

Kemudian menghitung nilai probabilitas kelas seperti yang ditunjukkan pada

Tabel 5.8.

Tabel 5.8 Probabilitas kelas

Jumlah Kelas Probabilitas Kelas

Level 2 Level 3 Level 4 Level 5 Level 2 Level 3 Level 4 Level 5

4 4 4 4 4/16 4/16 4/16 4/16

Tabel 5.9 Tabel data Testing

Perhitungan dengan data Testing no 1

Question 1-10 = 8, hitung menggunakan persamaan (gaus)

P(Question 1-10 = 8 | Level 2)

No Question

1-10

Question

11-20

Question

21-30

Question

31-40 Reading Listening Level

1 8 3 4 2 18 16 Level 4

2 7 4 2 7 5 12 Level 2

3 4 1 2 3 13 11 Level 3

4 9 7 8 4 24 23 Level 5


38

=1

√2𝜋(1,707825128)𝑒

−(8−6,75)2

2(1,707825128)2 = 0,178705446

P(Question 1-10 = 8 | Level 3):

=1

√2𝜋(1,892969)𝑒

−(8−8,75)2

2(1,892969)2 = 0,194840571


=1

√2𝜋(1,290994)𝑒

−(8−8,5)2

2(1,290994)2 = 0,2866907

(Question 1-10 = 8 | Level 5):

=1

√2𝜋(0,9574271)𝑒

−(8−9,25)2

2(0,9574271)2 = 0,1776916



=1

√2𝜋(1,5)𝑒

−(3−1,5)2

2(1,5)2 = 0,2622931


=1

√2𝜋(0,9574271)𝑒

−(3−5,25)2

2(2,986078811)2 = 0,0263365


=1

√2𝜋(2,2173557)𝑒

−(3−7,25)2

2(2,2173557)2 = 0,0286638


39


=1

√2𝜋(1,9148542)𝑒

−(3−7,5)2

2(1,9148542)2 = 0,0131682



=1

√2𝜋(0,8164965)𝑒

−(2−4)2

2(0,8164965)2 = 0,0243260


=1

√2𝜋(2,0615528)𝑒

−(4−5,25)2

2(2,0615528)2 = 0,1610208


=1

√2𝜋(2,6299556)𝑒

−(4−6,25)2

2(2,6299556)2 = 0,1052023


=1

√2𝜋(1,8257418)𝑒

−(4−8)2

2(1,8257418)2 = 0,0198227



=1

√2𝜋(2,872281)𝑒

−(2−3,25)2

2(2,872281)2 = 0,1263446


=1

√2𝜋(0,957427)𝑒

−(2−2,75)2

2(0,957427)2 = 0,3065878


40


=1

√2𝜋(1,7078251)𝑒

−(2−2,75)2

2(1,7078251)2 = 0,2121232


=1

√2𝜋(1,2583057)𝑒

−(2−4,25)2

2(1,2583057)2 = 0,0640950

Reading = 18, hitung menggunakan persamaan (gaus)

P(Reading = 18 | Level 2)

=1

√2𝜋(4,932883)𝑒

−(18−10,5)2

2(4,932883)2 = 0,02545904


=1

√2𝜋(3,593976)𝑒

−(18−19,25)2

2(3,593976)2 = 0,1044881

P(Reading = 18 | Level 4):

=1

√2𝜋(2,0816659)𝑒

−(18−23,5)2

2(2,0816659)2 = 0,0058431


=1

√2𝜋(1,2583057)𝑒

−(18−24,75)2

2(1,2583057)2 = 0,00000017

Listening = 16, hitung menggunakan persamaan (gaus)

P(Listening = 16 | Level 2)


41

=1

√2𝜋(1)𝑒

−(16−10,5)2

2(1)2 = 0,00000010769

P(Listening = 16 | Level 3)

=1

√2𝜋(2,160247)𝑒

−(16−14)2

2(2,160247)2 = 0,1203041


=1

√2𝜋(0,9574271)𝑒

−(16−19,25)2

2(0,9574271)2 = 0,0013112


=1

√2𝜋(1,5)𝑒

−(18−21,75)2

2(1,5)2 = 0,00017138

Untuk melihat hasil dari probabilitas pada tiap atribut bisa dilihat pada Tabel 5.10

dibawah ini.

Tabel 5.10 Probabilitias setiap atribut

Level 2 Level 3 Level 4 Level 5

Question 1-10 0,1787054 0,194840 0,2866907 0,17769164

Question 11-20 0,2622931 0,026336 0,0286638 0,0131682

Question 21-30 0,0243260 0,161020 0,1052023 0,01982275


42

Question 31-40 0,1263446 0,306587 0,2121232 0,064095

Reading 0,0254590 0,104488 0,0058431 0,00000017

Listening

0,0000001 0,120304 0,0013112 0,00017138

Mencari nilai likelihood pada data testing nomor 1

Likelihood Level 2

= P(Question 1-10) * P(Question 11-20) * P(Question 21-30) *

P(Question 31-40) * P(Reading) * P(Listening)

= 0,1787054*0,2622931*0,0243260* 0,1263446* 0,0254590* 0,0000001

= 0,0000000000003950043

Likelihood Level 3

=P(Question 1-10) * P(Question 11-20) * P(Question 21-30) * P(Question

31-40) * P(Reading) * P(Listening)

= 0,194840* 0,026336* 0,161020* 0,306587* 0,104488* 0,120304

= 0,00000318436

Likelihood Level 4

= P(Question 1-10) * P(Question 11-20) * P(Question 21-30) * P(Question


= 0,2866907* 0,0286638* 0,2121232* 0,0058431* 0,0013112

= 0,0000000014050

Likelihood Level 5

= P(Question 1-10) * P(Question 11-20) * P(Question 21-30) * P(Question


=0,17769164*0,0131682*0,01982275*0,064095*0,00000017*0,00017138


43

= 0,00000000000000009111

Berikut ini adalah nilai hasil dari likelihood pada data Testing no 1

Level 2

= 0,0000000000003950043

0,00000000000039500430,00000318436 + 0,0000000014050

+ 0,00000000000000009111

= 0,000000123990

Level 3

= 0,00000318436

0,0000000000003950043 +0,00000318436 + 0,00000000014050

+ 0,00000000000000009111

= 0,999558

Level 4

= 0,0000000014050

0,0000000000003950043 +0,00000318436 + 0,0000000014050

+ 0,00000000000000009111

= 0,0004410

Level 5


44

= 0,00000000000000009111

0,0000000000003950043 +0,00000318436 + 0,0000000014050

+ 0,00000000000000009111

= 0,00000000003

Berdarkan nilai probabilitas untuk semua kelas pada data Testing no 1, hasil yang

mendekati angka 1 terdapat pada Level 3.

Dari empat data Testing pada Tabel 5.14, hasil klasifikasi Data Testing dapat

dilihat pada Tabel 5.15.

Tabel 5.11 Klasifikasi Data Testing

Question

1-10

Question

11-20

Question

21-30

Question

31-40

Reading Listening Kelas Hasil

Klasifikasi

8 3 4 2 18 16 Level 4 Level 3

7 4 2 7 5 12 Level 2 Level 2

4 1 2 3 13 11 Level 3 Level 2

9 7 8 4 24 23 Level 5 Level 5

Hasil perhitungan Confusion Matrix dapat dilihat pada Tabel 5.12.

Tabel 5.12 Confusion Matrix


Level 2 1 0 0 0

Level 3 1 0 0 0

Level 4 0 1 0 0

Level 5 0 0 0 1


45

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =1 + 0 + 0 + 1

4 𝑥 100 = 50%

Berdasarkan hasil perhitungan exel dengan menggunakan 5-fold cross validation

didapatkan hasil sebagai berikut.

Tabel 5.13 Confusion Matrix 1


Level 2 1 0 0 0

Level 3 1 0 0 0

Level 4 0 1 0 0

Level 5 0 0 0 1

Pada fold pertama mendapatkan akurasi sebesar 50%.



Level 2 0 1 0 0

Level 3 0 1 0 0

Level 4 0 0 1 0

Level 5 0 0 1 0

Pada fold kedua mendapatkan akurasi sebesar 50%.



Level 2 1 0 0 0

Level 3 0 0 1 0

Level 4 0 0 1 0

Level 5 0 0 0 1


46




Level 2 1 0 0 0

Level 3 0 1 0 0

Level 4 0 0 1 0

Level 5 0 0 1 0




Level 2 1 0 0 0

Level 3 0 1 0 0

Level 4 0 0 0 1

Level 5 0 0 1 0


Dengan menjumlahkan setiap nilai akurasi terhadap tiap fold didapatkan nilai

akurasi total sebagai berikut.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =50 + 50 + 75 + 75 + 50

5 𝑥 100 = 60%

5.1.2 Hasil Run Sistem Dengan 20 Data

Pengujian yang dilakukan dengan menggunakan 20 data pada

sistem dapat dilihat pada gambar berikut.


47

Gambar 5.1 Hasil Sistem Dengan 20 Data

5.2 Uji Akurasi dengan 240 Data Menggunakan Sistem

5.2.1 Dengan 5 k-fold

Uji coba yang dilakukan dengan 4 k-fold menghasilkan akurasi seperti

pada tabel berikut :

Tabel 5.18 Uji Coba Dengan 5 k-fold

6 atribut 64.5833%

5 atribut 63.3333%

4 atribut 62.0833%

3 atribut 65%

2 atribut 64.1677%

1 atribut 58.75%

Berdasarkan dari hasil tabel diatas, akurasi paling optimal dengan

menggunakan 5 k-fold terdapat pada uji coba dengan 3 atribut, yaitu 65%.

Hasil tersebut telah di coba dengan menggunakan sistem seperti pada

gambar berikut.


48

Gambar 5.2 Dengan 5 k-fold


Uji coba yang dilakukan dengan 4 k-fold menghasilkan akurasi

seperti pada tabel berikut :


6 atribut 62.9167%

5 atribut 64.1667%

4 atribut 63.3333%

3 atribut 65%

2 atribut 61.25%

1 atribut 58.3333%


menggunakan 4 k-fold terdapat pada uji coba dengan 3 atribut,

yaitu 65%. Hasil tersebut telah di coba dengan menggunakan

sistem seperti pada gambar berikut.


49



Uji coba yang dilakukan dengan 3 k-fold menghasilkan akurasi

seperti pada tabel berikut :


6 atribut 62.0833%

5 atribut 62.0833%

4 atribut 60.4167%

3 atribut 64.1667%

2 atribut 62.0833%

1 atribut 59.5833%


menggunakan 3 k-fold terdapat pada uji coba dengan 3 atribut,

yaitu 64.1667%. Hasil tersebut telah di coba dengan menggunakan

sistem seperti pada gambar berikut.


50


5.3 Uji Akurasi Dengan Data Tunggal Menggunakan Sistem

Tabel berikut adalah contoh data yang di ujikan menggunakan sistem uji data

tunggal. Data yang digunakan ada sebanyak 12 data.

Tabel 5.21 Uji Akurasi Data Tunggal

Question 11-20 Reading Listening Klasifikasi

Dari

Lembaga

Bahasa

Klasifikasi

Dari Sistem

6 9 15 Level 2 Level 2










51




Berdasarkan dari hasil klasifikasi dengan uji data tunggal, dari 12 data terdapat 4

data yang di klasifikasikan tidak sesuai dengan label pada data CEIC 2019 yang

sudah diklasifikasikan dari pihak lembaga. Sedangkan, 8 data lainnya

diklasifikasikan sama dengan label pada data CEIC 2019. Dengan demikian,

akurasi yang di dapatkan sebesar 60% dari uji data tunggal diatas yaitu 66,666%.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =8

12 𝑥 100 = 66.6666%

5.4 Uji Akurasi Menggunakan Outlier

Pada tahap ini dilakukan penghapusan data yang bernilai 0 dan sistem

menggunakan 3-fold untuk pembagian datanya. Jumlah data pada tiap level

diseimbangkan. Langkah pertama dilakukan Information Gained dengan

menggunakan Weka Tools. Hasil dari Information Gained dapat dilihat pada tabel

5.22.

Tabel 5.22 Information Gained Percobaan kedua No Urut

Atribut Atribut Information Gained

6 Listening 0.646%

5 Reading 0.439%

2 Question 11-20 0.395%

1 Question 1-10 0.333%

3 Question 21-30 0.279%


52

4 Question 31-40 0.07%

Pada percobaan ini jumlah label pada tiap data seimbang. Setelah itu

dilakukan uji sistem menggunakan data yang terdapat data 0. Pengujian sistem

dilakukan dengan uji coba berbagai jumlah atribut. Hasil dapat dilihat pada tabel

5.23.

Tabel 5.23 Uji Akurasi Sebelum Menggunakan Outlier

Uji Berbagai Atribut Akurasi

6 atribut

(Listening, Reading, Question 11-20,

Question 1-10, Question 21-30 dan

Question 31-40)

63.75%

5 atribut


Question 1-10 dan Question 21-30)

64.5833%

4 atribut

(Listening, Reading, Question 11-20 dan

Question 1-10)

65.8883%

3 atribut

(Listening, Reading dan Question 11-20) 67.5%

2 atribut

(Listening dan Reading) 63.3333%

1 atribut

(Listening) 59.1667%

Pada percobaan diatas akurasi optimal tampak pada percobaan dengan

menggunakan 3 atribut, yaitu 67.5%.

Seperti yang sudah di jelaskan pada bab III, data yang digunakan berjumlah 240


53

data, setelah menghapus data yang bernilai 0, data berkurang menjadi 226 data.

Data yang memiliki nilai 0 ada sebanyak 14 data. Perngujian dilakukan

menggunakan sistem dengan uji coba berbagai jumlah atribut. Hasilnya dapat

dilihat pada tabel 5.24 berikut ini :

Tabel 5.24 Uji Akurasi Setelah Menggunakan Outlier

Uji Berbagai Atribut Akurasi

6 atribut


Question 1-10, Question 21-30 dan

Question 31-40)

61.778%

5 atribut


Question 1-10 dan Question 21-30)

64%

4 atribut

(Listening, Reading, Question 11-20 dan

Question 1-10)

65.778%

3 atribut

(Listening, Reading dan Question 11-20) 67.5556%

2 atribut

(Listening dan Reading) 60.8889%

1 atribut

(Listening) 58.2222%

Pada percobaan diatas akurasi optimal terdapat percobaan dengan menggunakan 3

atribut, yaitu 67.5556%.


54

Berikut ini adalah tampilan uji sistem dengan menggunakan outlier :

Gambar 5.5 Uji Sistem Menggunakan Outlier

Berdasarkan dari 2 hasil diatas, akurasi paling optimal terdapat pada uji coba

menggunakan 3 atribut, yang mana akurasi pada percobaan dengan data sebelum

menggunakan outlier menghasilkan 67.5% dan setelah menggunakan outlier

menghasilkan akurasi 67.5556%. Hanya terdapat peningkatan sebesar 0.0001%.

Dapat disimpulkan bahwa dengan pembagian jumlah label (Level) yang seimbang

pada tiap fold dan penghapusan data yang bernilai 0 tidak menaikkan akurasi.


55

Bab VI. PENUTUP

6.1 Kesimpulan

Dari hasil penelitian Klasifikasi Level Kemampuan Berbahasa Inggris

Berdasarkan Hasil Placement Test Menggunakan Naive Bayes, penulis mengambil

kesimpulan sebagai berikut :

1. Metode Naïve Bayes kurang dapat mengklasifikasi dengan baik untuk

klasifikasi kemampuan Bahasa Inggris berdasarkan hasil Placement Test

dengan studi kasus pada Lembaga Bahasa USD. Hal ini dikarenakan

jumlah data yang sedikit dan terdapat data yang bernilai 0, sehingga

akurasi pengklasifikasian kurang maksimal.

2. Akurasi yang diperoleh sebesar 65% (dari percobaan pertama, tanpa

oulier, jumlah label tidak seimbang, menggunakan 5 k-fold, pada data

sebanyak 240 data dengan 3 atribut dan 4 label.

3. Percobaan kedua tanpa menggunakan outlier dan menggunakan outlier.

Pada percobaan tanpa menggunakan outlier menghasilkan akurasi sebesar

67% dengan menggunakan 3-fold, 3 atribut dan 4 label. Data yang

digunakan sebanyak 226 dan jumlah label belum diseimbangkan.

Sedangkan dengan menggunakan outlier menghasilkan akurasi 67.5556%

dengan 3-fold, 3 atribut dan 4 label. Pada percobaan ini menggunakan

sebanyak 226 data, 3-fold, 4 label dan jumlah label pada tiap fold

seimbang.

4. Pembagian label yang seimbang untuk tiap fold dapat meningkatkan

akurasi, yang awalnya 65% menjadi 67.5556%. (Pembagian label yang

seimbang yaitu membagi dengan seimbang jumlah tiap label pada tiap

fold. Misal jumlah Level 2 pada data CEIC 2019 ada sebanyak 54 data,

karena menggunakan 3-fold, maka data yang memiliki label Level 2 akan

berjumlah sebanyak 18 data pada tiap fold).

5. Dari percobaan pertama dan kedua, akurasi optimal terdapat pada uji coba

dengan menggunakan 3 atribut yaitu 65% pada percobaan pertama dan

67.5556% pada percobaan kedua.


56

6.2 Saran

Saran yang dapat diberikan penulis untuk mengembangkan penelitian di masa

yang akan datang:

1. Melakukan penambahan data.

2. Melakukan percobaan dengan menggunakan metode klasifikasi lain.


57

DAFTAR PUSTAKA

C, Antonius Rachmat C dan Yuan Lukito. 2018. Klasifikasi Sentimen Komentar

Politik dari Facebook Page menggunakan Naive Bayes. Jurnal. Teknik

Informatika. Universitas Kristen Duta Wacana.

E. Prasetyo, Data Mining: Konsep dan Aplikasi menggunakan Matlab, 1 ed.

Yogyakarta: Andi Offset, 2012.

Han & Kamber. 2006. Data Mining: Concepts and Techniques, 2end ed.

Kusriani dan Luthfi, E.T. 2009. Algoritma Data Mining. Yogyakarta: Andi.

Kusuma Dewi, Sri. 2003. Klasifikasi Status Gizi Menggunakan Naive Bayes

Classfification. Jurnal. Teknik Inormatika. Universitas Islam Indonesia.

Patil, T. R., Sherekar, M. S. (2013). Performance Analysis of Naive Bayes and

J48 Classification Algorithm for Data Classification, International Journal of

Computer Science and Applications, Vol. 6, No. 2.

Saleh, Alfa. 2015. Implementasi Metode Klasifikasi Naive Bayes dalam

Memeroleh Besarnya Penggunaan Listrik Rumah Tangga Creative Information

Technology.

W, Nurul Rohmawati, dkk. 2015. Implementasi Algoritma K-Means Dalam

Pengklasteran Mahasiswa Pelamar Beasiswa. Jurnal. Teknik Informatika.

Universitas Singaperbangsa Karawang.


Documents

klasifikasi level kemampuan berbahasa inggris