17
R.M. NASRUL HALIM D., M.KOM

26111 22 text mining

Embed Size (px)

Citation preview

Page 1: 26111 22 text mining

R.M. NASRUL HALIM D., M.KOM

Page 2: 26111 22 text mining

DEFINISI Menambang data berupa text/kata.

Sumber data didapatkan dari dokumen.

Proses ekstraksi pola berupa informasi danpengetahuan yang berguna dari sejumlah besarsumber data teks, seperti dokumen Word, PDF,kutipan teks, e-mail, dll.

Page 3: 26111 22 text mining

TUJUAN Tujuannya untuk mencari kata-kata yang dapat

mewakili apa yang ada di dalam dokumen, sehingga dapat dilakukan analisa hubungan antar dokumen

Page 4: 26111 22 text mining

KARAKTERISTIK Dokumen email merupakan dokumen yang tidak

memiliki struktur bahasa yang baku, karena didalamnya terkadang muncul istilah slank seperti ”r uthere?”, ”helllooo bosss, whatzzzzzzz up?”, dansebagainya.

Diperlukan beberapa tahap agar teks dapat diubahmenjadi lebih terstruktur.

Page 5: 26111 22 text mining

PROSES TEXT MINING

Page 6: 26111 22 text mining

TAHAPAN Tokenizing (Penandaan)

Filtering (Penyaringan)

Stemming (Asal Kata)

Tagging (Pelabelan)

Analyzing (Analisis)

Page 7: 26111 22 text mining

Tokenizing Proses memecah sekumpulan karakter dalam suatu

teks ke dalam satuan kata.

Bagaimana membedakan karakter-karakter tertentuyang dapat diperlakukan sebagai pemisah kata ataubukan.

Contoh: karakter whitespace, seperti enter, tabulasi,spasi dianggap sebagai pemisah kata.

Dalam memperlakukan karakter-karakter dalam tekssangat tergantung sekali pada kontek aplikasi yangdikembangkan.

Page 8: 26111 22 text mining

Tokenizing

Page 9: 26111 22 text mining

Filtering Tahap mengambil kata-kata penting dari hasil token.

Bisa menggunakan algoritma stop list (membuangkata yang kurang penting) atau word list (menyimpankata penting)

Page 10: 26111 22 text mining

Filtering

Page 11: 26111 22 text mining

Stemming Tahap mencari kata dasar dari tiap kata hasil filtering.

Page 12: 26111 22 text mining

Stemming

Page 13: 26111 22 text mining

Tagging Tahap mencari bentuk awal/dasar dari tiap kata

lampau atau kata hasil stemming.

Page 14: 26111 22 text mining

Tagging

Page 15: 26111 22 text mining

Analyzing Tahap penentuan seberapa jauh keterhubungan antar

kata-kata antar dokumen yang ada.

Term Frequency-Inversed Document Frequency (TF-TDF) merupakan algoritma yang paling sederhanayang biasanya digunakan untuk penentuan skor.

Page 16: 26111 22 text mining

Analyzing

Page 17: 26111 22 text mining