Upload
christy-ariestyani
View
218
Download
0
Embed Size (px)
Citation preview
8/18/2019 Text Mining and IR
1/41
Text Mining and
InformationRetrieval
Text Mining
8/18/2019 Text Mining and IR
2/41
Data Mining
Data mining adalah suatu proses yangsecara otomatis mencari atau
menemukan informasi yangbermanfaat dan suatu kumpulan data
yang besar.
8/18/2019 Text Mining and IR
3/41
Tahapan Data Mining
Data Mining lebih dekat pada bidangpencarian pengetahuan dalam basis data(knowledge discovery in database / KDD! yangmerupakan proses konversi dari data mentahmen"adi informasi yang bermanfaat.
8/18/2019 Text Mining and IR
4/41
Kelompok Data Mining
Data mining dibagi dalam dua
kelompok "enis tugas analisis data#$redictive task # bertugas untuk memprediksi
nilai sebuah atribut tertentu (target didasarkanpada nilai atribut lain (explanatory)
Descriptive task # bertugas mendapatkanpola analisis asosiasi (association analysis), pengelompokan (clustering), penyimpangan(anomaly detection) yang meringkas hubungan%hubungan dalam data
8/18/2019 Text Mining and IR
5/41
Text Mining
Text mining merupakan penerapan
konsep dan teknik data mining untukmencari pola dalam teks
Teks Mining # $roses penganalisisan
teks guna menyarikan informasiyang bermanfaat untuk tu"uantertentu.
8/18/2019 Text Mining and IR
6/41
Text Mining
$erbedaan mendasar dengan Data
Mining pada umumnya! Text Miningmengolah data teks yang tidakterstruktur! maka proses text miningmemerlukan beberapa tahap awal
( preprocessing ) yang pada intinyaadalah mempersiapkan agar teks dapatdiubah men"adi lebih terstruktur.
8/18/2019 Text Mining and IR
7/41
Text Mining
Perbedaan Data Mining Text Mining
Data &b"ect 'umerical categorical
data
Textual data
Data structure )tructured *nstructured semi%structured
Data representation )traightforward +omplex
)pace dimension , tens of thousands - tens of thousands
Methods Data analysis! machinelearning! 'eural'etwork! etc.
Data mining!information etrieval!'$! etc.
Maturity 0road implementationsince 1223
0road implementationstarting 4555
8/18/2019 Text Mining and IR
8/41
Tahapan Text Mining
8/18/2019 Text Mining and IR
9/41
Masalah Umum yang ditangani
$engorganisasian dan +lustering Dokumen
Klasi6kasi Dokumen
7nformation 8xtraction
9eb Mining
'atural anguage $rocessing ('$
7nformation etrieval (7
8/18/2019 Text Mining and IR
10/41
lustering Dokumen
+lustering adalah pengorganisasian
kumpulan pola ke dalam cluster(kelompok%kelompok berdasar ataskesamaannya.
$ola%pola dalam suatu cluster akan
memiliki kesamaan ciri/sifat daripadapola%pola dalam cluster yang lainnya.
8/18/2019 Text Mining and IR
11/41
lustering Dokumen
+lustering bermanfaat untukmelakukan analisis pola%pola yangada! mengelompokkan! dan membuatkeputusan.
Metodologi clustering lebih cocok
digunakan untuk eksplorasi hubunganantar data untuk membuat suatupenilaian terhadap strukturnya.
8/18/2019 Text Mining and IR
12/41
Klasi!kasi Dokumen
Klasi6kasi adalah mengelompokkan
dokumen berdasarkan data trainingyang sudah dilabeli.
$erbedaanya dengan clustering adalahpada klasi6kasi! kelas/kategorinya
sudah ditentukan di awal! sedangkanpada clustering tidak.
8/18/2019 Text Mining and IR
13/41
Information "xtraction
8/18/2019 Text Mining and IR
14/41
Information "xtraction
7nformation 8xtraction bermanfaat untuk menggali
struktur informasi dari sekumpulan dokumen. Dalam menerapkan 78! perlu sekali dilakukan
pembatasan domain problem.
78 sangat memerlukan '$ untuk mengetahuigramatikal dari setiap kalimat yang ada.
)ebagai contoh# :7ndonesia dan )ingapore menandatangani Mo*
ker"asama dalam bidang informasi dan komunikasi.;
Ker"a)ama(7ndonesia! )ingapore! T7K
8/18/2019 Text Mining and IR
15/41
Information "xtraction
Dengan 78! kita dapat menemukan#
concepts (+
8/18/2019 Text Mining and IR
16/41
#eb Mining$ Karakteristik #eb
@umlah data/informasi di web sangat besar
dan terus bertambah. tipe data beragam
informasi pada web sangat beragam.
informasi%informasi di web saling terhubung.
informasi di web sangat AkotorA.
web "uga merupakan service.
web dinamis
web merupakan sarana komunitas sosial virtual.
8/18/2019 Text Mining and IR
17/41
8/18/2019 Text Mining and IR
18/41
&'P
'atural anguage $rocessing ('$adalah melakukan pengolahan untuk
memahami (ahasa alami yangdiucapkan manusia
8/18/2019 Text Mining and IR
19/41
&'P
0ahasa alami adalah bahasa yang
secara umum digunakan oleh manusiadalam berkomunikasi satu sama lain.
0ahasa yang diterima oleh komputer
butuh untuk diproses dan dipahamiterlebih dahulu supaya maksud dariuser bisa dipahami dengan baik olehkomputer.
8/18/2019 Text Mining and IR
20/41
Information Retrieval
8/18/2019 Text Mining and IR
21/41
Information Retrieval
Konsep dasar dari 7 adalah pengukurankesamaan
sebuah perbandingan antara dua dokumen!mengukur sebearapa mirip keduanya.
)etiap input ?uery yang diberikan! dapatdianggap sebagai sebuah dokumen yang akan
dicocokan dengan dokumendokumen lain. $engukuran kemiripan serupa dengan metode
klasi6kasi yang disebut metode nearest%neighbour.
8/18/2019 Text Mining and IR
22/41
Information Retrieval
$erbedaan mendasar antara Text Mining dan 7 #
Text Mining # Discovery of novel information
"xtracting )re from other*ise *orthless rock #menemukan informasi yang relevan dan bermanfaatdari sekumpulan data besar yang kelihatanya tidakberguna.
7 # etrieval of 'on%novel 7nformation
+inding needles in a needle,stack # mencariinformasi yang relevan di antara informasi%informasilain yang berguna namun tidak relevan
8/18/2019 Text Mining and IR
23/41
-earch "ngine
-earch "ngine merupakan aplikasi nyatadari Information Retrieval pada bidang
web.
8/18/2019 Text Mining and IR
24/41
-earch "ngine
)earch 8ngine
8/18/2019 Text Mining and IR
25/41
InformationRetrieval
Text Mining % Text Mining 7nformation etrieval
8/18/2019 Text Mining and IR
26/41
(oolean Retrieval Model
$ada 0oolean 7nformation etrieval
?uery yang digunakan berupa0oolean.
Dokumen%dokumen yang ada
dibedakan men"adi sesuai atau tidaksesuai dengan ?uery tersebut
8/18/2019 Text Mining and IR
27/41
(oolean Retrieval Model
+ontoh! Buery #
8/18/2019 Text Mining and IR
28/41
(oolean Retrieval Model
+ontoh! Buery # +alpurnia )R 0rutus
Maka yang dianggap relevan adalah dok
nomor 1 (
8/18/2019 Text Mining and IR
29/41
Kelebihan (oolean IR
Mengembalikan dokumen pencarian yangmatch sa"a atau tidak sama sekali.
)angat cocok untuk expert user yang sudahpengalaman tentang kebutuhan pencarianmereka (misalnya di library search!bookstore search! etc.
8/18/2019 Text Mining and IR
30/41
Kekurangan (oolean IR
Tidak bagus untuk sebagian besar pengguna. )ebagian besar pengguna tidak mampu menulis
Buery 0oolean dengan baik (mereka berpikir ituakan menambah peker"aan dalam pencarian.
)ebagian besar pengguna tidak ingin mengarungihasil pencarian yang banyak dan kurang spesi6k(misalnya! web search.
+h. C
8/18/2019 Text Mining and IR
31/41
Kekurangan (oolean IR
Buery 0oolean sering menghasilkan pencariandengan "umlah yang kadang%kadang terlalu
sedikit (E5 atau terlalu banyak (E1555555.+ontohnya # Buery 1# :standard
8/18/2019 Text Mining and IR
32/41
Ranked retrieval models
$ada ranked retrieval! system
mengurutkan dokumen%dokumenberdasarkan relevansinya! bukan hanyarelavan atau tidak relevan.
Dokumen yang paling relevan memiliki
ranking tertinggi dan dokumen yang kurangrelevan memiliki ranking lebih rendah
I4
8/18/2019 Text Mining and IR
33/41
Ranked retrieval models
)etiap dokumen diberikan skor sesuai tingkatrelevansinya.
Misal diberikan nilai dalam rentang J5! 1pada setiap dokumen
)kor tersebut mengukur tingkat kococokanantara dokumen dan ?uery
8/18/2019 Text Mining and IR
34/41
Ranked retrieval models
Metode yang paling sering digunakanadalah 4ector -pace Model untukrepresentasi 6turnya dan osine-imilarity untuk menghitung kemiripan
antara dokumen dan ?uery
8/18/2019 Text Mining and IR
35/41
Ranked retrieval models
4ector -pace Model adalah Modelproses pencarian informasi dari ?ueryyang menggunakan ekspresi kemiripanberdasarkan frekuensi terms/token/kata
yang terdapat pada dokumen.
8/18/2019 Text Mining and IR
36/41
Ranked retrieval models
4ector -pace Model adalah Modelproses pencarian informasi dari ?ueryyang menggunakan ekspresi kemiripanberdasarkan frekuensi terms/token/kata
yang terdapat pada dokumen.
8/18/2019 Text Mining and IR
37/41
Ranked retrieval models
+ontoh Lector )pace Model
9t!d
8/18/2019 Text Mining and IR
38/41
Ranked retrieval models
osine similarity adalah fungsi yangdigunakan untuk menghitung
besarnya dera"at kemiripan diantaradua vektor.
*kuran nilai +osine similarity dihitung
berdasarkan besarnya nilai fungsicosine terhadap sudut yang dibentukoleh dua vektor.
8/18/2019 Text Mining and IR
39/41
Misalnya #
D1 = 2T 1 + 3T 2 +
5T 3
D2 = 3T 1 + T 2 +T 3
! = "T 1 + "T 2 +
2T 3
T 3
T 1
T 2
D1 = 2T 1+ 3T 2 + 5T 3
D2 = 3T 1 + 7T 2 + T 3
Q = 0T 1 + 0T 2 + 2T 3
7
32
5
• Apakah D1 atau D2 yang
lebih besar kemiripannya
terhadap Q?• Bagaimana cara menghitung
besarnya kemiripan
(similarity) diantara setiap
dua vektor tersebut?
Ranked retrieval models
8/18/2019 Text Mining and IR
40/41
umus untuk menghitung nilai similarity diantara
dua vektor adalah sebagai berikut #
CosSim(d j, q) =
Ranked retrieval models
∑ ∑
∑
= =
=•
⋅
⋅
=
⋅t
i
t
i
t
i
ww
ww
qd
qd
iqij
iqij
j
j
22
)(
8/18/2019 Text Mining and IR
41/41
Ranked retrieval models
Membuat vektor :?uery/dokumen yangdicari/keyword pencarian; dalam bentuk
terms weighting
Membuat vektor :dokumen;dalam terms weighting
Menghitung nilai :+osine )imilarity; dari vektorspace :?uery; terhadap setiap vektor space
:dokumen;
Meranking dokumen berdasarkan ?uery/dokumen yangdicari/keyword pencarian
Mengambil # tertinggi(e.g.! # E 15 untuk pengguna/user