Text Mining and IR

8/18/2019 Text Mining and IR

1/41

Text Mining and

InformationRetrieval

Text Mining


2/41

Data Mining

Data mining adalah suatu proses yangsecara otomatis mencari atau

menemukan informasi yangbermanfaat dan suatu kumpulan data

yang besar.


3/41

Tahapan Data Mining

Data Mining lebih dekat pada bidangpencarian pengetahuan dalam basis data(knowledge discovery in database / KDD! yangmerupakan proses konversi dari data mentahmen"adi informasi yang bermanfaat.


4/41

Kelompok Data Mining

Data mining dibagi dalam dua

kelompok "enis tugas analisis data#$redictive task # bertugas untuk memprediksi

nilai sebuah atribut tertentu (target didasarkanpada nilai atribut lain (explanatory)

Descriptive task # bertugas mendapatkanpola analisis asosiasi (association analysis), pengelompokan (clustering), penyimpangan(anomaly detection) yang meringkas hubungan%hubungan dalam data


5/41

Text Mining

Text mining merupakan penerapan

konsep dan teknik data mining untukmencari pola dalam teks

Teks Mining # $roses penganalisisan

teks guna menyarikan informasiyang bermanfaat untuk tu"uantertentu.


6/41

Text Mining

$erbedaan mendasar dengan Data

Mining pada umumnya! Text Miningmengolah data teks yang tidakterstruktur! maka proses text miningmemerlukan beberapa tahap awal

( preprocessing ) yang pada intinyaadalah mempersiapkan agar teks dapatdiubah men"adi lebih terstruktur.


7/41

Text Mining

Perbedaan Data Mining Text Mining

Data &b"ect 'umerical categorical

data

Textual data

Data structure )tructured *nstructured semi%structured

Data representation )traightforward +omplex

)pace dimension , tens of thousands - tens of thousands

Methods Data analysis! machinelearning! 'eural'etwork! etc.

Data mining!information etrieval!'$! etc.

Maturity 0road implementationsince 1223

0road implementationstarting 4555


8/41

Tahapan Text Mining


9/41

Masalah Umum yang ditangani

$engorganisasian dan +lustering Dokumen

Klasi6kasi Dokumen

7nformation 8xtraction

9eb Mining

'atural anguage $rocessing ('$

7nformation etrieval (7


10/41

lustering Dokumen

+lustering adalah pengorganisasian

kumpulan pola ke dalam cluster(kelompok%kelompok berdasar ataskesamaannya.

$ola%pola dalam suatu cluster akan

memiliki kesamaan ciri/sifat daripadapola%pola dalam cluster yang lainnya.


11/41

lustering Dokumen

+lustering bermanfaat untukmelakukan analisis pola%pola yangada! mengelompokkan! dan membuatkeputusan.

Metodologi clustering lebih cocok

digunakan untuk eksplorasi hubunganantar data untuk membuat suatupenilaian terhadap strukturnya.


12/41

Klasi!kasi Dokumen

Klasi6kasi adalah mengelompokkan

dokumen berdasarkan data trainingyang sudah dilabeli.

$erbedaanya dengan clustering adalahpada klasi6kasi! kelas/kategorinya

sudah ditentukan di awal! sedangkanpada clustering tidak.


13/41

Information "xtraction


14/41


7nformation 8xtraction bermanfaat untuk menggali

struktur informasi dari sekumpulan dokumen. Dalam menerapkan 78! perlu sekali dilakukan

pembatasan domain problem.

78 sangat memerlukan '$ untuk mengetahuigramatikal dari setiap kalimat yang ada.

)ebagai contoh# :7ndonesia dan )ingapore menandatangani Mo*

ker"asama dalam bidang informasi dan komunikasi.;

Ker"a)ama(7ndonesia! )ingapore! T7K


15/41


Dengan 78! kita dapat menemukan#

concepts (+


16/41

#eb Mining$ Karakteristik #eb

@umlah data/informasi di web sangat besar

dan terus bertambah. tipe data beragam

informasi pada web sangat beragam.

informasi%informasi di web saling terhubung.

informasi di web sangat AkotorA.

web "uga merupakan service.

web dinamis

web merupakan sarana komunitas sosial virtual.


17/41


18/41

&'P

'atural anguage $rocessing ('$adalah melakukan pengolahan untuk

memahami (ahasa alami yangdiucapkan manusia


19/41

&'P

0ahasa alami adalah bahasa yang

secara umum digunakan oleh manusiadalam berkomunikasi satu sama lain.

0ahasa yang diterima oleh komputer

butuh untuk diproses dan dipahamiterlebih dahulu supaya maksud dariuser bisa dipahami dengan baik olehkomputer.


20/41

Information Retrieval


21/41


Konsep dasar dari 7 adalah pengukurankesamaan

sebuah perbandingan antara dua dokumen!mengukur sebearapa mirip keduanya.

)etiap input ?uery yang diberikan! dapatdianggap sebagai sebuah dokumen yang akan

dicocokan dengan dokumendokumen lain. $engukuran kemiripan serupa dengan metode

klasi6kasi yang disebut metode nearest%neighbour.


22/41


$erbedaan mendasar antara Text Mining dan 7 #

Text Mining # Discovery of novel information

"xtracting )re from other*ise *orthless rock #menemukan informasi yang relevan dan bermanfaatdari sekumpulan data besar yang kelihatanya tidakberguna.

7 # etrieval of 'on%novel 7nformation

+inding needles in a needle,stack # mencariinformasi yang relevan di antara informasi%informasilain yang berguna namun tidak relevan


23/41

-earch "ngine

-earch "ngine merupakan aplikasi nyatadari Information Retrieval pada bidang

web.


24/41

-earch "ngine

)earch 8ngine


25/41

InformationRetrieval

Text Mining % Text Mining 7nformation etrieval


26/41

(oolean Retrieval Model

$ada 0oolean 7nformation etrieval

?uery yang digunakan berupa0oolean.

Dokumen%dokumen yang ada

dibedakan men"adi sesuai atau tidaksesuai dengan ?uery tersebut


27/41


+ontoh! Buery #


28/41


+ontoh! Buery # +alpurnia )R 0rutus

Maka yang dianggap relevan adalah dok

nomor 1 (


29/41

Kelebihan (oolean IR

Mengembalikan dokumen pencarian yangmatch sa"a atau tidak sama sekali.

)angat cocok untuk expert user yang sudahpengalaman tentang kebutuhan pencarianmereka (misalnya di library search!bookstore search! etc.


30/41

Kekurangan (oolean IR

Tidak bagus untuk sebagian besar pengguna. )ebagian besar pengguna tidak mampu menulis

Buery 0oolean dengan baik (mereka berpikir ituakan menambah peker"aan dalam pencarian.

)ebagian besar pengguna tidak ingin mengarungihasil pencarian yang banyak dan kurang spesi6k(misalnya! web search.

+h. C


31/41

Kekurangan (oolean IR

Buery 0oolean sering menghasilkan pencariandengan "umlah yang kadang%kadang terlalu

sedikit (E5 atau terlalu banyak (E1555555.+ontohnya # Buery 1# :standard


32/41

Ranked retrieval models

$ada ranked retrieval! system

mengurutkan dokumen%dokumenberdasarkan relevansinya! bukan hanyarelavan atau tidak relevan.

Dokumen yang paling relevan memiliki

ranking tertinggi dan dokumen yang kurangrelevan memiliki ranking lebih rendah

I4


33/41


)etiap dokumen diberikan skor sesuai tingkatrelevansinya.

Misal diberikan nilai dalam rentang J5! 1pada setiap dokumen

)kor tersebut mengukur tingkat kococokanantara dokumen dan ?uery


34/41


Metode yang paling sering digunakanadalah 4ector -pace Model untukrepresentasi 6turnya dan osine-imilarity untuk menghitung kemiripan

antara dokumen dan ?uery


35/41


4ector -pace Model adalah Modelproses pencarian informasi dari ?ueryyang menggunakan ekspresi kemiripanberdasarkan frekuensi terms/token/kata

yang terdapat pada dokumen.


36/41


4ector -pace Model adalah Modelproses pencarian informasi dari ?ueryyang menggunakan ekspresi kemiripanberdasarkan frekuensi terms/token/kata

yang terdapat pada dokumen.


37/41


+ontoh Lector )pace Model

9t!d


38/41


osine similarity adalah fungsi yangdigunakan untuk menghitung

besarnya dera"at kemiripan diantaradua vektor.

*kuran nilai +osine similarity dihitung

berdasarkan besarnya nilai fungsicosine terhadap sudut yang dibentukoleh dua vektor.


39/41

Misalnya #

D1 = 2T 1 + 3T 2 +

5T 3

D2 = 3T 1 + T 2 +T 3

! = "T 1 + "T 2 +

2T 3

T 3

T 1

T 2

D1 = 2T 1+ 3T 2 + 5T 3

D2 = 3T 1 + 7T 2 + T 3

Q = 0T 1 + 0T 2 + 2T 3

7

32

5

• Apakah D1 atau D2 yang

lebih besar kemiripannya

terhadap Q?• Bagaimana cara menghitung

besarnya kemiripan

(similarity) diantara setiap

dua vektor tersebut?



40/41

umus untuk menghitung nilai similarity diantara

dua vektor adalah sebagai berikut #

CosSim(d j, q) =


∑ ∑

∑

= =

=•

⋅

⋅

=

⋅t

i

t

i

t

i

ww

ww

qd

qd

iqij

iqij

j

j

22

)(


41/41


Membuat vektor :?uery/dokumen yangdicari/keyword pencarian; dalam bentuk

terms weighting

Membuat vektor :dokumen;dalam terms weighting

Menghitung nilai :+osine )imilarity; dari vektorspace :?uery; terhadap setiap vektor space

:dokumen;

Meranking dokumen berdasarkan ?uery/dokumen yangdicari/keyword pencarian

Mengambil # tertinggi(e.g.! # E 15 untuk pengguna/user

Documents

Text Mining and IR