Text Mining and IR

Embed Size (px)

Citation preview

  • 8/18/2019 Text Mining and IR

    1/41

    Text Mining and

    InformationRetrieval

     Text Mining

  • 8/18/2019 Text Mining and IR

    2/41

    Data Mining

    Data mining adalah suatu proses yangsecara otomatis mencari atau

    menemukan informasi yangbermanfaat dan suatu kumpulan data

    yang besar.

  • 8/18/2019 Text Mining and IR

    3/41

    Tahapan Data Mining

    Data Mining lebih dekat pada bidangpencarian pengetahuan dalam basis data(knowledge discovery in database / KDD! yangmerupakan proses konversi dari data mentahmen"adi informasi yang bermanfaat.

  • 8/18/2019 Text Mining and IR

    4/41

    Kelompok Data Mining

    Data mining dibagi dalam dua

    kelompok "enis tugas analisis data#$redictive task # bertugas untuk memprediksi

    nilai sebuah atribut tertentu (target didasarkanpada nilai atribut lain (explanatory)

    Descriptive task # bertugas mendapatkanpola analisis asosiasi (association analysis), pengelompokan (clustering), penyimpangan(anomaly detection) yang meringkas hubungan%hubungan dalam data

  • 8/18/2019 Text Mining and IR

    5/41

    Text Mining

     Text mining merupakan penerapan

    konsep dan teknik data mining untukmencari pola dalam teks

     Teks Mining # $roses penganalisisan

    teks guna menyarikan informasiyang bermanfaat untuk tu"uantertentu.

  • 8/18/2019 Text Mining and IR

    6/41

    Text Mining

    $erbedaan mendasar dengan Data

    Mining pada umumnya! Text Miningmengolah data teks yang tidakterstruktur! maka proses text miningmemerlukan beberapa tahap awal

    (  preprocessing )  yang pada intinyaadalah mempersiapkan agar teks dapatdiubah men"adi lebih terstruktur.

  • 8/18/2019 Text Mining and IR

    7/41

    Text Mining

    Perbedaan Data Mining Text Mining

    Data &b"ect 'umerical categorical

    data

     Textual data

    Data structure )tructured *nstructured semi%structured

    Data representation )traightforward +omplex

    )pace dimension , tens of thousands - tens of thousands

    Methods Data analysis! machinelearning! 'eural'etwork! etc.

    Data mining!information etrieval!'$! etc.

    Maturity 0road implementationsince 1223

    0road implementationstarting 4555

  • 8/18/2019 Text Mining and IR

    8/41

    Tahapan Text Mining

  • 8/18/2019 Text Mining and IR

    9/41

    Masalah Umum yang ditangani

    $engorganisasian dan +lustering Dokumen

    Klasi6kasi Dokumen

    7nformation 8xtraction

    9eb Mining

    'atural anguage $rocessing ('$

    7nformation etrieval (7

  • 8/18/2019 Text Mining and IR

    10/41

    lustering Dokumen

    +lustering adalah pengorganisasian

    kumpulan pola ke dalam cluster(kelompok%kelompok berdasar ataskesamaannya.

    $ola%pola dalam suatu cluster akan

    memiliki kesamaan ciri/sifat daripadapola%pola dalam cluster yang lainnya.

  • 8/18/2019 Text Mining and IR

    11/41

    lustering Dokumen

    +lustering bermanfaat untukmelakukan analisis pola%pola yangada! mengelompokkan! dan membuatkeputusan.

    Metodologi clustering lebih cocok

    digunakan untuk eksplorasi hubunganantar data untuk membuat suatupenilaian terhadap strukturnya.

  • 8/18/2019 Text Mining and IR

    12/41

    Klasi!kasi Dokumen

    Klasi6kasi adalah mengelompokkan

    dokumen berdasarkan data trainingyang sudah dilabeli.

    $erbedaanya dengan clustering adalahpada klasi6kasi! kelas/kategorinya

    sudah ditentukan di awal! sedangkanpada clustering tidak.

  • 8/18/2019 Text Mining and IR

    13/41

    Information "xtraction

  • 8/18/2019 Text Mining and IR

    14/41

    Information "xtraction

    7nformation 8xtraction bermanfaat untuk menggali

    struktur informasi dari sekumpulan dokumen. Dalam menerapkan 78! perlu sekali dilakukan

    pembatasan domain problem.

    78 sangat memerlukan '$ untuk mengetahuigramatikal dari setiap kalimat yang ada.

    )ebagai contoh# :7ndonesia dan )ingapore menandatangani Mo*

    ker"asama dalam bidang informasi dan komunikasi.;

    Ker"a)ama(7ndonesia! )ingapore! T7K

  • 8/18/2019 Text Mining and IR

    15/41

    Information "xtraction

    Dengan 78! kita dapat menemukan#

    concepts (+

  • 8/18/2019 Text Mining and IR

    16/41

    #eb Mining$ Karakteristik #eb

     @umlah data/informasi di web sangat besar

    dan terus bertambah. tipe data beragam

    informasi pada web sangat beragam.

    informasi%informasi di web saling terhubung.

    informasi di web sangat AkotorA.

    web "uga merupakan service.

    web dinamis

    web merupakan sarana komunitas sosial virtual.

  • 8/18/2019 Text Mining and IR

    17/41

  • 8/18/2019 Text Mining and IR

    18/41

    &'P

    'atural anguage $rocessing ('$adalah melakukan pengolahan untuk

    memahami (ahasa alami yangdiucapkan manusia

  • 8/18/2019 Text Mining and IR

    19/41

    &'P

    0ahasa alami adalah bahasa yang

    secara umum digunakan oleh manusiadalam berkomunikasi satu sama lain.

    0ahasa yang diterima oleh komputer

    butuh untuk diproses dan dipahamiterlebih dahulu supaya maksud dariuser bisa dipahami dengan baik olehkomputer.

  • 8/18/2019 Text Mining and IR

    20/41

    Information Retrieval

  • 8/18/2019 Text Mining and IR

    21/41

    Information Retrieval

    Konsep dasar dari 7 adalah pengukurankesamaan

    sebuah perbandingan antara dua dokumen!mengukur sebearapa mirip keduanya.

    )etiap input ?uery yang diberikan! dapatdianggap sebagai sebuah dokumen yang akan

    dicocokan dengan dokumendokumen lain. $engukuran kemiripan serupa dengan metode

    klasi6kasi yang disebut metode nearest%neighbour.

  • 8/18/2019 Text Mining and IR

    22/41

    Information Retrieval

    $erbedaan mendasar antara Text Mining dan 7 #

     Text Mining # Discovery of novel information

    "xtracting )re from other*ise *orthless rock #menemukan informasi yang relevan dan bermanfaatdari sekumpulan data besar yang kelihatanya tidakberguna.

    7 # etrieval of 'on%novel 7nformation

    +inding needles in a needle,stack  # mencariinformasi yang relevan di antara informasi%informasilain yang berguna namun tidak relevan

  • 8/18/2019 Text Mining and IR

    23/41

    -earch "ngine

    -earch "ngine merupakan aplikasi nyatadari Information Retrieval pada bidang

    web.

  • 8/18/2019 Text Mining and IR

    24/41

    -earch "ngine

    )earch 8ngine

  • 8/18/2019 Text Mining and IR

    25/41

    InformationRetrieval

     Text Mining % Text Mining 7nformation etrieval

  • 8/18/2019 Text Mining and IR

    26/41

    (oolean Retrieval Model

    $ada 0oolean 7nformation etrieval

    ?uery yang digunakan berupa0oolean.

    Dokumen%dokumen yang ada

    dibedakan men"adi sesuai atau tidaksesuai dengan ?uery tersebut

  • 8/18/2019 Text Mining and IR

    27/41

    (oolean Retrieval Model

    +ontoh! Buery #

  • 8/18/2019 Text Mining and IR

    28/41

    (oolean Retrieval Model

    +ontoh! Buery # +alpurnia )R 0rutus

    Maka yang dianggap relevan adalah dok

    nomor 1 (

  • 8/18/2019 Text Mining and IR

    29/41

    Kelebihan (oolean IR

    Mengembalikan dokumen pencarian yangmatch sa"a atau tidak sama sekali.

    )angat cocok untuk expert user yang sudahpengalaman tentang kebutuhan pencarianmereka (misalnya di library search!bookstore search! etc.

  • 8/18/2019 Text Mining and IR

    30/41

    Kekurangan (oolean IR

     Tidak bagus untuk sebagian besar pengguna. )ebagian besar pengguna tidak mampu menulis

    Buery 0oolean dengan baik (mereka berpikir ituakan menambah peker"aan dalam pencarian.

    )ebagian besar pengguna tidak ingin mengarungihasil pencarian yang banyak dan kurang spesi6k(misalnya! web search.

    +h. C

  • 8/18/2019 Text Mining and IR

    31/41

    Kekurangan (oolean IR

    Buery 0oolean sering menghasilkan pencariandengan "umlah yang kadang%kadang terlalu

    sedikit (E5 atau terlalu banyak (E1555555.+ontohnya # Buery 1# :standard

  • 8/18/2019 Text Mining and IR

    32/41

    Ranked retrieval models

    $ada ranked retrieval! system

    mengurutkan dokumen%dokumenberdasarkan relevansinya! bukan hanyarelavan atau tidak relevan.

    Dokumen yang paling relevan memiliki

    ranking tertinggi dan dokumen yang kurangrelevan memiliki ranking lebih rendah

    I4

  • 8/18/2019 Text Mining and IR

    33/41

    Ranked retrieval models

    )etiap dokumen diberikan skor sesuai tingkatrelevansinya.

    Misal diberikan nilai dalam rentang J5! 1pada setiap dokumen

    )kor tersebut mengukur tingkat kococokanantara dokumen dan ?uery

  • 8/18/2019 Text Mining and IR

    34/41

    Ranked retrieval models

    Metode yang paling sering digunakanadalah 4ector -pace Model untukrepresentasi 6turnya dan osine-imilarity untuk menghitung kemiripan

    antara dokumen dan ?uery

  • 8/18/2019 Text Mining and IR

    35/41

    Ranked retrieval models

    4ector -pace Model adalah Modelproses pencarian informasi dari ?ueryyang menggunakan ekspresi kemiripanberdasarkan frekuensi terms/token/kata

    yang terdapat pada dokumen.

  • 8/18/2019 Text Mining and IR

    36/41

    Ranked retrieval models

    4ector -pace Model adalah Modelproses pencarian informasi dari ?ueryyang menggunakan ekspresi kemiripanberdasarkan frekuensi terms/token/kata

    yang terdapat pada dokumen.

  • 8/18/2019 Text Mining and IR

    37/41

    Ranked retrieval models

    +ontoh Lector )pace Model

    9t!d

  • 8/18/2019 Text Mining and IR

    38/41

    Ranked retrieval models

    osine similarity adalah fungsi yangdigunakan untuk menghitung

    besarnya dera"at kemiripan diantaradua vektor.

    *kuran nilai +osine similarity dihitung

    berdasarkan besarnya nilai fungsicosine terhadap sudut yang dibentukoleh dua vektor.

  • 8/18/2019 Text Mining and IR

    39/41

    Misalnya #

    D1 = 2T 1 + 3T 2 +

    5T 3

    D2 = 3T 1 + T 2 +T 3

    ! = "T 1 + "T 2 +

    2T 3

    T 3

    T 1

    T 2

     D1 = 2T 1+ 3T 2 + 5T 3

     D2 = 3T 1 + 7T 2 + T 3

    Q = 0T 1 + 0T 2 + 2T 3

    7

    32

    5

    • Apakah D1 atau D2 yang

    lebih besar kemiripannya

    terhadap Q?• Bagaimana cara menghitung

     besarnya kemiripan

    (similarity) diantara setiap

    dua vektor tersebut?

    Ranked retrieval models

  • 8/18/2019 Text Mining and IR

    40/41

    umus untuk menghitung nilai similarity diantara

    dua vektor adalah sebagai berikut #

    CosSim(d j, q) =

    Ranked retrieval models

    ∑ ∑

    = =

    =•

    =

    ⋅t 

    i

    i

    i

    ww

    ww

    qd 

    qd 

    iqij

    iqij

      j

      j

    22

    )(

  • 8/18/2019 Text Mining and IR

    41/41

    Ranked retrieval models

    Membuat vektor :?uery/dokumen yangdicari/keyword pencarian; dalam bentuk

    terms weighting

    Membuat vektor :dokumen;dalam terms weighting

    Menghitung nilai :+osine )imilarity; dari vektorspace :?uery; terhadap setiap vektor space

    :dokumen;

    Meranking dokumen berdasarkan ?uery/dokumen yangdicari/keyword pencarian

    Mengambil #  tertinggi(e.g.! #  E 15 untuk pengguna/user