Implementasi Metode Generalized Vector Space Model Pada · PDF fileSemoga makalah sederhana ini dapat dipahami bagi siapapun yang ... dan dokumen diterjemahkan menjadi vektor-vektor

Embed Size (px)

Citation preview

  • Tugas Makalah

    Sistem Temu Kembali Informasi (STKI)

    TI029306

    Implementasi Metode Generalized Vector Space Model Pada

    Information Retrieval System

    Oleh :

    I PUTU ANDREAS WARANU

    1204505042

    Dosen :

    I Putu Agus Eka Pratama, ST MT

    Jurusan Teknologi Informasi

    Fakultas Teknik Universitas Udayana

    2015

  • i

    KATA PENGANTAR

    Puji syukur kami panjatkan kehadirat Tuhan Yang Maha Esa karena

    dengan rahmat, karunia, dan berkat-Nya penulis dapat menyelesaikan makalah

    tentang Implementasi Metode Generalized Vector Space Model Pada

    Information Retrieval System ini dengan baik meskipun banyak kekurangan

    didalamnya. Dan juga kami berterima kasih pada Bapak I Putu Agus Eka Pratama,

    ST MT selaku Dosen mata kuliah Sistem Temu Kembali Informasi di jurusan

    Teknologi Informasi Universitas Udayana yang telah memberikan tugas ini.

    Penulis sangat berharap makalah ini dapat berguna dalam rangka

    menambah wawasan serta pengetahuan kita mengenai Sistem temu kembali

    informasi dan model pencarian dalam search engine seperti Generalized Vector

    Space Model. Kami juga menyadari sepenuhnya bahwa di dalam makalah ini

    terdapat kekurangan dan jauh dari kata sempurna. Oleh sebab itu, penulis

    berharap adanya kritik, saran dan usulan demi perbaikan makalah yang telah kami

    buat di masa yang akan datang, mengingat tidak ada sesuatu yang sempurna tanpa

    saran yang membangun.

    Semoga makalah sederhana ini dapat dipahami bagi siapapun yang

    membacanya. Sekiranya laporan yang telah disusun ini dapat berguna bagi penulis

    sendiri maupun orang yang membacanya. Sebelumnya kami mohon maaf apabila

    terdapat kesalahan kata-kata yang kurang berkenan dan kami memohon kritik dan

    saran yang membangun demi perbaikan di masa depan.

    Jimbaran, Mei 2015

    Penyusun

  • ii

    Daftar Isi

    Kata Pengantar ................................................................................... i

    Daftar Isi ................................................................................... ii

    Abstrak ................................................................................... iii

    Bab I Pendahuluan

    1.1 Latar Belakang .................................................................................. 1

    1.2 Rumusan Masalah .................................................................................. 2

    1.3 Solusi Yang Ditawarkan ............................................................................ 2

    Bab II Landasan Teori Dan Desain Solusi

    2.1 Landasan Teori ........................................................................... 3

    2.1.1 Information Retrieval .......................................................................... 3

    2.1.2 Generalized Vector Space Model ............................................................ 5

    2.1.3 Java Class Library ........................................................................... 7

    2.2 Desain Solusi ........................................................................... 7

    2.2.1 Gambaran Umum ........................................................................... 8

    2.2.2 Use Case Diagram ............................................................................ 10

    2.2.3 Sequence Diagram ............................................................................ 11

    Bab III Analisa Dan Kesimpulan

    3.1 Analisa ........................................................................................... 13

    3.2 Kesimpulan ........................................................................................... 16

    Daftar Pustaka ............................................................................................ 17

  • iii

    ABSTRAK

    Dengan pesatnya perkembangan dalam penggunaan teknologi komputer

    baik di perusahaan maupun di bidang pendidikan, maka semakin banyak pula

    dokumen-dokumen yang berbentuk digital yang dihasilkan. Untuk mencari

    dokumen-dokumen tersebut dibutuhkan waktu yang relatif lama apabila

    pencariannya dilakukan secara manual. Information Retrieval (IR) adalah sebuah

    metode untuk mengambil data terstruktur yang tersimpan dalam koleksi dokumen,

    kemudian menyediakan informasi yang diperlukan. Tujuan dari sistem IR adalah

    untuk mengambil dan menampilkan dokumen yang relevan dengan input

    pengguna (query). IR memerlukan sebuah metode untuk dapat mencari dokumen-

    dokumen tersebut dengan waktu yang cepat. Generalized Vector Space Model

    (GVSM) adalah salah satu dari model sistem IR yang termasuk dalam model

    aljabar. Query yang dimasukkan oleh pengguna akan diproses terlebih dahulu.

    Pengolahan kata meliputi tokenizing, stop word removal, dan stemming. Dengan

    mengimplementasikan GVSM pada sistem IR ini diharapkan dapat melakukan

    pencarian dokumen seperti pdf (*.pdf) dan Ms Word Doc (*.doc & *.docx.) yang

    relevan dengan query. Hasil pencarian ini disusun berdasarkan nilai kesamaan

    GVSM yang tertinggi. Dengan menggunakan Generalized Vector Space Model,

    hasil pencarian dokumen menjadi lebih relevan berdasarkan nilai perbandingan

    kemiripan.

    Kata kunci :

    Generalized Vector Space Model, Query, Information Retrieval

  • 1

    BAB I

    PENDAHULUAN

    1.1 Latar Belakang

    Information Retrieval (IR) merupakan suatu metode untuk menemukan

    kembali data tidak terstruktur yang tersimpan pada sekumpulan dokumen,

    kemudian menyediakan informasi mengenai subyek yang dibutuhkan. Tujuan dari

    sistem IR ini adalah memenuhi kebutuhan informasi pengguna dengan

    mendapatkan semua dokumen yang relevan dengan kebutuhan pengguna dan pada

    waktu yang sama mendapatkan sesedikit mungkin dokumen yang tak relevan.

    Pengguna dapat menemukan informasi yang relevan dengan membaca seluruh

    dokumen yang ada pada tempat penyimpanannya, menyimpan dokumen-dokumen

    yang relevan, membuang dokumen yang tidak relevan, dan mengurutkan

    dokumen-dokumen yang sesuai dengan keperluannya. Hal tersebut merupakan

    sistem IR yang sempurna, tetapi solusi ini tidak praktis dan efisien. Dikarenakan

    pengguna tidak memiliki banyak waktu untuk membaca seluruh dokumen satu per

    satu dari sekian banyak dokumen yang ada. Terdapat beberapa metode dalam

    sistem IR dokumen diantaranya adalah metode Gravitation Based Model, Latent

    Semantic Model, Vector Space Model, dan Generalized Vector Space Model.

    Model Information Retrieval yang baik memungkinkan pengguna

    menentukan secara cepat dan akurat apakah isi dari dokumen yang diterima

    memenuhi kebutuhannya. Generalized Vector Space Model (GVSM) merupakan

    salah satu model sistem Information Retrieval (IR) yang termasuk dalam

    Algebraic Model yang merupakan perluasan dari Vector Space Model (VSM),

    proses yang terjadi pada GVSM terbagi menjadi dua yaitu tahapan preprocessing

    yang terdiri dari reading text (*.pdf,*.doc,*.docx), tokenizing, filtration, stemming

    dan parse query, sedangkan proses yang kedua adalah menghitung relevansi

    antara kumpulan dokumen yang telah di-preprocess dengan query yang

    diinginkan pengguna. Banyaknya kemunculan kata dalam kumpulan dokumen

    yang sesuai dengan query akan dihitung. Query yang dimasukan oleh pengguna

    dan dokumen diterjemahkan menjadi vektor-vektor kemudian vektor-vektor

  • 2

    tersebut dikenakan operasi perkalian titik dan hasilnya menjadi acuan dalam

    menentukan relevansi masukan pengguna (query) terhadap kumpulan dokumen.

    Berdasarkan permasalahan tersebut metode Algoritma Generalized Vector Space

    Model digunakan pada aplikasi Information Retrieval untuk membangun sebuah

    aplikasi pencarian informasi pada kumpulan dokumen berdasarkan query yang

    dimasukan oleh pengguna.

    1.2 Rumusan Masalah

    Berdasarkan uraian latar belakang masalah yang dikemukakan, maka

    dapat dirumuskan beberapa masalah sebagai berikut.

    1. Bagaimana sistem dapat membaca dokumen berformat *.pdf,*.doc dan

    *.docx.

    2. Bagaimana tahapan preprocessing dapat bekerja pada sistem.

    3. Bagaimana faktor normalisasi digunakan untuk menormalkan vektor

    dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari

    suatu dokumen.

    4. Bagaimana memperoleh dokumen yang relevan dan sudah terurut sesuai

    dengan query yang dimasukan pengguna dengan menggunakan metode

    generalized vector space model.

    5. Bagaimana proses multi thread dapat bekerja pada proses stemming untuk

    mempercepat pencarian dokumen.

    1.3 Solusi Yang Ditawarkan

    Berdasarkan uraian latar belakang dan rumusan masalah diatas, solusi

    yang ditawarkan untuk menciptakan sistem IR yang praktis dan efisien yaitu

    dengan mengimplementasikan metode Algoritma Generalized Vector Space

    Model yang dapat digunakan pada aplikasi Information Retrieval untuk

    membangun sebuah aplikasi pencarian informasi pada kumpulan dokumen

    berdasarkan query yang dimasukan oleh pengguna. Sehingga memudahkan user

    dalam melakukan pencarian data yang efektif dan efisien.

  • 3

    BAB II

    LANDASAN TEORI DAN DESAIN SOLUSI

    2.1 Landasan Teori

    Pada bab ini, disajikan sejumlah landasan teori yang mendasari solusi

    y