5
Indexing File Bertipe PDF Menggunakan Swish-e Laporan disusun untuk memenuhi tugas mata kuliah Penenlusuran Informasi Oleh Munasko 1108107010004 JURUSAN INFORMATIKA MATEMATIKA DAN PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA DARUSSALAM, BANDA ACEH 2014

LAPORAN_TUGAS1.pdf

Embed Size (px)

Citation preview

Page 1: LAPORAN_TUGAS1.pdf

Indexing File Bertipe PDF

Menggunakan Swish-e

Laporan

disusun untuk memenuhi tugas mata kuliah

Penenlusuran Informasi

Oleh

Munasko

1108107010004

JURUSAN INFORMATIKA

MATEMATIKA DAN PENGETAHUAN ALAM

UNIVERSITAS SYIAH KUALA

DARUSSALAM, BANDA ACEH

2014

Page 2: LAPORAN_TUGAS1.pdf

A. URAIAN TUGAS

1. Rancang sebuah file konfigurasi untuk swish-e untuk dapat mengindeks sekumpulan

dokumen bertipe PDF.

2. Bangun indeks dari sekumpulan dokumen bertipe PDF sebanyak minimal 5000

dokumen. Lokasi (direktori) dokumen ditentukan dalam file konfigurasi. Dokumen

PDF untuk tugas 1 ini TIDAK BOLEH diambil dari situs Linux Documentation

Project Works, tetapi dipersilahkan dikumpulkan dari sumber-sumber yang lain.

3. Catat waktu yang dibutuhkan untuk membangun indeks dari sekumpulan dokumen

PDF tersebut.Catat waktu yang dibutuhkan untuk membangun indeks dari

sekumpulan dokumen PDF tersebut.

4. Uji indeks yang telah dibangun oleh swish-e dengan beberapa Boolean Query dan

Keyword-Base Query, dan amati hasilnya.

B. Pencarian file PDF bersumber dari cs.unsyiah.ac.id/~ebook dan

http://it-ebooks.info

C. PROSES INDEXING

1. File Konfigurasi

Pada file konfigurasi di atas terlihat beberapa sintak tipe yang digunakan untuk

pembuatan indexing dengan tujuan masing-masing.

1. IndexDir

Fungsi IndexDir diatas adalah mengakses program perl yang berisi untuk mengubah

file pdf menjadi file xml dan dapat dibaca oleh swish-e.

2. indexOnly

fungsi IndexOnly diatas adalah mengindex bertipe pdf yang diakses sebelum diubah

ke xml.

Page 3: LAPORAN_TUGAS1.pdf

3. IgnoreWords

Fungsi IgnoreWords diatas adalah menghapus setiap kata(stopword) yang ada pada

file sesuai dengan isi file stopword.de. setelah itu dilakukan juga proses steaming

untuk bahasa inggris.

4. IndexFile

Fungsi IndexFile diatas adalah hasil dari indexing akan disimpan dalam file

(pdf.index).

2. Konfigurasi Program Perl untuk Mengubah File PDF ke XML

Pada proses indexing digunakan program tambahan, maka saat meng-compile ditambahkan

command –S prog pada ujung perintah swish-e.

Page 4: LAPORAN_TUGAS1.pdf

Waktu yang dibutuhkan untuk membangun indeks dari sekumpulan dokumen PDF tersebut

adalah:

File Document : 5000 File

Words : 5.123.462 words

Waktu : 4 menit 54 detik

D. PROSES RANGKING INDEX

1. TOP 10 Boolean-Query 1 kata

Syintak untuk mecari top boolean-query

hasil pencarian top boolean-query pada kata “computer”

2. Top 10 Keyword-Base Query 1 kata

Syintak untuk mecari Top 10 Keyword-Base Query 1 kata

Page 5: LAPORAN_TUGAS1.pdf

hasil pencarian Top 10 Keyword-Base Query pada kata “computer”

Berdasarkan Boolean-query dan keywordBase-query di atas bahwa setiap kata yang

dicari dapat ditemukan secara baik. Dari 1 kata ataupun mencari kata menggunakan

“OR”, “AND” semuanya dapat ditemukan, hal ini menandakan proses indexing

berjalan dengan lancar.