Upload
munasko-muhdan-bintang
View
27
Download
1
Embed Size (px)
Citation preview
Indexing File Bertipe PDF
Menggunakan Swish-e
Laporan
disusun untuk memenuhi tugas mata kuliah
Penenlusuran Informasi
Oleh
Munasko
1108107010004
JURUSAN INFORMATIKA
MATEMATIKA DAN PENGETAHUAN ALAM
UNIVERSITAS SYIAH KUALA
DARUSSALAM, BANDA ACEH
2014
A. URAIAN TUGAS
1. Rancang sebuah file konfigurasi untuk swish-e untuk dapat mengindeks sekumpulan
dokumen bertipe PDF.
2. Bangun indeks dari sekumpulan dokumen bertipe PDF sebanyak minimal 5000
dokumen. Lokasi (direktori) dokumen ditentukan dalam file konfigurasi. Dokumen
PDF untuk tugas 1 ini TIDAK BOLEH diambil dari situs Linux Documentation
Project Works, tetapi dipersilahkan dikumpulkan dari sumber-sumber yang lain.
3. Catat waktu yang dibutuhkan untuk membangun indeks dari sekumpulan dokumen
PDF tersebut.Catat waktu yang dibutuhkan untuk membangun indeks dari
sekumpulan dokumen PDF tersebut.
4. Uji indeks yang telah dibangun oleh swish-e dengan beberapa Boolean Query dan
Keyword-Base Query, dan amati hasilnya.
B. Pencarian file PDF bersumber dari cs.unsyiah.ac.id/~ebook dan
http://it-ebooks.info
C. PROSES INDEXING
1. File Konfigurasi
Pada file konfigurasi di atas terlihat beberapa sintak tipe yang digunakan untuk
pembuatan indexing dengan tujuan masing-masing.
1. IndexDir
Fungsi IndexDir diatas adalah mengakses program perl yang berisi untuk mengubah
file pdf menjadi file xml dan dapat dibaca oleh swish-e.
2. indexOnly
fungsi IndexOnly diatas adalah mengindex bertipe pdf yang diakses sebelum diubah
ke xml.
3. IgnoreWords
Fungsi IgnoreWords diatas adalah menghapus setiap kata(stopword) yang ada pada
file sesuai dengan isi file stopword.de. setelah itu dilakukan juga proses steaming
untuk bahasa inggris.
4. IndexFile
Fungsi IndexFile diatas adalah hasil dari indexing akan disimpan dalam file
(pdf.index).
2. Konfigurasi Program Perl untuk Mengubah File PDF ke XML
Pada proses indexing digunakan program tambahan, maka saat meng-compile ditambahkan
command –S prog pada ujung perintah swish-e.
Waktu yang dibutuhkan untuk membangun indeks dari sekumpulan dokumen PDF tersebut
adalah:
File Document : 5000 File
Words : 5.123.462 words
Waktu : 4 menit 54 detik
D. PROSES RANGKING INDEX
1. TOP 10 Boolean-Query 1 kata
Syintak untuk mecari top boolean-query
hasil pencarian top boolean-query pada kata “computer”
2. Top 10 Keyword-Base Query 1 kata
Syintak untuk mecari Top 10 Keyword-Base Query 1 kata
hasil pencarian Top 10 Keyword-Base Query pada kata “computer”
Berdasarkan Boolean-query dan keywordBase-query di atas bahwa setiap kata yang
dicari dapat ditemukan secara baik. Dari 1 kata ataupun mencari kata menggunakan
“OR”, “AND” semuanya dapat ditemukan, hal ini menandakan proses indexing
berjalan dengan lancar.