Model dalam sistem temu kembali informasi yasmi afrizal yasmi_afrizal@yahoo.co.id

Preview:

DESCRIPTION

Pertemuan ke- 2. Model dalam sistem temu kembali informasi yasmi afrizal yasmi_afrizal@yahoo.co.id. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester G anjil 20 10 /201 1. Pertemuan ke- 2. Definisi IR. - PowerPoint PPT Presentation

Citation preview

Model dalam sistem Model dalam sistem temu kembali informasitemu kembali informasi

yasmi afrizal yasmi afrizal yasmi_afrizal@yahoo.co.idyasmi_afrizal@yahoo.co.id

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Definisi IR

Pertemuan ke-2

• Pencarian materi (biasanya dokumen) dari sesuatu yang sifatnya tak-terstruktur (unstructured, biasanya teks) untuk memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan dalam komputer).

• Representasi, penyimpanan, organisasi, pencarian dan akses ke item informasi untuk memenuhi kebutuhan informasi pengguna.

• Penekanan pada proses retrieval informasi (bukan data).

• Karakterisasi kebutuhan informasi tidaklah mudah. Harus ditranslasi ke dalam suatu query terlebih dahulu.

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Motivasi • Data retrieval

– Dokumen mana yang mengandung himpunan keyword?

– Semantik didefinisikan dengan baik– Error dari suatu obyek mengakibatkan

kegagalan!• Information retrieval

– Informasi mengenai suatu subyek atau topik– Semantik dapat bersifat lepas (longgar)– Error kecil ditoleransi

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

...Motivasi

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

IR di tengah pertunjukan– IR dalam 20 tahun terakhir:

• Klasifikasi dan kategorisasi• Sistem dan bahasa• Antarmuka pengguna dan visualisasi

– Masih, area dilihat sebagai bidang yang sempit– Web mengubah persepsi ini

• Repository pengetahuan universal• Akses universal gratis (biaya rendah)• Volume raksasa dari informasi tanpa editorial

board terpusat• Meskipun banyak masalah: IR merupakan kunci

untuk menemukan solusi!

Sistem IR

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

• Menerima query pengguna yang mewakili kebutuhan informasi

• Mencari dan menginterpretasikan content (isi) dari item-item informasi

• Membangkitkan suatu ranking yang mencerminkan relevansi terhadap kebutuhan informasi tersebut

• Ide mengenai relevansi adalah sangat penting

Kebutuhan IR

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

• WWW: lebih 25 milyar halaman web, 1.3 milyar gambar dan lebih 1 milyar pesan Usenet yang diindeks pada Google (2006)

• Berbagai kebutuhan informasi:– Mencari dokumen yang masuk dalam

topik tertentu– Mencari suatu informasi spesifik– Mencari jawaban dari suatu pertanyaan– Mencari informasi dalam bahasa berbeda– ...

Penjualan Software Text Retrieval

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Information Retrieval (IR)

Pertemuan ke-2

• Secara teknis: indexing (pembuatan index) dan retrieval (pencarian keterangan) dokumen textual.

• Pencarian halaman pada WWW adalah aplikasi paling “ngetop” saat ini

• Fokus pertama: meretrieve dokumen- dokumen yang relevan dengan query.

• Fokus kedua: meretrieve himpunan besar dokumen secara efisien.

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Information vs Data Retrieval

• Sistem data retrieval (seperti database) berurusan dengan structured data yang mempunyai semantik terdefinisi dengan baik dan kebutuhan meretrieve hasil yang pasti (exact)

• Sistem IR berurusan dengan dokumen bahasa alami (natural language) dan error kecil dapat diabaikan.

• Sistem IR harus menginterpretasikan content kemudian meranking daftar content sesuai dengan tingkat relevansinya.

• Tujuan: Meretrieve semua dokumen yang relevan sekaligus meretrieve sesedikit mungkin dokumen yang tidak relevan

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Sistem IR

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Contoh Sistem IR• Conventional (katalog perpustakaan)

Pencarian dengan kata kunci, judul, penulis, dll.• Text-based (Google, Yahoo, ASK).

Pencarian dengan kata kunci (keyword). Pencarian terbatas menggunakan query dalam bahasa alami.

• Multimedia (QBIC, WebSeek, SaFe)Pencarian dengan penampilan visual (bentuk, warna,

…)• Sistem jawaban pertanyaan (AskJeeves, Answerbus)

Pencarian dalam bahasa alami (terbatas)• Lainnya:

IR lintas-bahasa, music retrieval

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Sistem IR di Web

Pertemuan ke-2

• Pencarian halaman web http://www.google.com

• Pencarian gambar http://images.google.com• Pencarian isi (content) gambar

http://wang.ist.psu.edu/IMAGE/• Pencarian jawaban pertanyaan

http://www.askjeeves.com• Pencarian musik? Hari-hati, jangan melanggar

hukum.

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Relevansi• Relevansi merupakan suatu judgment

(keputusan) subyektif dan dapat didasarkan pada:– topik yang tepat.– waktu (informasi terbaru).– otoritatif (dari suatu sumber terpercaya).– kebutuhan informasi dari pengguna.

• Kriteria relevansi utama: suatu sistem IR sebaiknya (harus) memenuhi kebutuhan informasi pengguna.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Pencarian Keyword

• Ide paling sederhana dari relevansi: apakah string query ada di dalam dokumen (kata demi kata, verbatim)?

• Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query muncul di dalam dokumen, tanpa melihat urutannya (bag of words)?

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Masalah dengan Keyword

• Mungkin tidak meretrieve dokumen relevan yang menyertakan synonymous terms.– “restaurant” vs. “café”– “NDHU” vs. “National Dong Hwa

University”• Mungkin meretrieve dokumen tak-relevan

yang menyertakan ambiguous terms.– “bat” (baseball vs. mamalia)– “Apple” (perusahaan vs. buah-buahan)– “bit” (unit data vs. perilaku menggigit)

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Bukan Sekedar Keyword

• Kita akan mendiskusikan dasar-dasar IR berbasis keyword, tetapi…– Fokus pada perluasan dan pengembangan

terakhir untuk mendapatkan hasil terbaik.• Kita akan membahas dasar-dasar pembangunan

sistem IR yang efisien, tetapi…– Fokus pada algoritma dan kemampuan dasar,

bukan masalah sistem yang memungkinkan pengembangan ke database ukuran industri.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

IR Cerdas

• Memanfaatkan pengertian atau makna dari kata yang digunakan.

• Melibatkan urutan kata di dalam query.• Beradaptasi dengan pengguna berdasarkan

pada feedback, langsung atau tidak langsung.• Memperluas pencarian dengan term terkait.• Mengerjakan pemeriksaan ejaaan/perbaikan

tanda pengenal otomatis.• Memanfaatkan Otoritas dari sumber informasi.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Indeks • Sistem IR jarang mencari koleksi dokumen secara

langsung. Berdasarkan pada koleksi dokumen, dibangun sebuah index. Pengguna mencari index tersebut.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Indexing Otomatis

• Tujuan dari automatic indexing adalah membangun index dan meretrieve informasi tanpa intervensi manusia.

• Ketika informasi yang dicari adalah teks, metode automatic indexing akan sangat efektif.

• Penelitian automatic indexing fundamental dimulai oleh Gerald Salton, Professor of Computer Science di Cornell & mahasiswa Pasca-Sarjananya (Sistem SMART).

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

IR dari Koleksi Besar

• Information retrieval dari koleksi sangat besar bersandar pada:– Jumlah computer power yang besar untuk

mengerjakan algoritma sederhana terhadap jumlah data yang sangat banyak.

• komputasi kinerja-tinggi– Pemahaman pengguna terhadap informasi dan

kemampuan dari sistem.• Interaksi manusia - komputer• Machine-learning banyak digunakan untuk

mendapatkan kinerja terbaik.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Searching & Browsing

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

• Orang dalam perulangan

IR dari Koleksi Dokumen Teks

• Kategori utama dari metode:– Ranking kemiripan terhadap query (vector

space model).– Pencocokan exact (Boolean).– Ranking berdasarkan tingkat kepentingan

dokumen (PageRank)– Kombinasi beberapa metode

• Contoh: Web search engine, seperti Google & Yahoo, menggunakan metode kombinasi, berdasarkan pada pendekatan pertama dan ketiga, dengan kombinasi exact dipilih menggunakan machine learning

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Istilah Penting • Information retrieval: sub-bidang ilmu

komputer yang berurusan dengan penemuan kembali dokumen (khususnya teks) terotomatis berdasarkan pada content dan contextnya.

• Searching: Pencarian informasi spesifik di dalam badan informasi. Hasilnya adalah sehimpunan hit.

• Browsing: Eksplorasi tak-terstruktur dari badan informasi.

• Linking: Berpindah dari satu item ke item lain mengikuti link (sambungan) seperti rujukan (referensi).

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

...Istilah• Query: Suatu string teks, menggambarkan

informasi yang sedang dicari pengguna. Setiap kata dari query dinamakan search term.

• Query dapat berupa search term tunggal, string dari term, frase atau ekspresi tertentu menggunakan simbol khusus, misalnya regular expression.

• Pencarian Full text: Metode yang membandingkan query dengan setiap kata di dalam teks, tanpa membedakan fungsi dari berbagai kata.

• Pencarian Bidang : Metode pencarian pada bidang struktural atau bibliografis spesifik, seperti penulis atau judul.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

...Istilah

• Corpus: Koleksi dokumen yang diindeks dan dijadikan target pencarian.

• Daftar kata: Himpunan semua term yang digunakan dalam indeks untuk suatu corpus (dikenal sebagai vocabulary file).

• Pada pencarian full text, word list adalah semua term di dalam corpus, stop words dihapus. Term- term terkait dikombinasi dengan stemming.

• Controlled vocabulary: Metode indexing dimana word list bersifat tetap. Term-term dari vocabulary tersebut dipilih untuk mendeskripsikan setiap dokumen.

• Keyword: Nama untuk term-term dalam word list, terutama dengan controlled vocabulary

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Mengurutan & Ranking Hit

• Ketika pengguna men-submit suatu query ke sistem IR, sistem mengembalikan sehimpunan hit. Pada koleksi dokumen besar, himpunan hit akan sangat besar.

• Nilai untuk pengguna sering tergantung pada urutan hit ditampilkan.

• Tiga metode utama:– Mengurutkan hit, misal berdasarkan tanggal– Meranking hit berdasarkan kemiripan antara

query dan dokumen– Meranking hit berdasarkan kepentingan dari

dokumen

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

IR Berbasis Teks

• Sebagian besar metode ranking didasarkan pada model ruang vektor (vector space model).

• Sebagian besar metode pencocokan (matching) didasarkan ada operator Boolean.

• Metode Web search mengkombinasikan model ruang vektor dengan ranking berdasarkan pada tingkat kepentingan dokumen.

• Banyak sistem (dalam praktek) menggabungkan fitur- fitur dari beberapa pendekatan.

• Pada bentuk dasar, semua pendekatan menganggap kata sebagai token terpisah, dengan usaha minimal untuk memahami kata-kata secara linguistik.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

FrekuensiKata

• Observasi: Beberapa kata lebih umum daripada yang lain.

• Statistika: Koleksi sangat besar dari dokumen teks tak-terstruktur mempunyai karakteristik statistik serupa. Statistik ini:– Mempengaruhi efektifitas dan efisiensi

dari struktur data yang digunakan untuk mengindeks dokumen

– Banyak model retrieval memanfaatkannya

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

...Frekuensi Kata

• Contoh: Contoh berikut ini diambil dari :– Jamie Callan, Characteristics of Text,

1997– 19 Juta kata sampel– Slide berikut memperlihatkan 50 kata

yang paling umum, diranking (r) berdasarkan frekuensinya (f).

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

...Frekuensi Kata

Pertemuan ke-2

Distribusi RankingFrekuensi

• Untuk semua kata di dalam suatu dokumen, untuk setiap kata w– f adalah frekuensi munculnya w– r ranking dari w disusun menurut frekuensi. (kata

yang paling umum muncul mempunyai rank =1)

Pertemuan ke-2

Contoh Frekuensi Rank

• Slide berikut memperlihatkan kata-kata di dalam data Callan yang telah dinormalisasi. Dalam contoh ini:– r adalah ranking dari kata w

dalam sampel.– f adalah frekuensi kata w di dalam

sampel.– n adalah jumlah total kemunculan

kata di dalam sampel.

Pertemuan ke-2

...Contoh RankingFrekuensi

Pertemuan ke-2

Recommended