Click here to load reader
Upload
trandien
View
218
Download
3
Embed Size (px)
Citation preview
Search Engine Text Retrieval dan Image Retrieval
YENI HERDIYENI
DEPARTEMEN ILMU KOMP UTER – FMIPA IPB
HTTP : //Y ENIH ERDIYEN I .WOR DPRESS.COM
14 JUNI 2008
Search eng ine a tau mes in pencar i merupakan
bag ian dar i tekno log i in te rnet yang sangat pent ing
untuk pencar ian in formas i . Dewasa in i
perkembangan tekno log i search eng ine sangat
pesat . Baga imana sebenernya tekno log i search
eng ine i tu d ikembangkan??
SEARCH ENGINE
Google, Yahoo!, MSN, AOL, dan Altavista merupakan mesin pencari
(search engine) berbasis web yang paling popular saat ini. Dengan
memasukkan kueri berupa kata kunci kedalam mesin pencari,
informasi yang inginkan dapat ditampilkan. Bagaimana mesin
pencari melakukan pencarian informasi tersebut sementara jumlah
informasi yang tersedia sangat banyak dan tidak terstruktur …. ??
Adalah temu-kembali informasi ( information retrieval ) bidang ilmu
yang dapat menjelaskan bagaimana pencarian informasi tersebut
dilakukan.
Secara umum, proses temu-kembali (retrieval) adalah sebagai
berikut:
Gambar 1 Proses temu-kembali
Sistem temu-kembali informasi memiliki keterkaitan keilmuan
dengan bidang-bidang lain (Gambar 2)
Gambar 2 Keterkaitan sistem temu kembali informasi
dengan bidang lain.
MODEL TEMU-KEMBALI INFORMASI
Pada IR terdapat dua aktivitas utama pengguna yaitu retrieval dan browsing. Gambar 3 menjelaskan model IR.
Gambar 3 Model temu-kembali informasi
TEMU-KEMBALI TEKS (TEKS RETRIEVAL)
Sistem temu-Kembali teks (teks retrieval) adalah sistem penemuan
kembali informasi dalam bentuk dokumen dengan mengukur
kemiripan (similarity ) antara informasi yang tersimpan dalam basis
data dengan kueri yang dimasukkan oleh pengguna (Salton, 1998).
Teknik pencarian informasi pada sistem IR berb eda dengan sistem
pencarian pada sistem manajemen basisdata (DBMS). Berikut
perbedaan antara basisdata dengan Information Retrieval .
Non-Overlapping Lists
Proximal Nodes
Structured Models
Retrieval:
Adhoc
Filtering
Browsing
U
s
e
r
T
a
s
k
Classic Models
boolean
vector
probabilistic
Set Theoretic
Fuzzy
Extended Boolean
Probabilistic
Inference Network
Belief Network
Algebraic
Generalized Vector
Lat. Semantic Index
Neural Networks
Browsing
Flat
Structure Guided
Hypertext
Tabel 1. Perbedaan DBMS dengan sistem temu kembali informasi
DBMS Information Retrieval
Data Terstruktur Tidak terstruktur
Field Memiliki field Tidak memiliki field
Kueri Menggunakan sintak
bahasa SQL (Structured
Query Language )
Menggunakan bahasa
alami (free text),
Boolean
Pengukuran
Kemiripan
Pengukuran kemiripan
pasti (exact matching)
Pengukuran kemiripan
tidak pasti ( imprecise
measurement)
Dalam sistem temu kembali terdapat dua bagian utama yaitu bagian
pengindeksan ( indexing) dan pencarian (searching). Kedua bagian
tersebut memiliki peran penting dalam proses temu kembali
informasi. Gambar 4 menjelaskan proses temu kembali informasi.
Gambar 4. Proses temu kembali informasi
User
Interface
Text Operations
Query
Operations Indexing
Searching
Ranking
Index
Text
query
user need
user feedback
ranked docs
retrieved docs
logical view logical view
inverted file
DB Manager
Module
Text
Database
Text
Pada sistem temu-kembali infomasi, kumpulan dokumen direpresentasikan
dengan dalam bentuk matriks dokumen (D) dan kata (T). Notasi W merupakan
frekuensi kata dalam dokumen.
TEMU-KEMBALI CITRA
Sama seperti halnya sistem temu-kembali informasi berbentuk dokumen, sistem
temu kembali citra adalah sistem penemuan kembali informasi dalam bentuk
citra (gambar) dengan mengukur kemiripan (similarity) antara citra yang
tersimpan dalam basis data dengan kueri yang dimasukkan oleh pengguna.
Content based image retrieval (CBIR) merupakan suatu pendekatan dalam temu
kembali citra yang didasarkan pada informasi yang terkandung di dalam citra
itu sendiri seperti warna, bentuk dan tekstur dari citra. Gambar 5 menunjukkan
skema CBIR.
Gambar 5 Skema CBIR
CBIR
Hasil :
Koleksi
User
T1 T2 …. Tt D1 w11 w21 … wt1 D2 w12 w22 … wt2 : : : : : : : : Dn w1n w2n … wtn
Pada CBIR sebuah citra direpresentasikan sebagai fungsi dua dimensi f(x,y)
di mana x dan y adalah pasangan koordinat spasial, sementara nilai f disebut
sebagai derajat tingkat keabuan (gray level) atau intensitas dari citra digital pada
koordinat tersebut (Gonzalez et al. 2004). Citra digital direpresentasikan dalam
bentuk matriks persegi yang mewakili ukuran dari citra tersebut. Misalkan
terdapat sebuah citra digital dengan ukuran NxM, maka citra dapat
direpresentasikan dalam sebuah matriks i berukuran NxM sebagai berikut:
),(...)2,()1,(
............
),2(...)2,2()1,2(
),1(...)2,1()1,1(
MNiNiNi
Miii
Miii
i
Gambar 1 Representasi citra digital.
Sumber Pustaka:
1. Salton. 1998. Introduction to Modern Information Retrieval.
2. Deb, S. dan Zhang, Y. 2004. An Overview of Content-Based Image Retrieval
Techniques. IEEE.
3. Gonzales dan Woods. 2004. Digital Image Processing Using Matlab. Addison
Wesley.