7

Click here to load reader

artikel_008 - Search Engine.pdf

Embed Size (px)

Citation preview

Page 1: artikel_008 - Search Engine.pdf

Search Engine Text Retrieval dan Image Retrieval

YENI HERDIYENI

DEPARTEMEN ILMU KOMP UTER – FMIPA IPB

HTTP : //Y ENIH ERDIYEN I .WOR DPRESS.COM

14 JUNI 2008

Search eng ine a tau mes in pencar i merupakan

bag ian dar i tekno log i in te rnet yang sangat pent ing

untuk pencar ian in formas i . Dewasa in i

perkembangan tekno log i search eng ine sangat

pesat . Baga imana sebenernya tekno log i search

eng ine i tu d ikembangkan??

Page 2: artikel_008 - Search Engine.pdf

SEARCH ENGINE

Google, Yahoo!, MSN, AOL, dan Altavista merupakan mesin pencari

(search engine) berbasis web yang paling popular saat ini. Dengan

memasukkan kueri berupa kata kunci kedalam mesin pencari,

informasi yang inginkan dapat ditampilkan. Bagaimana mesin

pencari melakukan pencarian informasi tersebut sementara jumlah

informasi yang tersedia sangat banyak dan tidak terstruktur …. ??

Adalah temu-kembali informasi ( information retrieval ) bidang ilmu

yang dapat menjelaskan bagaimana pencarian informasi tersebut

dilakukan.

Page 3: artikel_008 - Search Engine.pdf

Secara umum, proses temu-kembali (retrieval) adalah sebagai

berikut:

Gambar 1 Proses temu-kembali

Sistem temu-kembali informasi memiliki keterkaitan keilmuan

dengan bidang-bidang lain (Gambar 2)

Gambar 2 Keterkaitan sistem temu kembali informasi

dengan bidang lain.

Page 4: artikel_008 - Search Engine.pdf

MODEL TEMU-KEMBALI INFORMASI

Pada IR terdapat dua aktivitas utama pengguna yaitu retrieval dan browsing. Gambar 3 menjelaskan model IR.

Gambar 3 Model temu-kembali informasi

TEMU-KEMBALI TEKS (TEKS RETRIEVAL)

Sistem temu-Kembali teks (teks retrieval) adalah sistem penemuan

kembali informasi dalam bentuk dokumen dengan mengukur

kemiripan (similarity ) antara informasi yang tersimpan dalam basis

data dengan kueri yang dimasukkan oleh pengguna (Salton, 1998).

Teknik pencarian informasi pada sistem IR berb eda dengan sistem

pencarian pada sistem manajemen basisdata (DBMS). Berikut

perbedaan antara basisdata dengan Information Retrieval .

Non-Overlapping Lists

Proximal Nodes

Structured Models

Retrieval:

Adhoc

Filtering

Browsing

U

s

e

r

T

a

s

k

Classic Models

boolean

vector

probabilistic

Set Theoretic

Fuzzy

Extended Boolean

Probabilistic

Inference Network

Belief Network

Algebraic

Generalized Vector

Lat. Semantic Index

Neural Networks

Browsing

Flat

Structure Guided

Hypertext

Page 5: artikel_008 - Search Engine.pdf

Tabel 1. Perbedaan DBMS dengan sistem temu kembali informasi

DBMS Information Retrieval

Data Terstruktur Tidak terstruktur

Field Memiliki field Tidak memiliki field

Kueri Menggunakan sintak

bahasa SQL (Structured

Query Language )

Menggunakan bahasa

alami (free text),

Boolean

Pengukuran

Kemiripan

Pengukuran kemiripan

pasti (exact matching)

Pengukuran kemiripan

tidak pasti ( imprecise

measurement)

Dalam sistem temu kembali terdapat dua bagian utama yaitu bagian

pengindeksan ( indexing) dan pencarian (searching). Kedua bagian

tersebut memiliki peran penting dalam proses temu kembali

informasi. Gambar 4 menjelaskan proses temu kembali informasi.

Gambar 4. Proses temu kembali informasi

User

Interface

Text Operations

Query

Operations Indexing

Searching

Ranking

Index

Text

query

user need

user feedback

ranked docs

retrieved docs

logical view logical view

inverted file

DB Manager

Module

Text

Database

Text

Page 6: artikel_008 - Search Engine.pdf

Pada sistem temu-kembali infomasi, kumpulan dokumen direpresentasikan

dengan dalam bentuk matriks dokumen (D) dan kata (T). Notasi W merupakan

frekuensi kata dalam dokumen.

TEMU-KEMBALI CITRA

Sama seperti halnya sistem temu-kembali informasi berbentuk dokumen, sistem

temu kembali citra adalah sistem penemuan kembali informasi dalam bentuk

citra (gambar) dengan mengukur kemiripan (similarity) antara citra yang

tersimpan dalam basis data dengan kueri yang dimasukkan oleh pengguna.

Content based image retrieval (CBIR) merupakan suatu pendekatan dalam temu

kembali citra yang didasarkan pada informasi yang terkandung di dalam citra

itu sendiri seperti warna, bentuk dan tekstur dari citra. Gambar 5 menunjukkan

skema CBIR.

Gambar 5 Skema CBIR

CBIR

Hasil :

Koleksi

User

T1 T2 …. Tt D1 w11 w21 … wt1 D2 w12 w22 … wt2 : : : : : : : : Dn w1n w2n … wtn

Page 7: artikel_008 - Search Engine.pdf

Pada CBIR sebuah citra direpresentasikan sebagai fungsi dua dimensi f(x,y)

di mana x dan y adalah pasangan koordinat spasial, sementara nilai f disebut

sebagai derajat tingkat keabuan (gray level) atau intensitas dari citra digital pada

koordinat tersebut (Gonzalez et al. 2004). Citra digital direpresentasikan dalam

bentuk matriks persegi yang mewakili ukuran dari citra tersebut. Misalkan

terdapat sebuah citra digital dengan ukuran NxM, maka citra dapat

direpresentasikan dalam sebuah matriks i berukuran NxM sebagai berikut:

),(...)2,()1,(

............

),2(...)2,2()1,2(

),1(...)2,1()1,1(

MNiNiNi

Miii

Miii

i

Gambar 1 Representasi citra digital.

Sumber Pustaka:

1. Salton. 1998. Introduction to Modern Information Retrieval.

2. Deb, S. dan Zhang, Y. 2004. An Overview of Content-Based Image Retrieval

Techniques. IEEE.

3. Gonzales dan Woods. 2004. Digital Image Processing Using Matlab. Addison

Wesley.