Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
0/58
Pronalaženje informacijana Internetu
1/58
Sadržaj
• Internetski prostor informacija• Mrežni izvori informacija (resursi)• Identifikacija mrežnih resursa• Meta podaci (metadata)• Pretraživanje mrežnih resursa (posebno Weba)• Servisi imena
2/58
Prostor informacija
Web
InternetPisane
informacije
ostalo
3/58
Internetski prostor informacija• NIJE UREĐEN - unificiran• Postoje različiti izvori informacija (resursi)• Mnoštvo tema• Informacije su dostupne u različitim
formatima• Pristup je moguć pomoću različitih alata
(programa)• Postoje informacije koje (još) nisu:
– publikovane u elktronskom obliku– dostupne putem mreže
4/58
Internetski prostor informacija
Mnoštvo dostupnih tema i formata:
• dokumenta različitog formata• multimedijalni zapisi• elektronska izdanja novina, časopisa, knjiga, ...• katalozi, ...• baze podataka• javno dostupna programska podrška• ...• zabava ...
5/58
Mrežni izvori informacija (resursi)
• Informacije se publikuju pomoću različitih Internet servisa:– Web– FTP arhive– mailing liste– mrežne novine (USENET)– elektronska pošta– baze podataka dostupne putem mreže– ...
6/58
Web prostor informacija
• 85% korisnika koristi pretraživačke mahanizme ili tematske kataloge kako bi pronašli informacije
.
• korisnici smatraju da je Internet važan izvor informacija– 2/3 korisnika smatra da je Internet važan ili vrlo
važan izvor informacija
7/58
Problemi?• velika očekivanja korisnika• alati i mehanizmi
– još uvijek nedovoljno dobri– u stalnom razvoju
• prostor informacija nije (dobro) organizovan • nepouzdana:
– kvaliteta informacija– integritet informacija– povjerenje u izvor informacija
8/58
Znate li ...
• ko je bila prva žena pilot u nekoj komercijalnoj avio-kompaniji? Možete li pronaći njenu sliku (traži se tačna URL adresa)?
•Odgovor: Helen Richey; da (http://iswap.org/images/richey.jpg)•Put: Koristimo Google s upitom "first woman airline pilot". Jedan od prvih 10 odgovora je i link na ISAfaqs.html Web stranicu.•URL: http://iswap.org/ISAfaqs.html
9/58
Identifikacija mrežnih resursa
• URI - Uniform Resource Identifier (RFC 2396)– URL - Uniform Resource Locator (RFC 1630, RFC 1738)
• određuje: način pristupa, adresu računala, naziv datoteke ...• protocol://host_name[:port_num][/path][/file_name]• PURL - Persistent URL
– URN - Uniform Resource Name (RFC 1737, RFC 2141)
• URC - Uniform Resource Characteristics– podaci o mrežnom resursu– metadata = podaci o podacima
10/58
Sistemi za pretraživanje
• mnoštvo različitih sistema (alata)• većinom su specijalizirani za pretraživanje određenih
resursa• (gotovo) svi alati imaju Web izgled• pretraživanje može biti globalno ili lokalno• nema savršenog niti sveobuhvatnog alata• opterećeni su problemom ažurnosti i/ili kvalitete• postoje alati koji se temelje na Webu, ali ne pretražuju
Web resurse
11/58
Sistemi za pretraživanje Web-a
• Pretraživači (search engines)– pretraživači(search engines)– metapretraživači (metasearch engines, unified search
interfaces)• Tematski katalozi (subject catalogs, subject
directories, ...)– po pravilu pretraživi (searchable indexes, searchable
catalogs)• Portali
12/58
Pretraživači
• automatski sistemi• prikupljaju informacije o mrežnim resursima i
omogućuju pretraživanje prikupljenih informacija• posebni programi - roboti (robot, crawler, spider)
– skeniraju dostupne mrežne resurse (Web stranice)– grade/održavaju pretraživu kolekciju podataka (bazu
podataka)• sistem za pretraživanje (baze podataka)
– Web interfejs omogućuje korisniku postavljanje upita– posebna pravila za postavljanje upita– ispis rezultata pretraživanja (hits)
13/58
Web
dokumenti
http:// ...
baza podataka
Pretraživač
robot
Pretraživači
14/58
Roboti
• mogu jako opteretiti i mrežu i računar (klijent)– vodite brigu o robotima, ali i o tuđim resursima
• postoje pravila ponašanja (etika) za robote:– robot exclusion protocol– ROBOT META tag
• korisne URL adrese:– http://info.webcrawler.com/mak/projects/robots/robots.html– http://www.searchenginewatch.com/webmasters/spiderchart.html
15/58
Robot Exclusion Protocol
• može ga koristiti samo osoba s pravom pisanja u odgovarajućem direktoriju (webmaster)
• robot.txt datoteka– posebna sintaksa– u početnom direktoriju Web poslužitelja– URL: http://hostname/robots.txt
• primjer:User-agent: *Disallow: /archives/Disallow: /radni/
16/58
Pretraživači
Google - http://www.google.com/GO.com (InfoSeek) - http://www.go.com/Lycos Search - http://www.lycos.com/Alta Vista - http://www.altavista.com/excite! NetSearch - http://www.excite.com/HotBot - http://hotbot.lycos.com/WebCrawler - http://www.webcrawler.com/Nothern Light Search - http://www.northernlight.com/FAST - http://www.alltheweb.com/Raging Search - http://ragingsearch.altavista.com/
Lokalni pretraživačhttp://krstarica.com/
17/58
PretraživačiPostavljanje upita
• Sintaksa upita i spektar mogućnosti zavisi od pretraživača– postoji standardni spektar mogućnosti
(uporaba malih i velikih slova, fraze, kontrola ključnih riječi, …)
• Moguć je izbor resursa koje pretražujemo– Web ili neki drugi resursi; čitavi dokumenti ili samo
naslovi, ...• Korisno je pri prvom susretu s nekim alatom
pročitati raspoložive upute ili HELP
18/58
• uporaba malih i velikih slovaJohn Decemberisland
• uporaba fraza“John December”“NASA Space shuttle program”
• uporaba logičkih operatora (AND, OR, NOT)vegetables AND greenfruit NOT apple
• kontrola ključnih riječi (+, -)+film +noir -”pinot noir”+python -monty
PretraživačiPostavljanje upita
19/58
• susjednost - proximity searchInternet NEAR training
• uporaba dijelova (korijena) riječi (truncation; stemming) – wildchars: *, ?, %alumi*umcomput*
• kontrola resursatitle:”Internet training” (AltaVista, HotBot, …)host:www.fer.hr (AltaVista)cache: www.carnet.hr (Google)
PretraživačiPostavljanje upita
20/58
• Baza podataka (veličina, ažurnost, složenost) / 2001.• Google - 1000 miliona Web stranica• INKTOMI - 500 miliona Web stranica• AltaVista - 550 miliona Web stranica• FAST - 625 miliona Web stranica
• Mogućnosti postavljanja (složenih) upita• Brzina rada (odziv)• Rangiranje rezultata (ranking)• Kvaliteta i mogućnost kontrole ispisa• Dodatne mogućnosti
(kaskadno pretraživanje/profinjavanje upita, ...)
Pretraživačisvojstva
21/58
Tematski katalozi
• tematski organizovane kolekcije podataka o odabranim mrežnim resursima (odabrani resursi klasifikovani po temama)
• sadrže URL adrese mrežnih resursa • mogu sadržati i nazive resursa, sažetke, ...• ne održavaju se automatski (programski) već
se baziraju na radu urednika
22/58
Tematski kataloziPrimjeri
Yahoo - http://www.yahoo.com/LookSmart - http://www.looksmart.com/EINet Galaxy - http://galaxy.einet.net/Magellan - http://magellan.excite.com/NetGuide - http://www.netguide.com/About.com - http://www.about.com/Open Directory - http://dmoz.org/
23/58
Tematski kataloziosobine
• veličina (broj klasificiranih resursa) • Yahoo - >100 urednika, 1,8 miliona Webova• Open Directory - 36000 urednika, 2,6 miliona Webova• LookSmart - 200 urednika, 2,5 miliona Webova
• tematsko stablo - način klasifikacije• dodatne informacije o resursima• rangiranje resursa• mogućnost pretraživanja• veze s pretraživačima• dodatne mogućnosti
24/58
• Imenički servisi utemeljeni na Webu– White pages & Yellow pages
• Web alati za pretraživanje ne-Web resursa– USENET (http://www.deja.com/usenet/)– FTP search (http://ftpsearch.lycos.com/)– mailing liste (http://www.liszt.com)– . . .
Ostali sistemi
25/58
• pretraživanje kolekcija (baza) podatakaInivisible Web - http://www.invisibleweb.com/Lycos Seach. DB - http://dir.lycos.com/Reference/Searchable_Databases/INFOMINE - http://infomine.ucr.edu/Terraserver - http://terraserver.com/
• i ... – rečnici, enciklopedije, vodiči, pretražive kolekcije
multimedijalnih sadržaja, ….
PORTALI
Ostali sistemi
26/58
Portali• ulaz u informacioni prostor Interneta• hibridni alat - pravo rješenje • nude pristup (svim) mrežnim servisima na jednom mjestu• temelje se na pretraživačima i/ili tematskom katalogu• nude kvalitetne informacije• nude personaliziran interfejs• opšte ili specijalizovane (tema ili interesna grupa)
– http://cnn.com/– http://www.excite.com/– http://www.yahoo.com/– http://www.ihlth.com/– http://www.digitalessays.com/– ...
27/58
Sistemi za pretraživanje WebaZaključak
• svaka grupa alata ima svojih prednosti i mana• orijentisani su na tekst dokumenta
(multimedijalni zapis nije moguće pretraživati po sadržaju)
• očekuje se da obuhvataju i ne-Web resurse• problemi:
– kako biti ažuran– kako očuvati kvalitetu (precision .vs. recall)– kako odijeliti “mrežno smeće” od kvalitetne informacije
• budućnost je u “intergraciji”• pobjednik: PORTAL• korisna adresa: http://searchenginewatch.com/
28/58
Pretraživanje Web resursaKako pretraživati?
• dobar izbor ključnih riječi je presudan• biti usmjeren ka cilju (Ne lutati!)• treba se koncentrisati na temu, a ne na
postavljanje uputa• ići ka cilju postepeno (profinjavati upite)• upoznati alat (Pročitajte HELP i FAQ!) • biti fleksibilan i probati više različitih
(tipova) alata• graditi vlastite kolekcije zanimljivih
mjesta na mreži (Favorites)
29/58
Imenički servisi
• Directory Services• “Telefonski imenici Interneta”• Omogućuju publiciranje i pronalaženje
elektroničkih adresa i ostalih podataka o pojedincima, ustanovama i resursima u Internetu
• Mogu biti: – lokalni ili globalni– distribuirani ili centralizovani
30/58
Imenički servisi
• Dijele se na:– White Pages - podaci o pojedincima– Yellow Pages - ostalo (ustanove, resursi)
• Koriste se putem:– odgovarajućih klijent programa– Web interfejsa koje olakšava postavljanje upita, ali
smanjuje mogućnost kontrole• Naglasak na White Pages servisima
31/58
Imenički servisi bazirani na Web tehnologiji
• osim Web interfejsa za pojedine imeničke servise postoje i imenički servisi bazirani na Web-u
• primjeri (White Pages):http://www.iaf.net/http://www.four11.com/http://www.whowhere.com/http://www.bigfoot.com/http://www.pc411.com/http://www.switchboard.com/
• primjeri (Yellow Pages):http://www.globalyp.com/world.htmhttp://www.bigbook.com/