27
Søking på Internett Forskar Svein Ølnes Vestlandsforsking, Sogndal

Søking på Internett

  • Upload
    deo

  • View
    61

  • Download
    0

Embed Size (px)

DESCRIPTION

Søking på Internett. Forskar Svein Ølnes Vestlandsforsking, Sogndal. Tema. Informasjonssøk historisk Søk på Internett – historisk tilbakeblikk Ulike typar søketenester Kva er ein søkemotor? Korleis fungerer ein søkemotor? Søkemotor sett frå brukar og frå tenestetilbydar - PowerPoint PPT Presentation

Citation preview

Page 1: Søking på Internett

Søking på Internett

Forskar Svein ØlnesVestlandsforsking,Sogndal

Page 2: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Tema

• Informasjonssøk historisk• Søk på Internett – historisk tilbakeblikk

• Ulike typar søketenester• Kva er ein søkemotor?• Korleis fungerer ein søkemotor?• Søkemotor sett frå brukar og frå tenestetilbydar

– synlege vevtenester

• Kan vi stola på søkemotorane?– omfattar søkemotorane heile Internett?– Informasjonskvalitet, tiltru– annonsar, betalt indeksering, betalte søkeord

• Finst det andre søkemotorar enn Google?• Treng vi andre søkemotorar enn Google?

• Framtidsutsikter: Bruk av metadata, ”den semantisk veven”

• Praktiske tips og råd for betre søking

Page 3: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Informasjonssøk

• Computer-aided information search and retrieval– historie om lag like gammal som datamaskinene– første skikkelege gjennombrot på 50-talet i samband med søk

og erstatt av uttrykk i lovtekst– IR = Information Retrieval

• Før WWW har informasjonssøk særleg vore knytt til databasar og slik sett databasesøk– søk i strukturerte data

• Internett/WWW har endra dette ved søk i store, ustrukturerte datamengder

Page 4: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Internett-søk i eit historisk lynglimt

• I begynnelsen var.... Archie– utvikla i 1990 av Alan Emtage, pga. Unix-konvensjonar vart ’Archives’ til ’Archie’...

– pre-web søkemotor (ftp)

• The World Wide Web Wanderer (Wandex) – den første søkeroboten på web’en

• Galaxy (1994), den første internett-katalogen

• Excite (1993)

• WebCrawler (1994) – første fulltekstindeksering av web

• Yahoo! (1994)

• 10 år med internett-søk har vist at det skjer raske endringar og mange søketenester har relativt kort levetid. Yahoo! er ein av få tenester som har vore med heile tida

• AltaVista var ei viktig teneste fram til slutten av 90-talet. På berre ca. eit halvt år forsvant den nesten heilt då Google tok over

Page 5: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Ulike typar søketenester

• Katalog– menneskeskapt hierarkisk database over nettressursar (Yahoo, Open

Directory, LookSmart, Kvasir)

• Søkemotor– robot, database, brukargrensesnitt mot database

(Google, AltaVista, Teoma, Kvasir...)– same søkemotor kan vera motor i ulike tenester (Google blir brukt i Yahoo,

AOL, Kvasir...) – outsourcing av søk!

• Metasøkemotor– søkemotor som brukar andre søkemotorar som kjelde, parallellsøk i mange

underliggjande basarHotBot, Queryster, DogPile, Excite, MetaCrawler, Mamma

• I praksis er i dag dei fleste søketenester ein kombinasjon av katalog og søkemotor

Page 6: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kva er ein søkemotor (1)

• I Søkerobot (crawler, bot, spider, vevkjerring)– program som følgjer lenker på veven og kopierer informasjon (tekst) inn i den

sentrale databasen

• II Database– informasjonen samla av roboten blir lagra i ein data-base med ein del

tilleggsinfo– indekseringa i etterkant av informasjonsinnhenting inneber m.a. statistikk over

ord, plassering av ord i teksten, analyse av lenker m.m.

• III Søkegrensesnitt– brukaren sin interaksjon med søkemotoren– enkelt søkefelt eller grensesnitt for avansert søk

Page 7: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Søkemotor: Søkerobot

• Søkerobot– ikkje ein, men mange robotar (program) som traverserer nettet

og hentar inn informasjon– ei teneste som Google vil vanlegvis indeksera ei vevteneste ein

gang i månaden– søkeroboten les vevsider som ein ”primitiv” tekstbasert nettlesar

Page 8: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Søkemotor: Database

• Database– full HTML-kopi av alle sider (repository)– dokument-indeks: informasjon om enkeltsider– leksikon– treff-lister (hit lists): førekomstar av ord i eit dokument

Page 9: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Søkemotor: Søkegrensesnitt

• Søkegrensesnitt– Søkeboks for enkle søk– Avansert søk med hjelp til avgrensing– Problem:

• Ingen standard for søk i søkemotorar– korleis fungerer søket ”epler pærer” i Google?

(finsk undersøking viste at > 60% av brukarane tok feil)• Variabel støtte for Boolsk logikk (AND, OR, NOT)

– For meir informasjon om oppbygging av ein søkemotor, les”The Anatomy of a Large-Scale Hypertextual Web Search Engine” av Larry Page og

Sergey Brink (grunnleggjarane av Google)

Page 10: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Synlege vevtenester (1)

• For sluttbrukar er søkegrensesnittet den synlege delen av søkemotoren

• For tenestetilbydar er søkeroboten den viktigaste delen– søkerobotar les vevsider som ”primitive” nettlesarar– http://www.delorie.com/web/lynxview.html for å sjå korleis

søkemotoren les sidene– eksempel på usynleg side: www.kjornes.no/start.htm

Page 11: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Synlege vevtenester (2)

• Noko av det som kan skapa problem for søkerobotar:– Dynamisk genererte sider (database-baserte tenester)– Java på klientsida– Javascript– Flash– Rammer (frames)

• Dersom det er viktig for deg at nettsida er synleg på nettet: bruk enkel teknologi!– tilby i det minste eit nettstadskart som roboten kan bruka som

utgangspunkt for indeksering

Page 12: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kan vi stola på søkemotorane? - Omfang

• Søkemotorar dekkar ikkje heile veven– stor usynleg del av nettet (deep web)

• informasjon i databasar• lukka område

• veven mindre samanvevdenn før trudd

• ”Sløyfe-teorien” – Bow Tie

• Graph Structure of the WebBroder, Kumar et al. (AltaVista, IBM og Compaq)

Page 13: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kan vi stola på søkemotorane? - Omfang

• Stor, usynleg del av veven– > 500 milliardar vevsider– Google indekserer 4 mrd sider (mindre enn 1 prosent!)

• Ikkje all informasjon på store nettstader blir indeksert; ofte berre 3-4 nivå

• Teknologiske problem for indeksering

• Kor ofte blir sider indeksert (og nye nettstader indeksert for første gang)?

Page 14: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Søkemotorar: Relevans

• To viktige omgrep når det gjeld søking:– Precision

• er søkeresultatet relevant for søket?• kjem dei mest relevante resultata først i resultatsettet?• kor bra er tenesta til å sortera ut irrelevante dokument?

– Recall• kor mange av dei relevante dokumenta finn du?• kan ikkje kontrollerast (dersom vi visste dette, trengde vi ingen søkemotor!)

– I praksis er det ikkje skarpt skilje mellom desse to omgrepa. Som eksempel kan nemnast eit standard søk på Google; etter kvart som ein blar fram side etter side med resultat, vil recall auka og presisjon minka

– TREC (Text REtrieval Conference – initiert av National Institute of Standards and Technology (NIST) er eit viktig forum for forsking innanfor området

– Eksempel:• Du søker etter info om strutseoppdrett. Det finst 20 relevante dok om temaet. Du finn 16 dok

og av desse er 10 relevantePrecision = 62% (10/16) og Recall = 50% (10/20)

Page 15: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kan vi stola på søkemotorane? - Tiltru

• Kven står bak informasjonen?– autoritativ kjelde?– kommersiell aktør?– privatperson?– ingen opplysning?– referansar?– oppdatering?

• Er informasjonen– ekte?– uavhengig?– objektiv?– inngir tillit?

Page 16: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kan vi stola på søkemotorane? - Betaling

• Sponsing/reklame– Betaling for å bli vist ved visse ord - Paid listing/paid

placement/pay per click• FTC – Federal Trade Commission – innførte i 2002 tilrådingar for

søketenester for å skilja klart mellom betalt og ikkje-betalt innhald

• Betalt indeksering (paid inclusion)– Garanti for å bli indeksert, men ikkje for å bli synleg (i prinsippet)

• Søkemotorane tek store sjansar om dei blandar saman ikkje-betalt innhald (”redaksjonelt stoff”) og betalt (”annonsar”). På lang sikt livsfarleg for tilliten.

Page 17: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Finst det andre søkemotorar enn Google?

• Fort å sjå seg blind på ein dominerande aktør som Google– bør stadig prøva ut andre søkemotorar – nisjesøk

• dersom du søker etter offentleg informasjon i Norge, bør norge.no vera ein betre søkemotor enn Google (men ikkje heilt sikker på at den er det...)

• Kvasir er avgrensa til .no-domenet og bør slik sett kunna gi betre resultat enn ei meir omfattande teneste (i realiteten er det Google som leverer søkeresultat til Kvasir; skilnaden blir emnekatalogen Kvasir har bygt opp)

• Startsiden.no tilbyr søk i Google, Kvasir, AltaVista, Yahoo! og Alltheweb (som no er ein del av Yahoo!)

• Google har i dag ein for dominerande rolle sidan den også blir brukt som motor for mange av dei viktigaste konkurrentane

• Meir informasjon:– Search Engines and controversy:

http://www.firstmonday.dk/issues/issue9_1/gerhart/

Page 18: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Mest brukte søkemotorar (januar 2004)

GG = Google

YH = Yahoo

MSN = Microsoft

AOL = America Online

AJ = Ask Jeeves

Panel på meir enn

60 000 brukarar i USA

Page 19: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kva for ein søkemotor?

• Same søkemotoren kan vera brukt på mange søketenester:– Google er også søkemotor for tenester som

• Yahoo! (heilt fram til årsskiftet)• AOL (America Online)• Kvasir (Scandinavia Online – SOL)

– Yahoo! har gjennom oppkjøp følgjande søkemotorar:• Inktomi• AltaVista• AlltheWeb (FAST)• gjennom Inktomi gir dei søkeresultat for MSN (Microsoft)

Page 20: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Treng vi andre søkemotorar enn Google?

• Kontroll av søk er ein sterk maktfaktor på nettet; søk er den viktigaste måten å finna ny informasjon

• Søkemotorane opererer tilslørt: – vi veit ikkje korleis dei vektlegg informasjon– vi veit ikkje kva kriteria dei brukar for utval– vi veit ikkje om det skjer manipulering av informasjon– kort sagt: vi veit svært lite om korleis dei opererer

• Sjå opp for ”Nye Yahoo!” – dei vil truleg bli ein hardare konkurrent for Google

Page 21: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Misbruk av søkemotorar

• Pornoindustrien har vore og er den største utfordraren for søkemotorar– stadig nye, ”innovative” løysingar for å lura søkemotorane– ulike kampanjar blir førte ved hjelp av (misbruk av) søkemotorar;

t.d. ”Google bombing”• eks.: søk på ”miserable failure” i Google

• Misbruk av søkemotorar kan føra til svartelisting/utestenging– ingen klare reglar, men visse generelle tilrådingar for å unngå

dette– ”skriv for folk, ikkje for søkemotorar” er den mest

generelle tilrådinga

Page 22: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Framtida for internett-søk

• Søketenester på Internett vil fortsatt bli viktig framover• Etter kvart som e-handel tek av, vil søk knytt til dette blir

viktigare• Lokale søk, personalisering• Oppkjøp og konsolidering; søkeindustrien har vore

gjennom ei tid med mange oppkjøp og reduksjon av aktørar; eit spenningsmoment er kva Microsoft vel å gjera på søkeområdet (kjøpa Google eller utvikla eigen søketeknologi?)

• Ein stadig større del av veven er basert på XML; det kan gi gevinstar for søk i framtida

Page 23: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Den semantiske veven

• Søkemotorar er trass i imponerande resultat på søk nokså ”primitive”; det er stort sett tal (statistikk) det handlar om

• Søkemotorane forstår ikkje kva søket gjeld – du vil vanskeleg få svar på søk av typen ”kor mange av Ibsens verk har vore utgangspunkt for film?”

• ”Den semantiske veven” er eit Internett der informasjonen blir forstått [av maskiner]– Viktige initiativ:

• RDF – Resource Description Framework• Topic Maps - emnekart

Page 24: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Praktiske råd ved søk (1)

• Installer søke-verktøylinje! (aukar bindinga til søkemotoren, men likevel veldig praktisk)

• Finn ut korleis søkemotoren fungerer (boolske operatorar, søkespråket generelt)

• For mange treff/for lite relevante treff(myte: søkemotorane er ubrukelege fordi dei returnerer så mange treff – det spelar ingen rolle kor mange treff dei returnerer, berre dei første treffa er relevante nok!)– innsnevring (i Google ved å leggja til fleire søkeord, eller ”søk innafor treff”)

• For få treff:– utvid søket ved å ta bort søkeord eller brukar andre uttrykk

Page 25: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Praktiske råd ved søk (2)

• Bruk utvida søk/avansert søk(undersøkingar viser at berre 2-3% av brukarane nyttar avansert søk! ”Avansert søk” er dessutan heilt misvisande; det er det enkle søket som er avansert, ”avansert søk” er heller ”søk med støttehjul”)

• For lettare utnytting av avanserte funksjonar: sjekk ut www.soople.com – nytt grensesnitt mot Google

• Bruk av søkefeltet som kalkulator

• Fleire tips:– Google Guide: http://www.googleguide.com/

Page 26: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Analyse av resultat-treff, Google

1. URL til treffside,presentert med innhaldet iHTML-elementet <title>

2. Tekst henta frå sida,nær søkeordet/-uttrykket

3. Tekst henta frå HTML-elementet 'Description',dersom utfylt

4. Kategoriseringa i emne-katalog, dersom det finstei oppføring

5. URL, størrelse på sideog sist indeksert

6. Googles kopi av sidasist den vart indeksert

7. Liknande sider (forslagfrå Google)

Page 27: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Meir informasjon

• SearchEngineWatch – www.searchenginewatch.com• www.notess.com / SearchEngineShowedown• www.highrankings.com – Highrankings.com, mest for søkemotor-

optimalisering [SEO]• www.extremesearcher.com

• TREC – Text REtrieval Conferensehttp://trec.nist.gov (TREC 2004: 16.-19. nov., USA)

• ACM Special Interest Group on Information Retrieval (SIGIR)• Search Engine Meeting (årleg konferanse)

– SEM 2004 arr. i Haag, Nederland, 19. og 20. april)

• Google Papers - http://labs.google.com/papers.html