44
1

Kako traže tražilice - predavanje za CoolMath

Embed Size (px)

DESCRIPTION

Objašnjen je način rada internetskih tražilica, s posebnim naglaskom na Google PageRank.

Citation preview

Page 1: Kako traže tražilice - predavanje za CoolMath

1

Page 2: Kako traže tražilice - predavanje za CoolMath

2

Sadržaj predavanja• Osnovni pojmovi• Uloga tražilica na webu• O čemu neću govoriti• Način rada tražilice• Rangiranje web stranica• Članak iz 1998.• PageRank• Računanje PageRanka• Primjeri• Umjesto zaključka

Page 3: Kako traže tražilice - predavanje za CoolMath

3

World Wide Web

• Jedna od najkorištenijih usluga Interneta koja omogućava dohvaćanje hipertekstualnih dokumenata

• Dokumenti mogu sadržavati tekst, slike i multimedijalne sadržaje a međusobno su povezani hiperlinkovima

Page 4: Kako traže tražilice - predavanje za CoolMath

4

www (2)

• Za dohvaćanje i prikaz sadržaja koriste se računalni programi koji senazivaju web-preglednici

(browser).• Web se često pogrešno koristi kao sinonim

za Internet, a zapravo predstavlja jednu uslugu kojom se ostvaruje razmjena podataka preko te svjetske računalne mreže.

Page 5: Kako traže tražilice - predavanje za CoolMath

5

Što je tražilica?

• Web lokacija koja služi za pronalaženje informacija pohranjenih na drugim Web lokacijama. Informacije mogu biti Web stranice, slike i ostale vrste datoteka.

Page 6: Kako traže tražilice - predavanje za CoolMath

6

Što je tražilica ? (2)

• Za razliku od Web imenika koje održavaju urednici (ljudi), internetske tražilice djeluju po određenom algoritmu ili su kombinacija algoritma i ljudskog upisa

Page 7: Kako traže tražilice - predavanje za CoolMath

7

• Preglednici • Tražilice

Page 8: Kako traže tražilice - predavanje za CoolMath

8

Tri puta kojima posjetitelji dolaze na web stranice

Page 9: Kako traže tražilice - predavanje za CoolMath

9

Page 10: Kako traže tražilice - predavanje za CoolMath

10

Najpopularnije tražilice(veljača 2011.)

Page 11: Kako traže tražilice - predavanje za CoolMath

11

Page 12: Kako traže tražilice - predavanje za CoolMath

12

Page 13: Kako traže tražilice - predavanje za CoolMath

13

O čemu neću danas govoriti

Page 14: Kako traže tražilice - predavanje za CoolMath

14

• mrežna usluga koja odgovara na upite izravno ili računanjem odgovora na temelju strukturiranih podataka

• tražilice na upit odgovaraju pružanjem popisa dokumenata ili web stranica na kojima bi mogao biti odgovor na upit

• pokretač Stephen Wolfram, u javnost puštena 15. svibnja 2009.

• prema Popular Science, WA je bila najveća računalna inovacija u 2009.godini.

Page 15: Kako traže tražilice - predavanje za CoolMath

15

Način rada tražilice

• Prikupljanje sadržaja (crawling)

• Indeksiranje

• Pretraživanje

Page 16: Kako traže tražilice - predavanje za CoolMath

16

Prikupljanje sadržaja (crawling) i indeksiranje

• crawler, spider - automatizirani web preglednik koji slijedi svaku poveznicu na stranici

• analiza i utvrđivanje kako treba indeksirati pojedine riječi

• indeksiranje

Page 17: Kako traže tražilice - predavanje za CoolMath

17

Obrada upita

• ključne riječi, logički operatori

• pregled indeksa

• cilj: vratiti one stranice koje na neki način najbolje odgovaraju onome što je korisnik tražio

Page 18: Kako traže tražilice - predavanje za CoolMath

18

Rangiranje stranica

• "najbolji" rezultati na prvim mjestima

• način rangiranja se razlikuje od tražilice do tražilice

• postupci rangiranja se mijenjaju tijekom vremena

• Google koristi PageRank

Page 19: Kako traže tražilice - predavanje za CoolMath

19

The Anatomy of a Large-Scale Hypertextual Web Search Engine

Sergey Brin and Lawrence Page{sergey, page}@cs.stanford.edu

Computer Science Department, Stanford University, Stanford, CA 94305

• In this paper, we present Google, a prototype of a large-scale search engine which makes heavy use of the structure present in hypertext. Google is designed to crawl and index the Web efficiently and produce much more satisfying search results than existing systems. The prototype with a full text and hyperlink database of at least 24 million pages is available at http://google.stanford.edu/

Page 20: Kako traže tražilice - predavanje za CoolMath

20

http://infolab.stanford.edu/~backrub/google.html

Page 21: Kako traže tražilice - predavanje za CoolMath

21

PageRank

• algoritam za analizu povezanosti i nazvan je po Larryju Pageu. Na temelju ovog algoritma tražilica Google dodjeljuje numeričke vrijednosti (težine) svakom elementu skupa dokumenata međusobno povezanih poveznicama (hiperlinkovima).

Page 22: Kako traže tražilice - predavanje za CoolMath

22

PageRank / 2

• Svrha ovog algoritma je procjenijivanje relativne važnost pojedinog dokumenta u skupu. Algoritam se može primijeniti na bilo koji usmjereni graf. Numerička težina dodijeljena bilo kojem elementu E tog grafa se naziva PageRank od E i označava PR(E).

Page 23: Kako traže tražilice - predavanje za CoolMath

23

PageRank / 3

• Ime "PageRank" je zaštitni znak tvrtke Google, a postupak PageRank je patentiran (US Patent 6285999). Međutim, patent je dodijeljen Sveučilištu Stanford, a ne Googleu. Google je od Sveučilišta Stanford otkupio ekskluzivna prava na korištenje patenta. Zauzvrat je Sveučilište Stanford dobilo 1,8 milijuna dionica Googlea, a dionice su prodane 2005. za 336 milijuna dolara.

Page 24: Kako traže tražilice - predavanje za CoolMath

24

Vrijednost funkcije PageRank za jednostavnu mrežu

Page 25: Kako traže tražilice - predavanje za CoolMath

25

Tajna formula

Page 26: Kako traže tražilice - predavanje za CoolMath

26

Slučajna šetnja po Webu

• Šetač (surfer) na slučajan način odabire poveznicu na stranici i nastavlja šetnju. Kad mu dojadi, na slučajan način odabire posve novu polaznu stranicu.

Vjerojatnost da će slučajnišetač odabrati posve novupočetnu stranicu, jednaka je faktoru prigušenja d

Page 27: Kako traže tražilice - predavanje za CoolMath

27

Osnovni pojmovi

• Neka je u vrh u usmjerenom grafu G

• Fu skup vrhova u grafu G u koje ulazi neki luk iz G s početkom u vrhu u

• Bu skup vrhova u grafu Giz kojih izlazi neki luks krajem u vrhu u.

F u

B u

u

Page 28: Kako traže tražilice - predavanje za CoolMath

28

F uB u

u

Neka je uu FN i konstanta normiranja c

takva da je suma težina svih vrhova konstantna. Definiramo pojednostavnjeno rangiranje R:

uBv vN

vRcuR

)()(

Page 29: Kako traže tražilice - predavanje za CoolMath

29

Konačno - PageRank!

Neka je d faktor prigušenja (obično se

stavlja d=0.85), i neka je uu FN .

Definiramo funkciju PageRank PR:

uBv vN

vPRdduPR

)()1()(

Page 30: Kako traže tražilice - predavanje za CoolMath

30

Primjer 1

Matrica susjedstva:

0100

0001

0100

0110

A .

Težinska transponirana matrica susjedstva koja se koristi za PageRank:

0000

1012/1

0002/1

0100

TAB

Jednadžba za položaj slučajnog šetača (normirane težine nalaženja u pojedinim vrhovima - suma težina jednaka je broju vrhova)

wBdJdw 4)1(

3

1

4

2

Page 31: Kako traže tražilice - predavanje za CoolMath

31

0,425+0,15

0+0,15

0,425+0,85+0,1+0,15

0,85+0,15

C

A

D

B

1

11

0,425

0,425 0,85

0,85

0,85 1

Page 32: Kako traže tražilice - predavanje za CoolMath

32

0,425+0,15

0+0,15

0,425+0,489+0,128+0,15

1,934+0,15

C

A

D

B

2,275

0,5751

0,425

0,425 0,489

1,934

0,12

8 0,15

Page 33: Kako traže tražilice - predavanje za CoolMath

33

0,633+0,15

0+0,15

0,633+0,666+0,128+0,15

1,34+0,15

C

A

D

B

1,577

0,7831,49 0,633

0,633 0,666

1,340

0,12

8 0,15

Page 34: Kako traže tražilice - predavanje za CoolMath

34

Iteracija A B C D Suma

0 1,000 1,000 1,000 1,000 4,000

1 1,000 0,575 2,275 0,150 4,000

2 2,084 0,575 1,191 0,150 4,000

3 1,163 1,036 1,652 0,150 4,000

4 1,554 0,644 1,652 0,150 4,000

5 1,554 0,810 1,485 0,150 4,000

6 1,413 0,810 1,627 0,150 4,000

7 1,533 0,750 1,567 0,150 4,000

8 1,482 0,801 1,567 0,150 4,000

9 1,482 0,780 1,588 0,150 4,000

10 1,500 0,780 1,570 0,150 4,000

11 1,485 0,788 1,578 0,150 4,000

12 1,491 0,781 1,578 0,150 4,000

13 1,491 0,784 1,575 0,150 4,000

14 1,489 0,784 1,577 0,150 4,000

15 1,491 0,783 1,576 0,150 4,000

16 1,490 0,784 1,576 0,150 4,000

17 1,490 0,783 1,577 0,150 4,000

18 1,490 0,783 1,576 0,150 4,000

19 1,490 0,783 1,577 0,150 4,000

20 1,490 0,783 1,577 0,150 4,000

C

A

D

B

1,577

0,7831,49 0,633

0,633 0,666

1,340

0,12

8 0,15

Page 35: Kako traže tražilice - predavanje za CoolMath

35

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

PR(D)

PR(C)

PR(B)

PR(A)

C

A

D

B

1,577

0,7831,49 0,633

0,633 0,666

1,340

0,12

8 0,15

Page 36: Kako traže tražilice - predavanje za CoolMath

36

PageRank - Algoritam

Inicijalizacija:

Korak:

Uvjet zaustavljanja:

Ukupan broj svih stranica

Vjerojatnost da posjetitelj klikne na neki link na stranici

broj linkova na stranici

Skup svih stranica koje na sebi imaju link prema

Vjerojatnost da posjetitelj slučajno dođe na stranicu

Page 37: Kako traže tražilice - predavanje za CoolMath

37

PageRank nekih stranica

• The value of PageRank that we know is those that we can read from Google’s Toolbar. That value is a logarithmic representation of the real value. I will assume that the base of logarithm is 7 (the real value isn’t known).

Page 38: Kako traže tražilice - predavanje za CoolMath

38

• www.pmf.hr • www.ibm.com • www.facebook.com • www.petagimnazija.hr • www.pliva.hr • www.microsoft.com • www.24sata.hr

Page 39: Kako traže tražilice - predavanje za CoolMath

39

• www.facebook.com 10

• www.microsoft.com 9

• www.ibm.com 8

• www.pmf.hr 7

• www.24sata.hr 6

• www.pliva.hr 5

• www.petagimnazija.hr 4

Page 40: Kako traže tražilice - predavanje za CoolMath

40

Academic Search Engine Research• Aside from tremendous growth, the Web has also become

increasingly commercial over time. In 1993, 1.5% of web servers were on .com domains. This number grew to over 60% in 1997. At the same time, search engines have migrated from the academic domain to the commercial.

• Up until now most search engine development has gone on at companies with little publication of technical details.

• This causes search engine technology to remain largely a black art and to be advertising oriented (see Appendix A).

• With Google, we have a strong goal to push more development and understanding into the academic realm.

Page 41: Kako traže tražilice - predavanje za CoolMath

41

Akademska tražilica Istraživanja

• Osim ogroman rast, Web je također postaje sve komercijalne tijekom vremena. Godine 1993, 1,5% web poslužitelja su na. com domene. Ovaj broj je narasla na preko 60% u 1997. U isto vrijeme, tražilice su migrirali iz akademske domene komercijalni.Do sada je većina tražilica razvoj je otišao na na tvrtke s malo objavljivanja tehničkih detalja.To uzrokuje tražilice tehnologije da ostanu u velikoj mjeri crna magija i da se oglašavanje orijentirani (vidi Dodatak).Sa Google, imamo jake cilj gurnuti više razvoj i razumijevanje u akademsku domenu.

Page 42: Kako traže tražilice - predavanje za CoolMath

42

Upitnici ?

Page 43: Kako traže tražilice - predavanje za CoolMath

43

Nekoliko web lokacija

• http://hr.wikipedia.org/wiki/Tra%C5%BEilica• http://www.hitwise.com/us/datacenter/main/

dashboard-10133.html• http://en.wikipedia.org/wiki/PageRank• http://ilpubs.stanford.edu:8090/361/1/1998-8.pdf• http://www.wolframalpha.com• http://www.iwebtool.com/pagerank_checker

Page 44: Kako traže tražilice - predavanje za CoolMath

44

„CoolMath“ – Popularnomatematička predavanja

Kako traže tražilice

dr.sc. Goran IgalyPrirodoslovno-matematički fakultet

Matematički odsjek

2. ožujka 2011.