Kako traže tražilice - predavanje za CoolMath

1

2

Sadržaj predavanja• Osnovni pojmovi• Uloga tražilica na webu• O čemu neću govoriti• Način rada tražilice• Rangiranje web stranica• Članak iz 1998.• PageRank• Računanje PageRanka• Primjeri• Umjesto zaključka

3

World Wide Web

• Jedna od najkorištenijih usluga Interneta koja omogućava dohvaćanje hipertekstualnih dokumenata

• Dokumenti mogu sadržavati tekst, slike i multimedijalne sadržaje a međusobno su povezani hiperlinkovima

4

www (2)

• Za dohvaćanje i prikaz sadržaja koriste se računalni programi koji senazivaju web-preglednici

(browser).• Web se često pogrešno koristi kao sinonim

za Internet, a zapravo predstavlja jednu uslugu kojom se ostvaruje razmjena podataka preko te svjetske računalne mreže.

5

Što je tražilica?

• Web lokacija koja služi za pronalaženje informacija pohranjenih na drugim Web lokacijama. Informacije mogu biti Web stranice, slike i ostale vrste datoteka.

6

Što je tražilica ? (2)

• Za razliku od Web imenika koje održavaju urednici (ljudi), internetske tražilice djeluju po određenom algoritmu ili su kombinacija algoritma i ljudskog upisa

7

• Preglednici • Tražilice

8

Tri puta kojima posjetitelji dolaze na web stranice

9

10

Najpopularnije tražilice(veljača 2011.)

11

12

13

O čemu neću danas govoriti

14

• mrežna usluga koja odgovara na upite izravno ili računanjem odgovora na temelju strukturiranih podataka

• tražilice na upit odgovaraju pružanjem popisa dokumenata ili web stranica na kojima bi mogao biti odgovor na upit

• pokretač Stephen Wolfram, u javnost puštena 15. svibnja 2009.

• prema Popular Science, WA je bila najveća računalna inovacija u 2009.godini.

15

Način rada tražilice

• Prikupljanje sadržaja (crawling)

• Indeksiranje

• Pretraživanje

16

Prikupljanje sadržaja (crawling) i indeksiranje

• crawler, spider - automatizirani web preglednik koji slijedi svaku poveznicu na stranici

• analiza i utvrđivanje kako treba indeksirati pojedine riječi

• indeksiranje

17

Obrada upita

• ključne riječi, logički operatori

• pregled indeksa

• cilj: vratiti one stranice koje na neki način najbolje odgovaraju onome što je korisnik tražio

18

Rangiranje stranica

• "najbolji" rezultati na prvim mjestima

• način rangiranja se razlikuje od tražilice do tražilice

• postupci rangiranja se mijenjaju tijekom vremena

• Google koristi PageRank

19

The Anatomy of a Large-Scale Hypertextual Web Search Engine

Sergey Brin and Lawrence Page{sergey, page}@cs.stanford.edu

Computer Science Department, Stanford University, Stanford, CA 94305

• In this paper, we present Google, a prototype of a large-scale search engine which makes heavy use of the structure present in hypertext. Google is designed to crawl and index the Web efficiently and produce much more satisfying search results than existing systems. The prototype with a full text and hyperlink database of at least 24 million pages is available at http://google.stanford.edu/

20

http://infolab.stanford.edu/~backrub/google.html

21

PageRank

• algoritam za analizu povezanosti i nazvan je po Larryju Pageu. Na temelju ovog algoritma tražilica Google dodjeljuje numeričke vrijednosti (težine) svakom elementu skupa dokumenata međusobno povezanih poveznicama (hiperlinkovima).

22

PageRank / 2

• Svrha ovog algoritma je procjenijivanje relativne važnost pojedinog dokumenta u skupu. Algoritam se može primijeniti na bilo koji usmjereni graf. Numerička težina dodijeljena bilo kojem elementu E tog grafa se naziva PageRank od E i označava PR(E).

23

PageRank / 3

• Ime "PageRank" je zaštitni znak tvrtke Google, a postupak PageRank je patentiran (US Patent 6285999). Međutim, patent je dodijeljen Sveučilištu Stanford, a ne Googleu. Google je od Sveučilišta Stanford otkupio ekskluzivna prava na korištenje patenta. Zauzvrat je Sveučilište Stanford dobilo 1,8 milijuna dionica Googlea, a dionice su prodane 2005. za 336 milijuna dolara.

24

Vrijednost funkcije PageRank za jednostavnu mrežu

25

Tajna formula

26

Slučajna šetnja po Webu

• Šetač (surfer) na slučajan način odabire poveznicu na stranici i nastavlja šetnju. Kad mu dojadi, na slučajan način odabire posve novu polaznu stranicu.

Vjerojatnost da će slučajnišetač odabrati posve novupočetnu stranicu, jednaka je faktoru prigušenja d

27

Osnovni pojmovi

• Neka je u vrh u usmjerenom grafu G

• Fu skup vrhova u grafu G u koje ulazi neki luk iz G s početkom u vrhu u

• Bu skup vrhova u grafu Giz kojih izlazi neki luks krajem u vrhu u.

F u

B u

u

28

F uB u

u

Neka je uu FN i konstanta normiranja c

takva da je suma težina svih vrhova konstantna. Definiramo pojednostavnjeno rangiranje R:

uBv vN

vRcuR

)()(

29

Konačno - PageRank!

Neka je d faktor prigušenja (obično se

stavlja d=0.85), i neka je uu FN .

Definiramo funkciju PageRank PR:

uBv vN

vPRdduPR

)()1()(

30

Primjer 1

Matrica susjedstva:

0100

0001

0100

0110

A .

Težinska transponirana matrica susjedstva koja se koristi za PageRank:

0000

1012/1

0002/1

0100

TAB

Jednadžba za položaj slučajnog šetača (normirane težine nalaženja u pojedinim vrhovima - suma težina jednaka je broju vrhova)

wBdJdw 4)1(

3

1

4

2

31

0,425+0,15

0+0,15

0,425+0,85+0,1+0,15

0,85+0,15

C

A

D

B

1

11

0,425

0,425 0,85

0,85

0,85 1

32

0,425+0,15

0+0,15

0,425+0,489+0,128+0,15

1,934+0,15

C

A

D

B

2,275

0,5751

0,425

0,425 0,489

1,934

0,12

8 0,15

33

0,633+0,15

0+0,15

0,633+0,666+0,128+0,15

1,34+0,15

C

A

D

B

1,577

0,7831,49 0,633

0,633 0,666

1,340

0,12

8 0,15

34

Iteracija A B C D Suma

0 1,000 1,000 1,000 1,000 4,000

1 1,000 0,575 2,275 0,150 4,000

2 2,084 0,575 1,191 0,150 4,000

3 1,163 1,036 1,652 0,150 4,000

4 1,554 0,644 1,652 0,150 4,000

5 1,554 0,810 1,485 0,150 4,000

6 1,413 0,810 1,627 0,150 4,000

7 1,533 0,750 1,567 0,150 4,000

8 1,482 0,801 1,567 0,150 4,000

9 1,482 0,780 1,588 0,150 4,000

10 1,500 0,780 1,570 0,150 4,000

11 1,485 0,788 1,578 0,150 4,000

12 1,491 0,781 1,578 0,150 4,000

13 1,491 0,784 1,575 0,150 4,000

14 1,489 0,784 1,577 0,150 4,000

15 1,491 0,783 1,576 0,150 4,000

16 1,490 0,784 1,576 0,150 4,000

17 1,490 0,783 1,577 0,150 4,000

18 1,490 0,783 1,576 0,150 4,000

19 1,490 0,783 1,577 0,150 4,000

20 1,490 0,783 1,577 0,150 4,000

C

A

D

B

1,577

0,7831,49 0,633

0,633 0,666

1,340

0,12

8 0,15

35

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

PR(D)

PR(C)

PR(B)

PR(A)

C

A

D

B

1,577

0,7831,49 0,633

0,633 0,666

1,340

0,12

8 0,15

36

PageRank - Algoritam

Inicijalizacija:

Korak:

Uvjet zaustavljanja:

Ukupan broj svih stranica

Vjerojatnost da posjetitelj klikne na neki link na stranici

broj linkova na stranici

Skup svih stranica koje na sebi imaju link prema

Vjerojatnost da posjetitelj slučajno dođe na stranicu

37

PageRank nekih stranica

• The value of PageRank that we know is those that we can read from Google’s Toolbar. That value is a logarithmic representation of the real value. I will assume that the base of logarithm is 7 (the real value isn’t known).

38

• www.pmf.hr • www.ibm.com • www.facebook.com • www.petagimnazija.hr • www.pliva.hr • www.microsoft.com • www.24sata.hr

39

• www.facebook.com 10

• www.microsoft.com 9

• www.ibm.com 8

• www.pmf.hr 7

• www.24sata.hr 6

• www.pliva.hr 5

• www.petagimnazija.hr 4

40

Academic Search Engine Research• Aside from tremendous growth, the Web has also become

increasingly commercial over time. In 1993, 1.5% of web servers were on .com domains. This number grew to over 60% in 1997. At the same time, search engines have migrated from the academic domain to the commercial.

• Up until now most search engine development has gone on at companies with little publication of technical details.

• This causes search engine technology to remain largely a black art and to be advertising oriented (see Appendix A).

• With Google, we have a strong goal to push more development and understanding into the academic realm.

41

Akademska tražilica Istraživanja

• Osim ogroman rast, Web je također postaje sve komercijalne tijekom vremena. Godine 1993, 1,5% web poslužitelja su na. com domene. Ovaj broj je narasla na preko 60% u 1997. U isto vrijeme, tražilice su migrirali iz akademske domene komercijalni.Do sada je većina tražilica razvoj je otišao na na tvrtke s malo objavljivanja tehničkih detalja.To uzrokuje tražilice tehnologije da ostanu u velikoj mjeri crna magija i da se oglašavanje orijentirani (vidi Dodatak).Sa Google, imamo jake cilj gurnuti više razvoj i razumijevanje u akademsku domenu.

42

Upitnici ?

43

Nekoliko web lokacija

• http://hr.wikipedia.org/wiki/Tra%C5%BEilica• http://www.hitwise.com/us/datacenter/main/

dashboard-10133.html• http://en.wikipedia.org/wiki/PageRank• http://ilpubs.stanford.edu:8090/361/1/1998-8.pdf• http://www.wolframalpha.com• http://www.iwebtool.com/pagerank_checker

44

„CoolMath“ – Popularnomatematička predavanja

Kako traže tražilice

dr.sc. Goran IgalyPrirodoslovno-matematički fakultet

Matematički odsjek

2. ožujka 2011.

Education

Kako traže tražilice - predavanje za CoolMath