Análise Tópica de Links para busca na Web Lucas Augusto Scotta Merlo [email protected]

Análise Tópica de Análise Tópica de Links para busca Links para busca na Webna WebLucas Augusto Scotta [email protected]

Seminário de Recuperação da Informação

2

Agenda• Introdução

• Web

• Método Tradicional de Ranking• PageRank

• Melhoramento dos métodos de ranking• Topical PageRank

• Implementação e Resultados

• Comparação

• Conclusão


3

Introdução

• Usuário necessita informação.• Solução: Máquinas de busca. Ranking de páginas.

• Muitos dados na Web• Desafios novos para a recuperar a informação.

• Web Mundial: + 10 bilhões de páginas.(2006)• Brasil: + de 4 milhões de páginas registradas no

domínio .br (2004)

• Padrão da Web auxilia: estrutura de links.


4

Métodos Tradicionais de Ranking• PageRank

• Desenvolvido pelos fundadores do Google em 1998 para prover um ranking nos resultados da busca.

• Baseado na estrutura de links da Web. Toda página tem um número de links de saída e links de entrada.

• Algoritmo de análise de ligação que atribui uma pesagem numérica a cada página da Web, com o propósito de "medir" sua importância relativa dentro deste conjunto.


5

PageRank

• Uma página X tem um alto ranking se:

- Tenha muitos links de entrada;

- Tenha links de entrada com ranking alto;

A

B C

))(

)((*()1()(

:

ijj jO

jPRddiPR )


6

Melhoramento dos modelos de ranking Incorporar distribuição tópica na representação de cada

página da Web como também a contagem de importância de cada página.

Vetor content Cu:[C(u1),C(u2),..., C(uT)] Distribuição de probabilidade que representa o

conteúdo de u, na qual cada componente representa a contribuição relativa de cada tópico dentro do conteúdo de u para o conteúdo de u como um todo. Este vetor é estático e somente determinado pelo conteúdo.


7

Melhoramento dos modelos de ranking Vetor de autoridade Au:[A(u1),A(u2),...,

A(uT)]: atribui para cada página u um vetor

para medir sua importância, onde A(uk) denota página u's importantes para contagem do tópico k.


8

Topical PageRank

Assume além da analise de links de entrada e saída proposto pelo PageRank a análise de transições para se chegar a uma página desejada(probabilidades condicionais).

1ª) follow-stay 2ª) follow-jump 3ª) jump-jump


9

Topical PageRank

Depois que a propagação converge, cada componente A(ui) no vetor de autoridade Au:[A(u1),A(u2),..., A(uT)] é a contagem de autoridade de página u em tópico i. A(u) é o contagem global de autoridade. Pode-se dizer então que a distribuição de autoridade de uma página não só depende de seu conteúdo, mas também das heranças de suas páginas de transições.

)()(

)()()1()()1()(

:i

uvv

iii uC

N

d

vO

vAvCvAduA


10

Implementação e Resultados

Utiliza-se grafos. (Nó = página e Aresta = Link) C/C++. Base arquivo “grafo.txt”. Principais Funções “Insere”, “busca_link”, “PageRank” e

“TopicalPageRank”.

Insere: recebe como parâmetro um ponteiro do tipo da estrutura da lista ligada e um inteiro. Nesta função se aloca a lista ligada na memória. Os dados são inseridos pelo início e ela retorna a lista atualizada.

Busca_link: é passada a lista já atualizada e um vetor vazio para se armazenar os links (entrada ou saída) do nó X. Foi criado vetores adicionais (links_entradas) e (links_saidas) para armazenarem a lista de nós de entra e saída respectivamente para cada Nó, alocando este vetor lista na memória.


11


Função PageRank, que é calculada conforme:

PR(A) é o PageRank da página A, PR(Ti) é o PageRank de páginas Ti que tem um link para a página

A, C(Ti) é o número de links de saída em uma página Ti e d é um fator damping (que afeta) 0,85

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))


12


Função Topical PageRank, que é calculada conforme: ui-> Nó vi -> Nó alpha=0.85; d=0.15; A(v) = 1 / N A(vi) = A(v) / N

A Autoridade do Nó (ui) = (1 –d) * Somatório das Páginas V que tem entrada para U ( (alpha * Autoridade A(vi) +

( 1 - alpha ) * o PR do Nó (vi) * Autoridade de ( v)) / Número de Links de saída de v ) + d/N * o PR do Nó (ui)


13


Lista simplesmente ligada

insere(&links_saidas[num_vertice_origem]->prox,num_vertice_destino);

insere(&links_entradas[num_vertice_destino]->prox,num_vertice_origem);


14

Telas 0

1

3

4

2


15


16

Comparação

Artigo base: Análise de Páginas. TREC.GOV2003. 20 consultas diferentes.

Classificador ingênuo de Bayes para gerar Cu:[ ]

Melhoria proposta funciona muito bem. Melhor performance que PageRank.

Artigo desenvolvido: Análise em grafo.

Nó = página e Aresta = Link 10 grafos para testes.

Melhor eficiência que PageRank por fazer uma análise global dos dados com o auxilio do vetor “content = PR(c)” e da Autoridade medida de cada página, e analisando as transições para se chegar a uma página desejada.

Diferencia melhor os resultado


17

Conclusão

A melhoria de PageRank (Topical PageRank) demonstrou que mesmo com o avanço que o Google trouxe em 1998 com seu método de ranking para páginas da Web, existem outras formas eficazes para chegar ao melhor resultado como combinar a distribuição de tópicos e estrutura de links.

Incorporarou-se este modelo tópico dentro de PageRank sem afetar a contagem da autoridade global, e ainda prover uma distribuição da autoridade entre tópicos.


18

Referências

Brin, S., Page, L. (1998) “The anatomy of a large-scale hypertextual Web search engine”, Em: Proc. of the 7th Int’l World Wide Web Conf., pages 107–117, Brisbane,Australia.

Zaiane, Osmar R.. (2000) “WEB Mining: Concepts, Practices and Research”. Em: Simpósio Brasileiro de Banco de Dados, Tutorial, XV SBBD, 2000, João Pessoa.Anais João Pessoa: SBBD, 2000. p. 410-474.

Nie, L., Davison B., Qi, X.,( 2006) Topical Link Analysis for Web Search. Em Proceedings of the 29th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, Seattle, WA. p. 91-98.

“Mean Average Precision” – Disponível em <http://www.itl.nist.gov/iad/894.02/works/presentations/spie99/tsld016.htm>.Acessado em 25 de julho de 2007.

Jones, K S., Wesley, S., Robertson, S.E. (1998) “A probabilistic model of information retrieval : development and comparative experiments” Em: Information Processing and Management.

S. Buttcher, C.L.A. Clarke. (2005)“Efficiency vs. Effectiveness in Terabyte-Scale Information Retrieval”. Em: The Fourteenth Text REtrieval Conference (TREC 2005) Proceedings. University of Waterloo.

“Rainbow: text classification tool.” – Disponível em <http://www.cs.umass.edu/~mccallum/bow/rainbow/>.Acessado em 25 de julho de 2007.


19

Obrigado!!!

Documents

Análise Tópica de Links para busca na Web Lucas Augusto Scotta Merlo [email protected]