32
Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

Embed Size (px)

Citation preview

Page 1: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição

Joaquim MacedoDepartamento de Informática

Escola de Engenharia

Page 2: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

2

Sumário

1. Introdução & Motivação2. Contribuições da tese3. Arquitectura do Webtrieve4. Concretização do Webtrieve5. Sobreposição6. Fusão de Resultados7. Selecção de BDs8. Conclusões e Trabalho Futuro

Page 3: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

3

Introdução & Motivação A utilização dum motor de busca faz ja parte

do nosso quotidiano...várias vezes por dia! A popularidade dos MB traduz-se no

aumento significativo de utilizadores & recursos (nº,diversidade)

A solução distribuída é mais escalável, menos dispendiosa e por vezes a única possível

Há muito trabalho feito e por fazer... Esta tese pretende ser uma contribuição

Page 4: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

4

Contexto da tese

BDTK

BDT2

BDT1

EI

BDTN

BDT distribuída

Cliente

Espaços de Informação

Page 5: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

5

Replicação em RI distribuída

BD2

EI

Cliente

BD1

BD centralizada virtual

Espaço de Informação 1 Espaço de Informação 2

Estática vs DinâmicaCoordenada e Não Coordenada

Transparênciada

Replicação

Page 6: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

6

Hipótese colocada Se a sobreposição entre as diferentes

BDTs num sistema de busca distribuída for usada como parâmetro dos algoritmos de fusão de resultados e selecção de BDs...

... consegue-se melhorar a eficácia da resposta devolvida ao utilizador.

Page 7: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

7

Contribuições da tese Arquitectura para recuperação distribuída de

informação concretizada num protótipo [ADL00] Estratégias de estimação da sobreposição [TR01] Informação de sobreposição usada em

Algoritmo de fusão com melhoria de eficácia [ECDL00]

Algoritmo de selecção com melhoria da eficácia [TR01]

Referência de base para avaliar a selecção, considerando a sobreposição [TR01]

Page 8: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

8

Arquitectura do Webtrieve

EIcliente clientepor lotes

BD1 BD2 BDk BDm

AlocadorDS DS DSWWW

Colecção deDocumentosrobot

Page 9: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

9

Encaminhador de Interrogações

ClienteRemoto

Selectorde BDs

EngenhoFusão

Sumáriosdas BDs

Cache

ClienteBD1

ClienteBD2

ClienteBDk

ClienteBDm

I I1

I2

Ik

R|Rc|Rs

R

R1

R2

Rk

Rs

Rc

R

Informação de sobreposição

R1

R2

Rk

Page 10: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

10

Alocador de documentos Simular distribuição e replicação

não coordenada em ambiente Laboratorial

Alocação aleatória com replicação Parâmetro de replicação (o)

relacionado com número de cópias o-1p , 1

1

1

N

i i

qp

Page 11: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

11

Avaliação de desempenho

Webtrieve

Gerador de Actualizações

Cliente por lotes

ColecçõesTREC Curvas de Actualização

TópicosTREC

Avaliação daEficácia

Avaliaçãode eficiência

Documentos

Curvas de tráfego

Juízos de Relevância

TRECRespostas

Curvas deEficiência

Curvas de Precisão e Cobertura

Logs actualização

Page 12: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

12

Concretização do Webtrieve Baseado no Modelo do Espaço Vectorial Interface de interrogação STARTS Suporte apenas da língua inglesa Utilização do Java

JavaCC para reconhecedores Abordagem dual para o Dicionário de Termos

Suporte para actualizações incrementais Módulo de avaliação alinhada com o TREC Módulo inicial de avaliação da eficiência

(HPROF)

Page 13: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

13

Ciclo de vida duma fonte

Início Colectado Reconhecido Alocado

InvertidoIntercalado

Dicionário

Sumarizado A correr

Avaliado

Fim

robot extractor alocador(cria N fontes filhos)

pára

pára

inversor(com N sumários de filhos) intercalad

or

inversor

Espera sumários

loader

loader

arrancar servidores

clientes a lotes + avaliador

sumarizador

Page 14: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

14

Módulos Webtrieve

allocator Alocador de documentos com replicação basic Classes básicas: texto, fonte, etc... textdb Dicionário de Termos, buckets, chunks eval Classes para avaliação, cliente por lotes metadata Manipulação da meta-informação broker Encaminhador de interrogações fusion Fusão de resultados engine Motor de busca parser Reconhecedores TREC e HTML inversion Inversão, intercalação

results ResultSet, Documento starts Código STARTS, SOIF, HTTP

stop Eliminação de palavras comuns stem Radicalizadores summarizer Sumarizador de BDs

loader Carregador do Dicionário e da meta-informação

Page 15: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

15

Dicionário de Termos

Gestor doDicionário

Gestor deBuckets

Gestor deChunks

Listas deOcorrência em

memória Ficheiro deBuckets

Ficheiro deChunks

Actualização

Pedido de Listade ocorrência

Listas de ocorrência

curtas

Listas de ocorrência

longas

Page 16: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

16

Fusão de Resultados: o problema

XuRXF

F

XuRXf

XXXXXX

iii

jiN

,:

global )(ordenação pontuação de função uma Encontrar

,:

X osubconjunt cada

para definidas ,f )(ordenação pontuação de funções de conjunto Um

0|| , ...

ssobrepostoou

disjuntos ossubconjuntpor composto objectos de conjunto um Dado

i

i

21

Page 17: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

17

Fusão de Resultados: métodos existentes

RI centralizado (eq.100% sobreposição) Motivação: estratégias de RI diferentes

para aumentar a eficácia Várias lógicas de fusão: SUM, MAX, MIN, ...

RI distribuído (~ 0% sobreposição) Motivação: transparência da distribuição

(Sistema RI centralizado ) Várias lógicas de fusão: intercalação

simples ou ponderada

Page 18: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

18

Fusão de Resultados: método proposto

Nível de sobreposição esperado: 0-100 % Itens duplicados usados como pontos de referência Comparabilidade de funções de pontuação

Motivação aumentar a eficácia usando a informação de

sobreposição Estratégia utilizada

Respostas sobrepostas por nível descrescente de sobreposição Lógica convencional de fusão para itens duplicados Aproximação linear para itens únicos

Intercalação de resultados disjuntos

Page 19: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

19

Comparação das lógicas

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

C

P

Central

Max-S

Max-W

Med-S

Med-W

Som-S

Som-W

Min-S

Min-W

Page 20: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

20

Comparação das lógicas

00,050,1

0,150,2

0,250,3

0,350,4

0,450,5

5 10 15 20 30 100 200 500 1000

Nº Documentos

Pre

cisã

o

Central

Max-S

Max-W

Med-S

Med-W

Som-S

Som-W

Min-S

Min-W

Page 21: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

21

Selecção de BDTs: o problema Problema: dada uma interrogação I que

pretende n documentos como resposta e N Bases de Dados com documentos

Seleccionar as l (l<<N) BDs com os n documentos mais relevantes

Determinar quantos documentos ri devem ser devolvidos por cada BDi tal que se obtenha um total de n.

Page 22: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

22

Selecção de BTDs: abordagem utilizada Proposto um método de selecção baseado no MEV

Pressuposto: termos distribuem-se pelos documentos da colecção de acordo com distribuição normal cuja média e desvio padrão são exportados nos sumários

Resultados comparáveis a outros algoritmos da literatura É necessária mais informação e avaliação exaustiva

Avaliação da utilização da informação de sobreposição usando um método de selecção bem conhecido na literatura (CORI)

Resultados encorajadores mesmo usando estimação de sobreposição estática

Page 23: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

23

Selecção de BDTs: Métricas • Métricas utilizadas

• Precisão • Cobertura ou Recall • Cobertura alternativa ou• n - nº de BDs interrogadas

• Referências de base• RBR (Relevance Based Ranking)• SBR (Size Based Ranking)

• Referência de base proposta• ORBR (Overlapping Relevance Based Ranking)

)( nP)( nC _

)( nC)( nR _

)( nR

Page 24: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

24

CORI: Precisão

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77

Nº BDTs

Pn com sobreposição

Pn

Page 25: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

25

CORI: Recall

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77

Nº de BDTs

Rn com sobreposição

Rn

Page 26: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

26

CORI: Recall alternativo

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77

R'n com sobreposição

R'n óptima

R'n

Page 27: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

27

Conclusões Bancada Webtrieve

Sistema completo para recuperação distribuída da informação textual

Concretização de um protótipo em Java Hipótese comprovada

Propostos novos algoritmos de fusão e selecção que usam informação de sobreposição

obtenção de melhoria da eficácia mesmo com estimação grosseira da sobreposição

dinâmica na selecção (usando a sobreposição estática).

Page 28: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

28

Sobreposição Variações da sobreposição

estática < 1% dinâmica de 20% A sobreposição estática

Útil em casos extremos para aumentar eficiência na fusão

Usada como parâmetro na selecção Amostra aleatória das diferentes BDTs

Permite estimação da sobreposição dinâmica Custos partilhados com expansão de

interrogações

Page 29: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

29

Fusão de Resultados Sem as estatísticas de ocorrência dos termos

da interrogação nos documentos devolvidos pelas diferentes BDTs

Não é possível repontuação dos documentos em tempo útil

Utilização de documentos replicados como pontos de referência

Melhorias de 30% eficácia da fusão relativamente às lógicas convencionais

Melhoram com aumento de sobreposição Pioram com número de BDTs

Page 30: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

30

Selecção de BDTs Algoritmo baseado na distribuição normal dos

termos pelos documentos Resultados da ordem de grandeza dos usados

convencionalmente Sumários exportados com mais informação

Utilização da informação de Sobreposição Reformulação de métricas de avaliação para

considerar a sobreposição (ORBR) Melhoria não significativa da eficácia em algoritmo

bem conhecidos (CORI) Selecção depende mais da variância da sobreposição

do que sua média

Page 31: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

31

Trabalho Futuro

Passo decisivo: interpretação e processamento do vídeo

Abordada apenas a eficácia dos sistemas de RI distribuída...Falta: Expansão de interrogações, realimentação

de relevância Utilização da meta-informação para redução

do espaço pesquisa Utilização do XML

Page 32: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

32

Trabalho Futuro Migração para o Web

Concretização dum Robot WWW para larga escala

Cliente WWW mais amigável Interface WWW para gestão Utilização das hiperligações na RI distribuída

Alocação e Replicação Técnicas de alocação e replicação baseadas

no conteúdo Replicação para balanceamento de carga e

tolerância a faltas