Upload
internet
View
113
Download
0
Embed Size (px)
Citation preview
Agentes na InternetAgentes na Internet
Patrícia Nunes PereiraPatrícia Nunes PereiraProfessor: Geber RamalhoProfessor: Geber Ramalho
TópicosTópicos MotivaçãoMotivação IntroduçãoIntrodução Categorias de AgentesCategorias de Agentes Foco: Filtragem de InformaçãoFoco: Filtragem de Informação
IR - Recuperação de InformaçãoIR - Recuperação de Informação Categorização de TextosCategorização de Textos ExemplosExemplos
DiscussãoDiscussão Referências e LinksReferências e Links
MotivaçãoMotivação
Rápido crescimento do volume de informações Rápido crescimento do volume de informações disponível na Internetdisponível na Internet
Dificuldade em localizar documentos relevantesDificuldade em localizar documentos relevantes Alto consumo de tempoAlto consumo de tempo Síndrome da Nau perdidaSíndrome da Nau perdida
TOO MUCH INFORMATION = NO INFORMATIONTOO MUCH INFORMATION = NO INFORMATION
IntroduçãoIntrodução
Bum da Internet: Bum da Internet: Grande volume de informação, diversificada, não Grande volume de informação, diversificada, não
estruturada, multilíngue, ...estruturada, multilíngue, ...
Agentes inteligentes na Internet:Agentes inteligentes na Internet:Automatizar a busca e recuperação de informaçõesAutomatizar a busca e recuperação de informações
Categorias de AgentesCategorias de Agentes
Agentes de BuscaAgentes de Busca Agentes que Filtram InformaçãoAgentes que Filtram Informação Agentes de Entrega Off-lineAgentes de Entrega Off-line Agentes de NotificadoresAgentes de Notificadores Agentes de Comércio na WebAgentes de Comércio na Web ChatterbotsChatterbots ......
Agentes de BuscaAgentes de Busca
Servidor de Consultas
)--(
Base deÍndices
Robô
Browser
Consulta
Resposta
Search Engine
Usuário
Indexing EngineBusca
WebWeb
Agentes de BuscaAgentes de Busca
Atributos: Precisão X RecallAtributos: Precisão X Recall Características:Características:
Esforço consciente para encontrar informaçãoEsforço consciente para encontrar informação Entrada: palavras chaveEntrada: palavras chave Descarta links menos relevantes Descarta links menos relevantes Não há garantia da qualidade da informaçãoNão há garantia da qualidade da informação
Vários exemplos (robot-based):Vários exemplos (robot-based): WebCrawler, Lycos, Altavista,...WebCrawler, Lycos, Altavista,...
Agentes que Filtram InformaçãoAgentes que Filtram Informação
Servidor News
ArtigosIndexados
Browser
Agente de Filtragem
Perfil dousuário
IndexingEngine InternetInternet
Filtragem de InformaçãoFiltragem de Informação RI + Interesses do usuário = Informação RelevanteRI + Interesses do usuário = Informação Relevante Perfil do usuário: Estático ou DinâmicoPerfil do usuário: Estático ou Dinâmico Problemas: Problemas:
Indexação;Indexação; Linguagem Natural: resolução de fenômenos lingüísticosLinguagem Natural: resolução de fenômenos lingüísticos
Sinonímia (R=Gerador de sinônimos)Sinonímia (R=Gerador de sinônimos) Polisemia (R=Indexação por significado)Polisemia (R=Indexação por significado)
Objetivo: Evitar a perda de documentos relevantes e a Objetivo: Evitar a perda de documentos relevantes e a
recuperação de documentos irrelevantes!recuperação de documentos irrelevantes!
Filtragem de InformaçãoFiltragem de Informação
Tentativa de resolver parcialmente os problemas Tentativa de resolver parcialmente os problemas associados à recuperação de informação dos associados à recuperação de informação dos keyword-based systems.keyword-based systems.
Características:Características: Extração dos conceitos salientes do conjunto de Extração dos conceitos salientes do conjunto de
documentosdocumentos Aprendizado do perfil do usuárioAprendizado do perfil do usuário
Filtragem de InformaçãoFiltragem de Informação (Extração de Conceitos salientes em Documentos)(Extração de Conceitos salientes em Documentos)
Abordagem PLN: Sumarização de Documentos Abordagem PLN: Sumarização de Documentos Formato particular Formato particular Self-Consuming Self-Consuming Heurísticas de freqüência das palavras:Heurísticas de freqüência das palavras:
TFIDF -TFIDF -
Associa pesos às palavrasAssocia pesos às palavras
TFIDF(w) = TF(w) * (LOG(|D|) - LOG(DF(W)))TFIDF(w) = TF(w) * (LOG(|D|) - LOG(DF(W))) HT ParadigmHT Paradigm
Sumarização Hierárquica Sumarização Hierárquica Solução para Polisemia Solução para Polisemia
Categorização de TextosCategorização de Textos
Tarefa bastante custosa, se manualTarefa bastante custosa, se manual Aplicação do domínio de MLAplicação do domínio de ML Categorias pré-definidasCategorias pré-definidas Suporte à IRSuporte à IR
Rápido crescimento de informações textuais na Rápido crescimento de informações textuais na Web Web Necessidade de processamento Necessidade de processamento
Abordagem ML para classificação: Abordagem ML para classificação:
Usa indução sobre amostras pré-classificadasUsa indução sobre amostras pré-classificadas
Categorização de TextosCategorização de Textos Visão unificada:Visão unificada:
Categ. Textos = ML + IR + Conhec. AdicionalCateg. Textos = ML + IR + Conhec. Adicional
Texto inicial
Categorização Indução
Conhecimento Adicional
Representação Inicial
Redutor de Dimensãoou
Seleção de Características
Representação Final
Categorização de TextosCategorização de TextosConstrução indutiva de categorizadoresConstrução indutiva de categorizadores
TextosTextos Exemplos para aprendizagemExemplos para aprendizagem Aprendizado: Aprendizado:
Numérico (maioria)- Numérico (maioria)- Ex.: Redes Neurais, Classificadores Probabilísticos, Ex.: Redes Neurais, Classificadores Probabilísticos,
Regressão Linear, ...Regressão Linear, ...
Simbólico - ID3, Espaço de Versões, ...Simbólico - ID3, Espaço de Versões, ... Características a serem consideradas:Características a serem consideradas:
modularidade, inteligibilidade, resistência a ruídos,...modularidade, inteligibilidade, resistência a ruídos,...
Categorização de TextosCategorização de TextosImpacto do conhecimentoImpacto do conhecimento
Três faces:Três faces: IR e Aprendizagem Numérica: extraído dos dadosIR e Aprendizagem Numérica: extraído dos dados Conhecimento do Domínio: aplicação específicaConhecimento do Domínio: aplicação específica Raciocínio Indutivo: fonte de conhecimentoRaciocínio Indutivo: fonte de conhecimento
Conhecimento para:Conhecimento para: Gerar indexaçãoGerar indexação Agrupar categoriasAgrupar categorias Discriminar candidatas a palavras-chaveDiscriminar candidatas a palavras-chave
Filtragem de Informação Filtragem de Informação ExemplosExemplos
BORGES BORGES (A. F. SMEATON, 1996)(A. F. SMEATON, 1996) Usuário precisa especificar palavras ou frases Usuário precisa especificar palavras ou frases
descrevendo suas necessidades de informaçãodescrevendo suas necessidades de informação Oferece solução para Polisemia - WordNetOferece solução para Polisemia - WordNet Extensão do perfil do usuário com os termos Extensão do perfil do usuário com os termos
relacionados ao significado sem ambigüidaderelacionados ao significado sem ambigüidade
Filtragem de informaçãoFiltragem de informaçãoExemplosExemplos
WebWatcher (WebWatcher 1996)WebWatcher (WebWatcher 1996) Usuário identifica palavras-chaveUsuário identifica palavras-chave Duas páginas estão relacionadas se há uma Duas páginas estão relacionadas se há uma
terceira página que aponta para elasterceira página que aponta para elas Medida de similaridade:Medida de similaridade: mutual informationmutual information
Filtragem de informaçãoFiltragem de informaçãoExemplosExemplos
LAW (Bayer 1995)LAW (Bayer 1995) Monitora ações do usuário para distinguir Monitora ações do usuário para distinguir
documentos relevantesdocumentos relevantes Monta o perfil do usuárioMonta o perfil do usuário Robô autônomo busca por documentos Robô autônomo busca por documentos
relevantes relevantes Sugere links interativamente Sugere links interativamente
Filtragem de InformaçãoFiltragem de InformaçãoExemplos - CríticaExemplos - Crítica
Focam no aprendizado do perfil do usuárioFocam no aprendizado do perfil do usuário Baseados no modelo espaço-vetorialBaseados no modelo espaço-vetorial Não há muitas considerações sobre técnicas de Não há muitas considerações sobre técnicas de
PLN extensivasPLN extensivas Virtualmente impossível isolar informações Virtualmente impossível isolar informações
relevantesrelevantes
Filtragem de InformaçãoFiltragem de InformaçãoExemplo Exemplo
SAMURAI SAMURAI (H. Leong, S. Kapur, O de Vel, 1997)(H. Leong, S. Kapur, O de Vel, 1997) Módulos: Módulos:
Sumarização de Texto Sumarização de Texto Monitoração e Modelagem do usuárioMonitoração e Modelagem do usuário Search Engine = Web Search + Perfil do UsuárioSearch Engine = Web Search + Perfil do Usuário Filtragem de links irrelevantesFiltragem de links irrelevantes Compilação dos resultadosCompilação dos resultados
DiscussãoDiscussão
O que é um Agente “inteligente”?O que é um Agente “inteligente”? Qual o futuro dos Agentes no mundo real?Qual o futuro dos Agentes no mundo real?
LinksLinks http://www.ece.curtin.edu.au/~saounb/bargainbot/http://www.ece.curtin.edu.au/~saounb/bargainbot/
articles.htmlarticles.html http://www.firefly.comhttp://www.firefly.com http://www.sics.pe/ps/abc/survey.htmlhttp://www.sics.pe/ps/abc/survey.html http://www.dsv.su.se/~fk/if_Doc/IntFilter.htmlhttp://www.dsv.su.se/~fk/if_Doc/IntFilter.html http://www.lcs.media.mit.edu/groups/agents/http://www.lcs.media.mit.edu/groups/agents/
resources.htmlresources.html http://www.cs.umbc.edu/agentshttp://www.cs.umbc.edu/agents http://www.iit.nrc.ca/bibliographies/ml-applied-to-ir.htmlhttp://www.iit.nrc.ca/bibliographies/ml-applied-to-ir.html
ReferênciasReferências [1] Gleaning Information from the Web: Using Syntax to [1] Gleaning Information from the Web: Using Syntax to
Filter out Irrelevant Information, R.Chandrasekar e B. Filter out Irrelevant Information, R.Chandrasekar e B. Srinivas, University of Pennsylvania, Philadelphia, PA Srinivas, University of Pennsylvania, Philadelphia, PA 19104, 1997;19104, 1997;
[2] Text Summarisation for Knowledge Filtering Agents in [2] Text Summarisation for Knowledge Filtering Agents in Distributed Heterogenous Enviroments, H. Leong, S. Distributed Heterogenous Enviroments, H. Leong, S. Kapur, O de Vel, James Cook, University of North Kapur, O de Vel, James Cook, University of North Queensaland, Austrália, 1997;Queensaland, Austrália, 1997;
[3]A Framework for Comparing Text categorization [3]A Framework for Comparing Text categorization Approaches, Isabelle Moulinier, LAFORIA-IBP-CNRS, Approaches, Isabelle Moulinier, LAFORIA-IBP-CNRS, Université Paris VI, France, 1997Université Paris VI, France, 1997
ReferênciasReferências [4]Agent Sourcebook, Alper K., Cagland e colin G. [4]Agent Sourcebook, Alper K., Cagland e colin G.
harrison;harrison; [5] Internet Agents, Fah-Chun Cheong, MIT Media-[5] Internet Agents, Fah-Chun Cheong, MIT Media-
Laboratory, Cambridge, MA, 1994;Laboratory, Cambridge, MA, 1994; [6]Learning and revision User Profiles:[6]Learning and revision User Profiles: The Identification of Interesting Web Sites, Michael , The Identification of Interesting Web Sites, Michael ,
Pazzani, Daniel Billsus, University of California, Irvine, Pazzani, Daniel Billsus, University of California, Irvine, Irvine, CA 92697, 1997Irvine, CA 92697, 1997
[7] Learning Information Retrieval Agents: Experiments [7] Learning Information Retrieval Agents: Experiments with Automated web Browsing, Marko balabanovic e Yoav with Automated web Browsing, Marko balabanovic e Yoav Sholan, Stanford University, 1995Sholan, Stanford University, 1995