Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

Preview:

DESCRIPTION

Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web. Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos Alunos: André Porto Letícia Santos Marcelo Henrique. WEB. Grande quantidade de informação não-estruturada. - PowerPoint PPT Presentation

Citation preview

Aplicações dos Modelos de Aplicações dos Modelos de Recuperação da Informação na Recuperação da Informação na Extração de Conteúdos na WebExtração de Conteúdos na Web

Metodologia de Ciência da ComputaçãoProfessora: Odette Mestrinho Passos

Alunos:André PortoLetícia SantosMarcelo Henrique

WEBWEB

• Grande quantidade de informação não-

estruturada.

• Necessidade do usuário filtrar informações

relevantes.

• Bancos de Dados para várias funções.

• Importância dos sistemas

• IETS

• CRF (estado-da-arte)

WEBWEB

Fundamentação teóricaFundamentação teórica

DefiniçãoSistemas que lidam com representação,

armazenamento,organização e acesso as informações.

ObjetivoEncontrar objetos de diferentes tipos de

estruturas que satisfacam um conjunto de informações dentro de uma grande coleção.

ModelosModelos

VetorialBooleano

Probabilístico

Modelo vetorialModelo vetorial

• Representação como vetores de termos

• A cada termo é possível associar um peso:• TF : caracterisitcas em comum• IDF : distinguir

• O termo cos(q) determina a proximidade da ocorrência.

• Similar: mesma região

Modelo booleanoModelo booleano

• Baseado na teoria dos conjuntos

• Cada documento está associado a um conjunto de palavras-

chave

• Cada consulta é na forma de uma expressão booleana.

• Termos de índice na combinação especificada pela

consulta.

Modelo probabilísticoModelo probabilístico

• Probabilidade de relevância ou incerteza

• Pesar dinamicamente os termos da consulta em relação ao

documento

• Termos relevantes já obtidos recebem peso maior dos que

não apareceram nos documentos relevantes.

AplicaçõesAplicações

Web semântica

AplicaçõesAplicações

ONDUXOn Demand Unsupervised Extraction

• Método baseado em Recuparação de Informação para realizar tarefas de EIST.

• Sem fase de treinamento ajustada por usuários.

• Possibilidade de criação de modelos não específicos.

• Obteve resultados iguais ou melhores.

ONDUX

Três fases principais:

ONDUX

ONDUX

Coroado R$100,900 1010 Novo Lar.;

3 quartos 2 Banheiros 8199-7654

Coroado R$100,000

1010 Rua Novo Lar.; 3 quartos;

2 banheiros.

8199-7654

Blocking

ONDUX

B0

Matching

Coroado R$100,00 1010 Novo Lar

3 Quartos 2 Banheiros 8199-7654

Rua Preço No. ??? Rua

Qtos. Banh. Telefone

B1 B2 B3 B4

B5 B6 B7

ONDUX

Coroado R$100,00 1010 Novo Lar

3 Quartos 2 Banheiros 8199-7654

Rua Preço No. ???? Rua

Qtos. Banh. Telefone

Reinforcement

Coroado R$100,00 1010 Novo Lar

3 Quartos 2 Banheiros 8199-7654

Bairro Preço No Rua

Qtos. Banh. Telefone

Dúvidas?Dúvidas?

Obrigado!

Recommended