21
Avaliações Conjuntas: Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Embed Size (px)

Citation preview

Page 1: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Avaliações Conjuntas:Visão Geral

Alexsandro Santos Soares

Projecto Processamento Computacional do PortuguêsSINTEF Telecom and Informatics

Page 2: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 2

O que é avaliação conjunta?

• Compara os resultados de vários sistemas participantes usando:– Tarefas de controle iguais ou similares;– Mesma coleção de dados;– Mesmas métricas.

• Todos os itens acima são baseados em concordância prévia entre os participantes.

Page 3: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 3

Objetivos

• Encorajar a pesquisa baseada em dados reais;• Aumentar a comunicação entre a indústria, a academia e o

governo através da criação de um fórum aberto de discussões;• Acelerar a transferência de tecnologia entre os laboratórios de

pesquisa e os produtos comerciais pela comprovação de melhorias substanciais em metodologias aplicadas a problemas reais;

• Disponibilização de técnicas e recursos de avaliação comuns para uso industrial ou acadêmico, incluindo o desenvolvimento de novas técnicas mais adequadas aos sistemas atuais.

Page 4: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 4

Elementos da avaliação conjunta

• Tarefa de controle é a função que os sistemas participantes realizam durante a avaliação juntamente com as condições sob as quais ela deve ser realizada.

• Requisitos genéricos para a tarefa de controle:– Pode ser facilmente realizada por um operador humano;– Não precisa ser identificada com a funcionalidade específica de

um componente numa arquitetura de PLN;• Requisitos genéricos para as métricas:

– Deve existir concordância em um formalismo de referência comum a todos os participantes;

– As métricas devem ser diretas e de fácil entendimento.

Page 5: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 5

Fases da Avaliação Conjunta

Participantes: pesquisa, indústria e governo

Organização: governo, pesquisa e indústria

Tarefas de controleMétricasColeção de teste

Treinamento

Ensaio

Avaliação

Resultados

Artigos

Conferência

Page 6: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 6

Evolução

AvaliaçãoConjunta

Tarefas

Métricas

Coleção

Discussãosobre

metodologia

Tarefas

MétricasNovaAvaliaçãoConjunta

Coleção- Treinamento- Teste- Respostas certas

Page 7: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 7

Tipos de avaliação em geral

• Avaliação de pesquisa básica– Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a

outros métodos.

• Avaliação de tecnologia– Medir a performance e a adequação de uma tecnologia na resolução de um

problema bem definido, simplificado e abstraido.

• Avaliação de uso– Medir a usabilidade de uma tecnologia na resolução de um problema real.

• Avaliação de impacto– Avaliação de consequências sócio-econômicas de uma tecnologia.

• Avaliação de programa– Determinar quanto de benefício um programa de financiamento trouxe para uma

dada tecnologia.

Page 8: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 8

Avaliações conjuntas realizadas

• ATIS• MUC• TREC• SUMMAC• DUC• CLEF

• ARC• GRACE• Morpholympics• Senseval/Romanseval• Parseval• NTCIR

http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html

Page 9: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 9

ATIS - Air Travel Information System

• Duração: de 1989 a 1995.• Tarefa: Responder a perguntas faladas pelo usuário sobre

determinado domínio (Informação sobre linhas aéreas). • Com a intenção de criar uma medida repetível em um sistema de

trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados.

• A portabilidade dos sistemas de compreensão de línguas não avaliada.– Não estava claro como desenvolver ferramentas robustas que

permitiriam a rápida construção destes tipos de sistemas em novos domínios

Page 10: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 10

MUC - Message Understanding Conference

• Duração: 1987 a 1998.• Tarefa: Simulação de um analista do serviço de inteligência

procurando informações a respeito de um tópico particular.– Ex: Atividades terroristas nas Américas.

• Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas.

• Avaliação baseada em preenchimento de gabaritos (templates)– Identificação de entidades citadas: pessoa, organização, localização, tempo, data,

percentuais e expressões monetárias.– Template elements: uma lista de entidades com seus atributos associados, tais

como formas alternativas de um nome.– Identificação de coreferência: ligar as várias menções da mesma entidade.

Page 11: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 11

TREC - Text REtrieval Conference

• Início: 1992 • Tarefas principais:

– Routing: Mesmas questões perguntadas a uma base de dados dinâmica.– Ad hoc: Novas questões são perguntadas a uma base de dados estática.

• Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos:– Contendo entre 500.000 e 1.000.000 de documentos completos– Formado principalmente de textos jornalísticos e de agências de

notícias. – Também possui documentos oficiais e resumos de artigos sobre

computação.

Page 12: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 12

Julgamentos de Relevância nas TRECs

• Método de pooling:– Os participantes enviam para cada tópico uma lista contendo os

100 primeiros documentos encontrados, ordenados por relevância.– Reúne-se por tópico todas as respostas enviadas e remove-se as

duplicações.– Cada lista resultante por tópico é levada para um analista humano

para que este decida sobre a relevância de tais documentos para o tópico em questão.

• A lista final do método de pooling será considerada a resposta correta.

Page 13: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 13

SUMMAC - TIPSTER Text Summarization Evaluation

• Início: 1997• Tarefas principais:

– Ad hoc• Criação de sumários indicativos e focados no usuário para um tópico

particular. • Determinar se estes sumários são efetivos na determinação da relevância de

texto fonte completo para um dado tópico.– Categorização

• Criação de sumários genéricos• Determinar se estes sumários são efetivos na captura de qualquer

informação no documento fonte que permita corretamente categorizar este documento.

• Os dados usados são das TRECs.

Page 14: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 14

DUC - Document Understanding Conference

• Início: 2001• Tarefas principais:

– Sumário individual: Produzir um resumo de 100 palavras para cada documento;

– Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”.

• Os dados utilizados vieram da TREC-9 (question-answering track).

Page 15: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 15

Criação de Sumários por Humanos

400

200

10050

Documentos

Sumários individuais

Sumários coletivos

A B

C

D

E

F

A: Ler os documentos em papel.

B: Criar um sumário de 100 palavras para cada documento usando a perspectiva do autor do documento.

C: Criar um sumário de 400 palavras a partir de um conjuntode 10 documentos escritos na forma de um relatório paraum leitor adulto de jornais.

D,E,F: Recortar, colar e reformular para reduzir o tamanhodo sumário pela metade.

Traduzido de http://www-nlpir.nist.gov/projects/duc/duc2001/pauls_slides/sld008.htm

Page 16: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 16

CLEF - Cross-Language Evaluation Forum

• Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000.

• Objetivos:– Auxiliar a avaliação de sistemas em recuperação translinguística de

informação (cross-language retrieval)– Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação

monolíngue de informação (não baseada no Inglês).– Atrair mais participantes europeus para este tipo de tarefa de avaliação

• A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis)

• Possui uma organização distribuída com os vários grupos participantes fornecendo o conhecimento para cada língua individualmente.

Page 17: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 17

ARC - Actions de Recherche Concertées

• Início: 1994• Possui 7 tarefas de controle organizadas como segue:

– Linguística, Informática e Corpora escritos (ILEC)• Recuperação de Informação• Alinhamento de corpus bi e multilíngues• Construção automática de terminologia e de relações semânticas a partir de corpora• Compreensão de textos

– Linguística, Informática e Corpora orais (ILOR)• Ditado vocal• Diálogo oral• Síntese de fala

• Cada tarefa de controle possui a mesma estrutura organizacional– Um avaliador encarregado do gerenciamento, um comitê científico cujos membros

são os participantes, um ou mais fornecedores de corpus e os participantes.

Page 18: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 18

GRACE - Grammaires & Ressources pour les Analyseurs de Corpus & leur Évaluation

• Início: 1995• Objetivos iniciais:

– Etiquetadores morfossintáticos para o francês;– Analisadores sintáticos para francês (abandonado)

• Corpus de treinamento– Tamanho em torno de 10 milhões de palavras;– Distribuido entre trabalhos literários e artigos jornalísticos.

Page 19: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 19

Senseval/Romanseval

• Início: 1998• A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito

a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas.• A meta do Romanseval é similar a do Senseval mas voltada para línguas

românicas (francês e italiano).• Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco,

basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês.– Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra

de textos.– Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no

contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias.– Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma

outra língua.

Page 20: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 20

Parseval

• A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação.

• A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica.

• A avaliação separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes.

• A disponibilidade de dados cria um padrão de facto e assim os pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas.

Page 21: Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002 SINTEF 21

NTCIR - NII-NACSIS Test Collection for IR Systems

• Início: 1998• Projetado para fomentar a pesquisa em recuperação de

informação e outras tecnologias de processamento de texto (sumarização e extração) para o japonês e outras línguas asiáticas.

• Fortemente baseada no modelo das TRECs• Tarefas:

– Recuperação de informação em textos em chinês.– Recuperação de informação em textos em japonês e inglês.– Sumarização de textos: sumarização de artigos japoneses de vários

tipos