Máster en Sistemas Inteligentes

Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

1

Máster en Sistemas Inteligentes

Dr. José Luis Alonso BerrocalDr. Carlos G. Figuerola

Dr. Ángel Zazo

Grupo de investigación REINAUniversidad de Salamanca

http://reina.usal.es

Recuperación avanzada de la información

Sesión: 11-marzo-2009Aula F5 - Facultad de Ciencias

mailto:[email protected]

http://reina.usal.es/

Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

2

Recuperación avanzada de la información

Evaluación de la recuperación

Dr. Ángel Zazo

Grupo de investigación REINAUniversidad de Salamanca

http://reina.usal.es


http://reina.usal.es/

Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

3


Introducción


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

4


● Antes de la implementación final del sistema de recuperación de información es necesario evaluarlo para determinar si cumple con los objetivos establecidos

– El tipo de evaluación depende de los objetivos fijados

● Aspectos:

– El software cumple las especificaciones (análisis funcional)

– Recuperación de datos:● Velocidad, espacio de almacenamiento, búsqueda de datos,

interacción con el SO, retardos de redes de comunicación, capas del sistema informático, etc.

– Recuperación de información:● Las consultas suelen ser vagas e imprecisas, y los documentos

pueden tener un grado mayor o menor de pertinencia con la consulta


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

5


● En los sistemas de recuperación de información (SRI) la evaluación se lleva a cabo considerando:

– El propio sistema de recuperación

– Medidas de evaluación

– Una colección de pruebas● Un conjunto de documentos de prueba● Una serie de consultas de ejemplo● Un conjunto de documentos relevantes para esas consultas

proporcionados por especialistas

● Para una estrategia determinada del SRI, las medidas de evaluación cuantifican la coincidencia entre los documentos que devuelve el SRI y los documentos seleccionadospor los especialistas para las consultas de ejemplo


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

6


● Diferentes tipos de sistemas:

– Sistemas en batch: el sistema lanza automáticamente las consultas de ejemplo y obtiene los documentos recuperados, que luego son comparados, teniendo en cuentas las medidas de evaluación, con los documentos que los especialistas han marcado como relevantes

– Efectividad de la recuperación:● precisión, exhaustividad, ruido, silencio

● Problemas con la interpretación del concepto de relevancia:● juicios de relevancia

– Sistemas interactivos: velocidad de respuesta, presentación de la salida, interfaz de usuario, etc.


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

7


Medidas


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

8


● Medidas de precisión y exhaustividad


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

9

Evaluación de la recuperación: medidas

A)Medidas que suponen que se hanrevisado todos los documentospara una consulta dada:

– Precisión: fracción de documentos recuperadosque son relevantes:

– Exhaustividad: fracción de documentos relevantes que se hanrecuperado:

– Ruido: fracción de documentos recuperados queno son relevantes:

– Silencio: fracción de documentos relevantes que no se hanrecuperado:

∣c∣∣a∣

∣c∣∣b∣

∣a∣−∣c∣∣a∣

∣b∣−∣c∣∣b∣


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

10


B)Medidas que se van obteniendo según se van revisando los documentos recuperados para una consulta dada:

– Diagramas de precisión-exhaustividad (precision-recall, P-R)● Se interpola a 11 puntos (0%, 10%, 20%,..., 100%) de exhaustividad


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

11


● Ejemplo para una consulta dada:

– Supongamos una consulta que devuelve 20 documentos

– Para esa consulta sabemos que existen 16 documentos relevantes en toda la colección documental

(se ha indicado con un pequeño círculo los documentos recuperados que son relevantes)

● Precisión: 8 / 20 = 40%

● Exhaustividad: 8 / 16 = 50%


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

12


● Obtención del diagrama de precisión-exhaustividad

– Se revisan los documentos en el orden en que los devuelve el SRI, para determinar su precisión y exhaustividad

● El doc. 1 es relevante:● su P es 1/1 (100%)● su R es 1/16 (6,25%)

● El doc. 2 no es relevante:● su P es ½ (50%)● su R es 1/16 (6,25%)

● El doc. 3 es relevante:● su P es 2/3 (66,67%)● su R es 2/16 (12,50%)

● El doc. 4 no es relevante:● su P es 2/4 (50%)● su R es 2/16 (12,50%)

● etc.


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

13


● Diagrama (no interpolado) de precisión-exhaustividad

– Solo interesan los documentos relevantes recuperados: 1, 3, 7, 8, 11, 13, 14 y 19


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

14


● Diagrama interpolado de precisión-exhaustividad

– Objetivo: se interpola para poder realizar comparaciones con otros experimentos

– Se toma interpolación para 11 niveles estándar de exhaustividad:● 0%, 10%, 20% ... 100%

– La precisión en cada nivel se calcula como el máximo valor de precisión entre ese nivel y el siguiente:

Nivel n j , con j∈{0,1,2, ,10}P n j =max n jnn j1

P n


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

15


● Diagrama interpolado de precisión-exhaustividad


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

16


● Diagrama interpolado de precisión-exhaustividad para todoun experimento

– En el caso habitual de tener un sistema en batch con un conjunto de consultas de ejemplo {1, 2, ..., Nq}, se puede obtener un diagrama de todo el experimento sin más que promediar para cada uno de los 11 puntos de cada pregunta

Nivel n j , con j∈{0,1,2, ,10}

P n j=∑i=1

N q Pi n j

N q


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

17


● Precisión media no interpolada

– Se obtiene el promedio de la precisión no interpolada para una consulta dada

En el ejemplo es 0,2270 (27,70%)

– Cuando se tiene una amplia colección de consultas se promedian los valores:

● El promedio de la precisión media no interpolada sobre todas las consultas se abrevia como MAP (mean of the average precision)

● Cada tipo de experimento tiene sus medidas más representativas:

Por ejemplo, en recuperación robusta se ha comprobado que es mejor utilizar la media geométrica, no la aritmética, GMAP


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

18


● Precisión a ciertos documentos vistos

– Es un enfoque adicional que permite ver la calidad del algoritmo de ranking del sistema de recuperación en función del número de documentos recuperados

– Por ejemplo, se puede computar ese valor para 5, 10, 15, 20, 30, 50 y 100 documentos vistos (para cada consulta o para todo el experimento)


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

19


● R-Precisión

– Se trata de obtener la precisión una vez vistos un número de documentos igual al número de documentos relevantes para esa consulta

– Esta medida también proporciona información sobre la calidad del algoritmo de ranking

– En el ejemplo, la precisión después de ver 16 documentos tiene un valor de 43,75 (7/16) para la consulta dada.


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

20


● Tablas resumen

– Son tablas en las queaparecen los resultados,primero para cadaconsulta, y al final delfichero, los valorespromediados


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

21


● Medidas E y Fß de van Rijsbergen

– Son dos medidas introducidas por van Rijsbergen en 1979, que reúnen en una única medida los valores de precisión y exhaustividad.

● Fß es una medida no equilibrada (no balanceada) de la medida E,

y es muy utilizada en clasificación y categorización

Si ß > 1 se potencia la exahustividadSi ß < 1 se potencia la precisión


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

22

● Histogramas

– Se trata de obtener una comparativa entre dos sistemas utilizando los valores individualizados por consulta (p.e. MAP, GMAP, R-Precision, etc.)



Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

23


Colecciones de prueba


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

24

Evaluación de la recuperación: colecciones

● Colecciones de prueba

– Para evaluar un sistema de RI se utilizan colecciones de prueba perfectamente caracterizadas:

● Conjunto de documentos● Serie de consultas● Juicios de relevancia

– La evaluación de un sistema de recuperación consiste en comparar, para cada consulta de la colección de pruebas,

● los documentos que el sistema ha obtenido (documentos recuperados), y

● los documentos marcados como relevantes para esa consulta (documentos relevantes)


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

25


● Colecciones de prueba: hasta ~1990 (tomado de [SB88]):

Computer Science

Library Science

Aeronautics

Medicine

Elec. Engineering

Elec. Engineering& Comp. Science


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

26


● Colecciones de prueba: Ejemplo CACM


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

27


● Colecciones de prueba: después de 1990

– Conferencias importantes:● TREC (1992) [EEUU]

– Periódicos y agencia de noticias, registros federales, artículos científicos, patentes, registros del Congreso

– Principalmente en inglés, pero también en otros idiomas link

● NTCIR (1999) [Japón]

– Varias procedencias– Texto en japonés, inglés, chino, coreano, [a veces textos

paralelos en inglés] link

● CLEF (2000) [Europa]

– En general procedentes de periódicos y agencias de noticias– Multitud de idiomas link


http://trec.nist.gov/

http://trec.nist.gov/pubs/trec15/papers/OVERVIEW.pdf

http://research.nii.ac.jp/ntcir/index-en.html

http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings6/NTCIR/NTCIR6-PREFACE-NUM.pdf

http://www.clef-campaign.org/

http://ww.clef-campaign.org/2007/working_notes/petersCLEF07_intro.pdf

Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

28



– Colección EFE94:

Documento conmarcado SGML:


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

29



– Colección EFE94:

Consulta con marcado SGML:


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

30



– Colección propia (DTT):

Documentode ejemplo

Consultade ejemplo

<DOC><CLAVE>DTT001-156</CLAVE><TITULO>DBASE IV 1.5: MAS VELOZ Y FLEXIBLE</TITULO><RESUMEN>PROBABLEMENTE CUANDO LEA ESTE ARTICULO LA VERSION 1.5 DE DBASE IV QUE HOY PRESENTAMOS COMENZARA A COMERCIALIZARSE EN EL MERCADO ESPAÑOL. LA REVISTA OFRECE AL LECTOR, COMO IMPORTANRTE PRIMICIA, UN ANALISIS DETALLADO DE SUS NUEVAS CARACTERISTICAS, QUE NO SON POCAS. EL GIGANTE STANDAR DE LAS BASES DE DATOS PARA PC SE DESPEREZA, TAL VEZ AGUIJONEADO POR EL ESPIRITU BORLAND, Y SI SIGUE EN ESTA LINEA, YA PUEDE IRSE PREPARANDO LA COMPETENCIA.</RESUMEN><DESCRIPTORES>; BASES DE DATOS; INTERFACES; MS-DOS; BORLAND; DBASE</DESCRIPTORES></DOC>

<con><num> C003 </num><titulo> Las actividades de animación a la lectura y de expansión de la biblioteca infantil y juvenil </titulo></con>


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

31



– Para evaluar un sistema de RI se utilizan colecciones de prueba perfectamente caracterizadas:

● Conjunto de documentos● Serie de consultas● Juicios de relevancia


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

32



– Juicios de relevancia. Dos aspectos importantes:

● Criterios de relevancia:

– Uno de los problemas más importantes para crear una colección de pruebas es decidir el criterio para determinar los documentos relevantes para una determinada consulta

– ¿Juicios binarios (si/no) o diferente grado?

● Cobertura:

– Otro problema importante es obtener la relevancia de todos y cada uno de los documentos de la colección para todas y cada una de las consultas


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

33


● El concepto de relevancia

– Primeros trabajos formales en la escuela de Aeronáutica de Granfield (UK) por el grupo de Cleverdon:

● Granfield I [1957–1962] y Granfield II [1963–1966]● Se establecieron la metodología y herramientas para realizar la

evaluación:

– Colecciones documentales– Medidas de evaluación– Juicios de relevancia

● Sobre la interpretación de relevancia:

– Se realizó una prueba: partiendo de una consulta genérica, dos grupos decidieron sobre la relevancia de los documentos recuperados:

¡ no se pusieron de acuerdo !


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

34


● El concepto de relevancia

– Concepto estudiado desde los años 30. Dos puntos de vista:

– [CK66], [Sar75], [GD01] indican que hay dos tipos:● Relevancia subjetiva (user relevance): tiene en cuenta al usuario● Relevancia objetiva (stated relevance): solamente proporciona

información sobre el grado en que un documento se ajusta a una consulta partiendo de juicios preestablecidos [por ejemplo, por un experto]

– [Kor97] diferencia entre:● Pertinencia: media de cómo un documento se ajusta a la necesidad

informativa del usuario● Relevancia: medida de cómo se ajusta un documento a una

consulta


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

35


● Juicios de relevancia

– Se procura que los juicios de relevancia sean realizados por la mismas personas que crean la colección de consultas

– En general, desde hace 30 años se utilizan juicios binarios, en detrimento de la asignación de grados de relevancia:

● El documento es relevante si contiene algún pasaje de texto que el experto considere que responde la consulta

● No obstante, en alguna conferencia NTCIR se han aplicado grados para establecer juicios de relevancia


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

36


● Cobertura:

– Manual: (cobertura completa)● Los especialistas exploran manualmente todos los documentos

de la colección para determinar si son relevantes para una consulta dada

● En función del número de especialistas una consulta se considera relevante dependiendo del número de votos que haya obtenido

● Ventaja:

– Se exploran todos los documentos de la colección

● Inconveniente:

– Demasiado tiempo para colecciones de tamaño medio, imposible para colecciones grandes


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

37


● Cobertura

– Muestreo aleatorio:● Para colecciones grandes● Se toman muestras estadísticamente aceptables para una consulta

dada y los especialistas exploran manualmente esa muestra

● Ventaja:

– No se exploran todos los documentos de la colección

● Inconveniente:

– Puede que el tamaño requerido de la muestra sea demasiado grandes para su análisis manual


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

38


● Cobertura

– Pooling (encuesta):● Colecciones grandes y muy grandes (TREC, CLEF y NTCIR)● Para cada consulta se explora manualmente solo un conjunto

reducido de documentos (el pool)

– El pool se construye con los resultados que envían los participantes en esas conferencias (se toman los primeros 100 ó 200 documentos del ranking de cada experimento)

● Ventaja:

– No se exploran todos los documentos de la colección– Las colecciones creadas de esta manera proporcionan

resultados fiables, incluso si no se incluyen todos los documentos relevantes en el pool

● Inconveniente:

– Se requiere un número razonable de participantes


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

39


Experimentos:programa trec_eval


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

40

Evaluación de la recuperación: experimentos

● Programa “trec_eval”:

– Creado por Chris Buckley [http://trec.nist.gov/trec_eval/].

– Proporciona unas 85 medidas de evaluación. Las más utilizadas:● recall-precision curve● mean average precision (non interpolated)● R-Precision● MAP, mean of the R-Precision ● Average precision at document seen● Summary table statistics● Average precision histograms

– Necesita dos ficheros:● Fichero de documentos relevantes (trec_rel_file)● Fichero de documentos recuperados (trec_top_file)


http://trec.nist.gov/trec_eval/

Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

41


● Formato TREC_EVAL fichero relevancia:

– trec_rel_fileQid iter docno rel144 0 EFE19951213-07717 1144 0 EFE19951213-07718 0144 0 EFE19951213-07929 0144 0 EFE19951215-09298 0144 0 EFE19951215-09299 0144 0 EFE19951215-09640 0144 0 EFE19951218-11302 0144 0 EFE19951222-14110 0144 0 EFE19951226-15272 0144 0 EFE19951227-15829 0144 0 EFE19951229-17019 0145 0 EFE19940107-02525 1145 0 EFE19940110-03604 0145 0 EFE19940110-04152 0145 0 EFE19940110-04154 0145 0 EFE19940117-07706 0145 0 EFE19940119-09139 0145 0 EFE19940120-09873 0145 0 EFE19940120-09984 0145 0 EFE19940122-11248 0145 0 EFE19940127-14218 0


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

42


● Formato TREC_EVAL fichero recuperados:

– trec_top_file: qid iter docno rank sim run_id144 Q0 EFE19940614-08734 0 0.017277 dnu-ntc144 Q0 EFE19951213-07717 1 0.017243 dnu-ntc144 Q0 EFE19951122-15026 2 0.015545 dnu-ntc144 Q0 EFE19940207-03787 3 0.014380 dnu-ntc144 Q0 EFE19950424-13644 4 0.014367 dnu-ntc144 Q0 EFE19950613-08213 5 0.014154 dnu-ntc144 Q0 EFE19950309-05837 6 0.014083 dnu-ntc144 Q0 EFE19950616-10873 7 0.014036 dnu-ntc144 Q0 EFE19951010-06448 8 0.013734 dnu-ntc144 Q0 EFE19950401-00303 9 0.013709 dnu-ntc144 Q0 EFE19950310-06845 10 0.013321 dnu-ntc144 Q0 EFE19950801-00277 11 0.013300 dnu-ntc144 Q0 EFE19950709-05372 12 0.013228 dnu-ntc144 Q0 EFE19951018-12036 13 0.013139 dnu-ntc144 Q0 EFE19950523-15513 14 0.013102 dnu-ntc144 Q0 EFE19940816-07799 15 0.012876 dnu-ntc144 Q0 EFE19951002-00752 16 0.012747 dnu-ntc144 Q0 EFE19950523-15112 17 0.012700 dnu-ntc144 Q0 EFE19950728-18084 18 0.012454 dnu-ntc144 Q0 EFE19950602-01327 19 0.012191 dnu-ntc144 Q0 EFE19940422-12686 20 0.012121 dnu-ntc......


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

43


● Salida programa “trec_eval”:

user:~$ trec_eval -q trec_rel_file trec_top_file

(formato actual para una consulta) num_ret 143 1000num_rel 143 144num_rel_ret 143 143map 143 0.4763R-prec 143 0.5000bpref 143 0.9931recip_rank 143 1.0000ircl_prn.0.00 143 1.0000ircl_prn.0.10 143 0.5862ircl_prn.0.20 143 0.5636ircl_prn.0.30 143 0.5556ircl_prn.0.40 143 0.5147ircl_prn.0.50 143 0.5034ircl_prn.0.60 143 0.4627ircl_prn.0.70 143 0.4440ircl_prn.0.80 143 0.4286ircl_prn.0.90 143 0.3523ircl_prn.1.00 143 0.0000P5 143 0.6000P10 143 0.5000P15 143 0.4667P20 143 0.5000P30 143 0.5667P100 143 0.5300P200 143 0.4600P500 143 0.2780P1000 143 0.1430


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

44



user:~$ trec_eval -q -o trec_rel_file trec_top_file

(formato antiguo) Queryid (Num): 141Total number of documents over all queries Retrieved: 1000 Relevant: 13 Rel_ret: 13Interpolated Recall - Precision Averages: at 0.00 1.0000 at 0.10 1.0000 at 0.20 1.0000 at 0.30 1.0000 at 0.40 1.0000 at 0.50 1.0000 at 0.60 1.0000 at 0.70 1.0000 at 0.80 1.0000 at 0.90 0.4286 at 1.00 0.0657Average precision (non-interpolated) for all rel docs(averaged over queries) 0.8842Precision: At 5 docs: 1.0000 At 10 docs: 1.0000 At 15 docs: 0.7333 At 20 docs: 0.5500 At 30 docs: 0.4000 At 100 docs: 0.1200 At 200 docs: 0.0650 At 500 docs: 0.0260 At 1000 docs: 0.0130R-Precision (precision after R (= num_rel for a query) docs retrieved): Exact: 0.8462


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

45



user:~$ trec_eval trec_rel_file trec_top_file

(para todas las consultas) num_q all 57num_ret all 57000num_rel all 2368num_rel_ret all 2225map all 0.4679gm_ap all 0.3500R-prec all 0.4596bpref all 0.9393recip_rank all 0.8015ircl_prn.0.00 all 0.8187ircl_prn.0.10 all 0.7231ircl_prn.0.20 all 0.6492ircl_prn.0.30 all 0.5827ircl_prn.0.40 all 0.5471ircl_prn.0.50 all 0.5087ircl_prn.0.60 all 0.4403ircl_prn.0.70 all 0.3577ircl_prn.0.80 all 0.3006ircl_prn.0.90 all 0.2220ircl_prn.1.00 all 0.1233P5 all 0.6000P10 all 0.5368P15 all 0.4713P20 all 0.4281P30 all 0.3743P100 all 0.2333P200 all 0.1468P500 all 0.0728P1000 all 0.0390


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

46

Experimentos

● Consideraciones:

– Disponer de la colección de pruebas● Documentos, consultas y juicios de relevancia

– Disponer de un sistema de recuperación de información● Determinar los campos que serán utilizados para la indización● Determinar el procesado de texto:

– Análisis del texto (tokenización)● Separadores de palabras, caracteres de puntuación,

acentos, números, sintagmas y grupos nominales, almacenamiento de los tokens

– Eliminación de palabras vacías, muy frecuentes y muy poco frecuentes

– Aplicar lematización– Selección de términos– Utilización de tesauros


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

47

Experimentos

● Consideraciones (cont.):

– Realizar diferentes experimentos:● Variaciones en la tokenización● Palabras vacías, muy frecuentes y muy poco frecuentes● Aplicar diferentes mecanismos de lematización● Aplicar diferentes mecanismos de selección de términos● Aplicar expansión de consultas● etc.

– Comparar los resultados:● Programa trec_eval


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

48

Bibliografía

● Conferencias:

– Cross-Language Evaluation Forum (CLEF).

– TExt Retrieval Conferences (TREC).

– NII-NACSIS Test Collection for IR Systems (NTCIR).

– ACM Special Interesting Group in Information Retrieval (ACM-SIGIR).

● Referencias:

– Ricardo Baeza-Yates y Berthier Ribeiro-Neto. “Modern Information Retrieval”. Addison-Wesley, Harlow, England (1999).

– Cyril W Cleverdon, J. Mills y E.M. Keen. “Factors determining the performance of indexing systems. Volume I: Design)”. College of Aeronautics. Granfield, England (1966).

– Cyril W Cleverdon y E.M. Keen. “Factors determining the performance of indexing systems. Volume II: Test Results”. College of Aeronautics. Granfield, England (1966).

– A.C. Cuadra y R.V. Katter. Opening the block box of relevance. Journal of Documentation 23(4), 291–303 (1967).

– Cyril W Cleverdon. The Cranfield test of index language devices. Aslib Proceedings 19, 173–192 (1967).

– Raquel Gomez Díaz. “Estudio de la incidencia del conocimiento lingüístico en los Sistemas de Recuperación de la Información para el Español. Tesis doctoral. Universidad de Salamanca (2001).


Mást

er

en

Sis

tem

as

Inte

lig

en

tes

– R

ecuper

ació

n a

vanza

da

de

la info

rmac

ión

Curs

o 2

008/0

9 -

Auto

r: Á

ngel

Zaz

o <

zazo

@usa

l.es

>

49

Bibliografía

● Referencias (cont.):

– Robert R. Korfhage. “Information Storage and Retrieval”. John Wiley & Sons, Inc., New York [etc.] (1997).

– Martin Braschler. CLEF 2001 - Overview of results. LNCS 2406, páginas 9–26 (2002).– Karen Spack Jones y C.J. Van Rijsbergen. “Report on the Need for and Provision of an

”Ideal”Information Retrieval Test Collection”. British Library Research and Development Report 5266, Computer Laboratory, University of Cambridge (1975).

– Jean M. Tague-Sutcliffe. Some perspectives on the evaluation of information retrieval systems. Journal of the American Society for Information Science 47(1), 1–3 (1996).

– Gerard Salton y Chris Buckley. Term-weighting approaches in automatic text retrieval. Information Processing & Management 24(5), 513–523 (1988).

– Chris Buckley. trec eval IR evaluation package. Available from http://trec.nist.gov/trec_eval/.


Documents

Máster en Sistemas Inteligentes