Upload
vanhanh
View
219
Download
0
Embed Size (px)
Citation preview
RECUPERACIÓN DE INFORMACIÓN
Benemérita Universidad Autónoma de Puebla
Facultad de Ciencias de la Computación
INFORMACIÓN
Introducción
Arturo Olvera L.Otoño 2017
MODELADO
� Proceso complejo � Función Ranking� Representación Ranking � Docs. / Query� Definición de la función Ranking
� Fundamental: Index� Es un término/palabra que tiene cierto significado
By A. Olvera
� Es un término/palabra que tiene cierto significado� Generalmente: Una palabra en un documento
� Utilidad:
� Eficiencia� Simplicidad en búsqueda� Esfuerzo mínimo para formular una consulta 34
IR MODELS
� Fundamental la representación:� Documentos� Puede ser un subconjunto de términos sin stopword
By A. Olvera
� Consulta� Puede ser un super conjunto de términos adicionado con sinónimos
36
IR MODELS
� Fundamentalmente, IR � Texto, pero:
By A. Olvera
� Diferentes:� Modelos � Representaciones� Métodos, etc 38
CONCEPTOS
� Un documento se representa por una serie de palabras representativas� términos índice (index terms)
� Index term� palabra o grupo de éstas (consecutivas) en un
By A. Olvera
� Index term� palabra o grupo de éstas (consecutivas) en un documento
� El contenido de un documento puede resumirse con un conjunto de términos índice
� Full representation: todos las palabras son términos índice 41
CONCEPTOS
� Los documentos y consultas pueden representarse por patrones de co-ocurrencias de términos
By A. Olvera
� Cada patrón es un componente conjuntivo de término c(q) respecto a una consulta
� c(q) ���� fundamentalmente: Bolsa de palabras
43
BOOLEAN MODEL
� Basado en teoría de conjuntos y algebra booleana
� Las consultas se especifican como expresiones booleanas:� Poco intuitivas� Por ejemplo:
� Los valores en la matriz de términos son binarios
By A. Olvera
� Los valores en la matriz de términos son binarios
47
BOOLEAN
� Similaridad de un documento respecto a una consulta:
By A. Olvera
� El modelo booleano predice:
� Relevante� No relevante
50
DRAWBACKS
� La recuperación no toma en cuenta el matching específico
� No proporciona como tal un ranking
By A. Olvera
� Se debe traducir la información a expresiones booleanas
� Las consultas devuelven:� Muy pocos resultados� Muchos resultados
51
TERM WEIGHTING
� No todos los términos son de utilidad para la descripción del documento
� Existen términos cuya aportación no es clara
� Considerar propiedades que faciliten la evaluación de la importancia del
By A. Olvera
la evaluación de la importancia del documento:
� Aparición de palabra(s) con alta frecuencia
53
TERM WEIGHTING
� Es útil asociar pesos a cada término en el documento
� En particular cada peso cuantifica la importancia del índice para describir el documento
By A. Olvera
� Cuándo ???
� Estos pesos pueden considerarse para �
54
TERM-TERM CORRELATION MATRIX
� En general, los pesos de los índices se consideran mutuamente independientes:� wi,j no implica nada acerca de wi+1,j
� Pero, suele existir correlación de términos:� Ejemplo: los términos computer y network suelen aparecer juntos en documentos referentes a computer
By A. Olvera
aparecer juntos en documentos referentes a computernetworks
� Esta correlación impacta sus respectivos pesos
� Term-termcorrelation 59
TF-IDF WEIGHTS
� Involucra:� TF (Term Frequency)� IDF (Inverse Document Frequency)
� Esquema muy usado para ponderado de términos en RI
By A. Olvera
� Se basa en la suposición de Luhn:
63
INVERSE DOCUMENT FREQUENCY
� Document Exhaustivity (DE): the number of index terms assigned to a document
� La probabilidad de recuperar un documento e proporcional a DE
� Term Specificity(TS):
By A. Olvera
� Suele considerarse Statistical term specificity:
� El inverso del número de documentos en que aparece un término
67
INVERSE DOCUMENT FREQUENCY
By A. Olvera
� IDF suele utilizarse como base para llevar a cabo el ranking 68
TF-IDF PROPERTIES
By A. Olvera
� Ambas métricas balancean una a la otra
� TF-IDF� pesos relevantes para ranking:� “la facultad de” � en varios documentos puede aparecer “la” aunque no sean relevantes
� Se compensa este tipo de caso ??
75
DOCUMENT NORMALIZATION
� Tamaño del documento
� Gran tamaño�mayor prob. de recuperación
� Necesario normalizar � Considerar tamaño mayor
� De acuerdo a la representación:
By A. Olvera
77
DOCUMENT NORMALIZATION� Documento representado de manera vectorial� vector de pesos ponderados
By A. Olvera
78
VECTOR MODEL
� Los modelos booleano y ponderado son un poco limitados
� Modelo vectorial� Puede tenerse correspondencia parcial
� En este modelo, es necesario:
By A. Olvera
81
VECTOR MODEL
� Los pesos son de tipo TF-IDF
By A. Olvera
� Ecuaciones aplicables a valores de frecuencia>0
� En caso contrario: el respectivo peso=0
83
VECTOR MODEL
� Ventajas??� La recuperación se asemeja a la consulta� Se hace el Rank de acuerdo al grado de similitud� Representación más adecuada respecto a las anteriores
By A. Olvera
� Desventajas??� Independencia entre términos
86
PROBABILISTIC MODEL
� Modela la RI en términos probabilistas
� Dada una consulta� Existe un conjunto ideal de respuestas
� Características del conjunto ideal ?
By A. Olvera
� Pocos documentos le serán interesantes al usuario� 10, 20
� Característica que puede tomarse en cuenta
� Probabilidad
88
PROBABILISTIC MODEL
By A. Olvera
� Cómo calcular estas probabilidades?
� Cuál es la muestra a considerar?
89