View
216
Download
0
Category
Preview:
Citation preview
Información no EstructuradaMC Beatriz Beltrán Martínez
Primavera 2015
Clasificación de la Información• La vida actual requiere de mucha información y
normalmente la información la podemos encontrar principalmente en:• Bibliotecas (es posible consultar sus catálogos en
Internet y la información en si misma).• Organismos de gobierno y no gubernamentales.• Expertos en el campo que estudiamos (muy útiles
para aclarar la estructura y las relaciones del tema que investigamos).• Sistemas comerciales de bases de datos como
EBSCO o Dialog
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
2
Datos vs Información
• Los datos son componentes tangibles y cuantificables, por ejemplo de un artículo de congreso. Si se consideran los “datos” del artículo, se estarán considerando cosas como el título, el autor, las palabras clave, etc., que de alguna forma componen los “metadatos” del artículo.• Por otro lado, la información consiste en el
contenido del artículo, los temas que trata, las fórmulas que emplea, etc.
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
3
•En el caso de los datos, se puede definir atributos de los documentos que parecen sobresalientes, al momento de realizar búsquedas; mientras que con la información se tendría primero que leer el material para determinar qué es relevante y qué no lo es.
Datos vs Información
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
4
Definición
• La Recuperación de Información (o Information Retrieval) es la representación, almacenamiento, organización y acceso a ítems de información.• El objetivo principal de la Recuperación de
Información es satisfacer la necesidad de información planteada por un usuario en una consulta en lenguaje natural especificada a través de un conjunto de palabras claves.• Un sistema de recuperación de información
encuentra datos importantes que hagan la mejor coincidencia parcial con el patrón dado.
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
5
Definición
• Dada una colección de documentos y una consulta del usuario, el objetivo de una estrategia de búsqueda es obtener todos y sólo los documentos relevantes a la consulta. • El proceso hacia la recuperación de documentos
relevantes a la consulta, no es un proceso simple debido a la complejidad semántica del vocabulario.• Esto se debe a que generalmente trata con texto en
lenguaje natural, el cual no está siempre bien estructurado y podría ser semánticamente ambiguo.
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
6
Expansión de consultas
•Encontrar otros términos equivalentes o más adecuados para expresar un concepto es realizar una expansión de consulta.•Para esta expansión, que puede ser desarrollada manual, automática o interactivamente, se pueden utilizar recursos lingüísticos (diccionarios, tesauros y ontologías).
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
7
• Un recurso lingüístico puede incluir sinónimos, variantes de escritura, ampliación de siglas, variaciones de deletreo, términos equivalentes en otros idiomas, hiperónimos, hipónimos, merónimos, entre otros.
• La expansión de consultas es el proceso de suplementar la consulta original con términos adicionales, y es un método para mejorar el desempeño en la recuperación de información.
Expansión de consultas
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
8
Medición
• Precisión (Precision): cuántos documentos recuperados son relevantes = Relevantes recuperados / Recuperados• Cobertura (Recall): cuántos documentos relevantes se
recuperaron = Relevantes recuperados / Relevantes
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
9
Problemática
• De forma general – según Baeza-Yates – el problema de la RI puede ser estudiado desde dos puntos de vista: el computacional y el humano.
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
10
• El primer caso tiene que ver con la construcción de estructuras de datos y algoritmos eficientes que mejoren la calidad de las respuestas. El segundo caso corresponde al estudio del comportamiento y de las necesidades de los usuarios. • Si se analiza la problemática de la RI desde un
alto nivel de abstracción se puede establecer:• Existe una colección de documentos que
contienen información de interés (sobre uno o varios temas).
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
11
• Existen usuarios con necesidades de información, quienes las plantean al SRI en forma de una consulta (en inglés, query. En adelante, ambas palabras se utilizarán indistintamente).• Como respuesta, el sistema retorna – de
forma ideal – referencias a documentos “relevantes”, es decir aquellos que satisfacen la necesidad expresada, generalmente en forma de una lista rankeada.
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
12
• Para cumplir con sus objetivos, un SRI debe realizar algunas tareas básicas, las cuales se encuentran planteadas en términos computacionales:• Representación lógica de los documentos y –
opcionalmente – almacenamiento del original. Algunos sistemas solo almacenan porciones de los documentos y otros lo hacen de manera completa.• Representación de la necesidad de
información del usuario en forma de consulta.
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
13
• Evaluación de los documentos respecto de una consulta para establecer la relevancia de cada uno.• Ranking de los documentos considerados
relevantes para formar el “conjunto solución” o respuesta.• Presentación de la respuesta al usuario.• Retroalimentación o refinamiento de las
consultas (para aumentar la calidad de la respuesta)
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
14
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
15
Recommended