8
Un sistema de b´ usqueda de respuestas basado en ontolog´ ıas, implicaci´on textual y entornos reales * An User–centred Ontology– and entailment–based Question Answering System ´ Oscar Ferr´ andez, Rub´ en Izquierdo, Sergio Ferr´ andez y Jos´ e Luis Vicedo Dept. de Lenguajes y Sistemas Inform´aticos (Universidad de Alicante) Carretera San Vicente s/n 03690 Alicante Espa˜ na {ofe, ruben, sferrandez, vicedo}@dlsi.ua.es Resumen: Este art´ ıculo presenta un sistema de B´ usqueda de Respuestas basado en ontolog´ ıas, implicaci´on textual y requerimientos de usuario. Se propone una metodo- log´ ıa para la construcci´on de una base de conocimiento de usuario que nos permite asociar preguntas en lenguaje natural con una representaci´on formal de datos. El ucleo de nuestra estrategia se basa en la implicaci´on textual, la cual permite de- tectar implicaciones entre preguntas y la base de conocimiento. El sistema ha sido desarrollado para el espa˜ nol y sobre el dominio de cine obteniendo unos resultados prometedores para su utilizaci´on en entornos reales. Palabras clave: usqueda de Respuestas, Implicaci´on textual, Interfaces de Len- guaje Natural, Modelado de Ontolog´ ıas Abstract: This paper presents an user–centred ontology– and entailment–based Question Answering system. A methodology is proposed in order to carry out the construction of the user knowledge database. This knowledge database allows us to fill the gap between natural language expressions and formal expressions such as database queries. The core of the system relies on an entailment engine capable of deducting inferences between queries and the knowledge database. The system has been developed for Spanish, covering the cinema domain and obtaining very promising results within real environments. Keywords: Question Answering, Textual Entailment, Natural Language Interfaces, Ontology Modelling 1. Introducci´on La B´ usqueda de Respuestas (BR) surge ante la necesidad de recuperar informaci´on concreta solicitada por usuarios a partir de preguntas en lenguaje natural. En el caso de sistemas de BR basados en ontolog´ ıas, los da- tos donde las respuestas deben ser localizadas poseen una estructura definida en una onto- log´ ıa. Una ontolog´ ıa determina una represen- taci´on de conceptos y sus relaciones en un dominio espec´ ıfico. Las ontolog´ ıas juegan un papel esencial en la llamada web sem´antica 1 , * Esta investigaci´on ha sido parcialmente financiada bajo los proyectos QALL-ME, dentro del Sexto Pro- grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860, y el Gobierno de Es- pa˜ na proyecto CICyT n´ umero TIN2006-15265-C06- 01. 1 La Web Sem´antica es una Web extendida y do- tada de mayor significado, apoyada en lenguajes uni- versales, que van a permitir que los usuarios puedan encontrar respuestas a sus preguntas de forma m´as posibilitando el intercambio de conocimiento. Sin embargo, para la correcta explotaci´on del conocimiento, se necesitan herramientas que comuniquen el lenguaje natural utilizado por los usuarios con la representaci´on l´ogica de las ontolog´ ıas. Con el objetivo de solucionar esta tarea, en este art´ ıculo presentamos un sistema de BR basado en ontolog´ ıas (el cual denomina- mos QACID) que se compone de dos n´ ucleos principales: una base de conocimiento genera- da a partir de pruebas realizadas con usuarios reales; y un m´odulo de implicaci´on textual. Para crear la base de conocimiento, el siste- ma recoge preguntas de usuarios realizadas sobre un dominio espec´ ıfico. Dichas pregun- tas son analizadas y agrupadas en funci´on de la informaci´on que soliciten. A cada agrupa- ci´on se le asocia manualmente una sentencia r´apida y sencilla gracias a una informaci´on mejor de- finida. Procesamiento del lenguaje Natural, nº 41 (2008), pp. 47-54 recibido 7-05-2008; aceptado 16-06-2008 ISSN: 1135-5948 © 2008 Sociedad Española para el procesamiento del Lenguaje Natural

Un sistema de busqueda´ de respuestas basado en … los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860,

Embed Size (px)

Citation preview

Page 1: Un sistema de busqueda´ de respuestas basado en … los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860,

Un sistema de busqueda de respuestas basado en ontologıas,implicacion textual y entornos reales !

An User–centred Ontology– and entailment–based Question AnsweringSystem

Oscar Ferrandez, Ruben Izquierdo, Sergio Ferrandez y Jose Luis VicedoDept. de Lenguajes y Sistemas Informaticos (Universidad de Alicante)

Carretera San Vicente s/n 03690 Alicante Espana{ofe, ruben, sferrandez, vicedo}@dlsi.ua.es

Resumen: Este artıculo presenta un sistema de Busqueda de Respuestas basado enontologıas, implicacion textual y requerimientos de usuario. Se propone una metodo-logıa para la construccion de una base de conocimiento de usuario que nos permiteasociar preguntas en lenguaje natural con una representacion formal de datos. Elnucleo de nuestra estrategia se basa en la implicacion textual, la cual permite de-tectar implicaciones entre preguntas y la base de conocimiento. El sistema ha sidodesarrollado para el espanol y sobre el dominio de cine obteniendo unos resultadosprometedores para su utilizacion en entornos reales.Palabras clave: Busqueda de Respuestas, Implicacion textual, Interfaces de Len-guaje Natural, Modelado de Ontologıas

Abstract: This paper presents an user–centred ontology– and entailment–basedQuestion Answering system. A methodology is proposed in order to carry out theconstruction of the user knowledge database. This knowledge database allows usto fill the gap between natural language expressions and formal expressions suchas database queries. The core of the system relies on an entailment engine capableof deducting inferences between queries and the knowledge database. The systemhas been developed for Spanish, covering the cinema domain and obtaining verypromising results within real environments.Keywords: Question Answering, Textual Entailment, Natural Language Interfaces,Ontology Modelling

1. Introduccion

La Busqueda de Respuestas (BR) surgeante la necesidad de recuperar informacionconcreta solicitada por usuarios a partir depreguntas en lenguaje natural. En el caso desistemas de BR basados en ontologıas, los da-tos donde las respuestas deben ser localizadasposeen una estructura definida en una onto-logıa. Una ontologıa determina una represen-tacion de conceptos y sus relaciones en undominio especıfico. Las ontologıas juegan unpapel esencial en la llamada web semantica1,

! Esta investigacion ha sido parcialmente financiadabajo los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigacion de la Union Europeacon referencia FP6-IST-033860, y el Gobierno de Es-pana proyecto CICyT numero TIN2006-15265-C06-01.

1La Web Semantica es una Web extendida y do-tada de mayor significado, apoyada en lenguajes uni-versales, que van a permitir que los usuarios puedanencontrar respuestas a sus preguntas de forma mas

posibilitando el intercambio de conocimiento.Sin embargo, para la correcta explotacion delconocimiento, se necesitan herramientas quecomuniquen el lenguaje natural utilizado porlos usuarios con la representacion logica delas ontologıas.

Con el objetivo de solucionar esta tarea,en este artıculo presentamos un sistema deBR basado en ontologıas (el cual denomina-mos QACID) que se compone de dos nucleosprincipales: una base de conocimiento genera-da a partir de pruebas realizadas con usuariosreales; y un modulo de implicacion textual.Para crear la base de conocimiento, el siste-ma recoge preguntas de usuarios realizadassobre un dominio especıfico. Dichas pregun-tas son analizadas y agrupadas en funcion dela informacion que soliciten. A cada agrupa-cion se le asocia manualmente una sentencia

rapida y sencilla gracias a una informacion mejor de-finida.

Procesamiento del lenguaje Natural, nº 41 (2008), pp. 47-54 recibido 7-05-2008; aceptado 16-06-2008

ISSN: 1135-5948 © 2008 Sociedad Española para el procesamiento del Lenguaje Natural

Page 2: Un sistema de busqueda´ de respuestas basado en … los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860,

SPARQL2 la cual permite el acceso a la in-formacion requerida por el usuario. Esta basede conocimiento modela la interaccion de losusuarios con el sistema.

Una vez desarrollado el modulo de im-plicacion textual, las preguntas realizadas alsistema en lenguaje natural son procesadaspor este modulo, el cual infiere deduccionessemanticas entre dichas preguntas y las pre-guntas agrupadas anteriormente con el obje-tivo de asociar a una nueva pregunta su sen-tencia SPARQL correspondiente.

El resto del artıculo esta estructurado dela siguiente manera: la seccion 2 presenta elestado de la cuestion. La seccion 3 muestrauna descripcion detallada del sistema. La sec-cion 4 describe la creacion de la base de cono-cimiento del sistema generada a partir de lainteraccion con usuarios. A continuacion, sepresenta el modulo de implicacion textual y laseccion 6 describe la evaluacion y resultadosobtenidos. Finalmente, la seccion 7 presentalas conclusiones y trabajos futuros.

2. Estado de la Cuestion

Las interfaces en lenguaje natural sobrebases de datos han sido extensamente es-tudiadas (Androutsopoulos, 1996; Copesta-ke y Jones, 1990; Chan y Lim, 2003; Popes-cu, Etzioni, y Kautz, 2003; Filipe y Mame-de, 2000; Minock, 2005). Este tipo de herra-mientas permite a los usuarios formular suspeticiones sobre bases de conocimiento me-diante consultas en lenguaje natural. Existendos tipos de interfaces en lenguaje natural enfuncion de la capacidad de procesar consultasinformales de usuarios:

1. Interfaces en lenguaje natural comple-tas: son sistemas que procesan pregun-tas en lenguaje natural sin restricciones.Nuestra aproximacion se enmarca dentrode esta categorıa.

2. Interfaces en lenguaje natural restrin-gidas: comprenden sistemas que proce-san preguntas formuladas en un lenguajecontrolado. Los usuarios deben aprenderpreviamente dicho lenguaje para poderinterrogar la base de conocimiento.

Podemos encontrar un ejemplo tıpicoen (Androutsopoulos, Ritchie, y Thanisch,

2SPARQL es un lenguaje estandar de consulta pa-ra la recuperacion de informacion desde datos RDF,(www.w3.org/TR/rdf-sparql-query).

1993), el cual procesa la pregunta en lengua-je natural, para transformarla en una formalogica intermedia, que sera mas tarde trans-formada en SQL. Otras aproximaciones (Ze-lle y Mooney, 1996; Thompson y Mooney,1999; Zhang y Yu, 2001) hacen uso de meto-dos de aprendizaje automaticos para trans-formar preguntas informales en representa-ciones logicas estructuradas. Estos sistemasson entrenados usando datos de dominios es-pecıficos, proporcionados por Money3, y ob-tienen unos resultados cercanos al 90 %, pe-ro necesitan una gran cantidad de datos pa-ra realizar un entrenamiento eficiente. Otrostrabajos (Rodrigo et al., 2005; Kang et al.,2004) intentan dividir la pregunta en pala-bras clave y componer una consulta formala partir de estas palabras. Finalmente, re-saltamos dos sistemas (Popescu, Etzioni, yKautz, 2003; Wang et al., 2007), los cualestransforman las preguntas en lenguaje natu-ral en consultas estructuradas en SPARQL.

El procesamiento de preguntas en lengua-je natural es normalmente complejo y ambi-guo. Por esta razon, muchos sistemas traba-jan unicamente sobre preguntas formuladasusando un lenguaje limitado, con restriccio-nes lexicas y gramaticales. Sin embargo, ha-cer uso de estos sistemas conlleva que el usua-rio aprenda estos lenguajes restringidos y susintaxis. El sistema presentado en (Bernsteinet al., 2005) hace uso del “Attempto Con-trolled English” para formular consultas. Si-guiendo en esta lınea, (Popescu, Etzioni, yKautz, 2003) define la nocion de consultassemanticamente tratables, intentando saber apriori los requerimientos de la pregunta paragenerar la consulta SQL. Sin embargo, en es-ta aproximacion las preguntas que contienenpalabras desconocidas no son semanticamen-te tratables y no pueden ser procesadas.

Los metodos basados en patrones son tam-bien usados para resolver tareas relacionadascon interfaces en lenguaje natural. El siste-ma (Lopez et al., 2007) procesa las preguntasy las clasifica en 23 categorıas. Si se consi-gue clasificar la pregunta de entrada en unade estas 23 categorıas, el sistema sera capazde procesarla correctamente. Sin embargo, lalimitada cobertura de los patrones conllevaque muchas preguntas no puedan resolverse.Por contra, aunque QACID esta basado tam-bien en el uso de patrones, evita este proble-

3www.cs.utexas.edu/users/ml/nldata.html.

Oscar Ferrández, Rubén Izquierdo, Sergio Ferrández y José Luis Vicedo

48

Page 3: Un sistema de busqueda´ de respuestas basado en … los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860,

ma usando un modulo de implicacion textual,que permite obtener relaciones entre patrony pregunta en la mayorıa de los casos. Parafinalizar, el sistema (Bernstein y Kaufmann,2006) ayuda al usuario a construir la consul-ta evitando la ambiguedad por medio de unmotor de busqueda en lenguaje natural. Sinembargo, de nuevo la capacidad de este sis-tema esta limitada por las restricciones dellenguaje ofrecido.

3. Descripcion GeneralEsta seccion presenta nuestro sistema de

BR basado en ontologıas y en la experien-cia con usuarios reales: QACID (acronimo eningles, Question Answering on CInema Do-main). La estructura de QACID se sostienebajo cuatro componentes principales: la on-tologıa, los datos estructurados, la base deconocimiento de usuario y el modulo de im-plicacion textual.La ontologıa

Un sistema de BR basado en ontologıasprocesa informacion formalmente estructura-da sobre un dominio especıfico determinadopor la ontologıa. En nuestro caso, hemos usa-do OWL4 para disenar una ontologıa sobre eldominio turıstico (trabajo realizado bajo elproyecto de investigacion QALL–ME5), sien-do las clases y relaciones referentes al sub–dominio Cinema las utilizadas en QACID.Los datos

La ontologıa ha sido poblada con informa-cion sobre el dominio de cine provista por laempresa LaNetro6, almacenando los datos enformato RDF7. Los datos RDF son usadoscomo base de datos donde las respuestas sonextraıdas por medio de consultas SPARQL.Base de Conocimiento de Usuario

Con el objetivo de conocer las diferentes ymultiples maneras con las que se pueden so-licitar informacion sobre el dominio Cinema,decidimos adquirir dicho conocimiento a par-tir de pruebas realizadas con usuarios reales.Para esto, se solicito a un grupo de perso-nas que demandaran datos sobre el dominio

4OWL (del ingles, Ontology Web Language) es unlenguaje de marcado para publicar y compartir datosusando ontologıas, www.w3.org/TR/owl-features/.

5Descrito en qallme.itc.it/ .6www.lanetro.com.7RDF (del ingles, Resource Description Fra-

mework) es un modelo de metadatos que proponeun metodo general para el modelado de informacion,/www.w3.org/RDF.

Cinema, generando ası un conjunto de pre-guntas representativas del dominio.

Seguidamente, las preguntas fueron anali-zadas y agrupadas automaticamente en fun-cion de la informacion que solicitan, consti-tuyendo de esta forma agrupaciones de pre-guntas. A cada agrupacion se le asocio ma-nualmente una sentencia SPARQL, la cualpermite el acceso a la informacion requeridapor el usuario. Como resultado final se ob-tuvo un conjunto de pares pregunta–consultaSPARQL, que forma la base de conocimientode usuario del sistema QACID.Modulo de Implicacion Textual

El modulo de implicacion textual cons-tituye el eje principal de nuestra estrategiade BR. Este modulo implementa tecnicas deimplicacion textual con el objetivo de infe-rir deducciones semanticas entre preguntasde entrada y las agrupaciones de la base deconocimiento de usuario previamente obteni-das. Este proceso permite asociar consultasSPARQL a las preguntas de entrada y ası re-cuperar las respuestas desde los datos RDF.

En la figura 1 se muestra la arquitectu-ra general de QACID. Las siguientes subsec-ciones detallan el proceso completo de BR elcual se compone de dos fases principales.

P r o c e s a m i e n t o d e d a t o s

O n t o l o g í a

P r o v e e d o r d e Datos

D a t o s R D F

Lex icón de c o n c e p t o s o n t o l ó g i c o s

A n á l i s i s d e l a P r e g u n t a

E t i q u e t a d o r d e E n t i d a d e s

Aná l i s is M o r f o l ó g i c o G e n e r a d o r d e P a t r o n e s

E x t r a c c i ó n d e l a R e s p u e s t a

M o t o r I m p l i c a c i ó n T e x t u a l

P r o c e s a m i e n t o S P A R Q L

B a s e d e C o n o c i m i e n t o d e U s u a r i o

P a t r o n e s - S P A R Q L

Figura 1: Arquitectura del sistema QACID.

3.1. Analisis de la PreguntaEste modulo se encarga de procesar la pre-

gunta de entrada con el objetivo de obteneruna representacion formal de la misma (si-guiendo el formato de los patrones de la basede conocimiento de usuario).

Un sistema de búsqueda de respuestas basado en ontologías, implicación textual y entornos reales

49

Page 4: Un sistema de busqueda´ de respuestas basado en … los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860,

Las preguntas se analizan morfologica-mente8 y se detectan y etiquetan las entida-des de la pregunta. Para realizar su etiqueta-do, QACID aplica tecnicas de emparejamien-to difuso9 entre las palabras que contiene lapregunta y un lexicon generado a partir delos datos almacenados en la ontologıa. Dicholexicon se obtiene automaticamente e incluyelas instancias de la ontologıa con sus respecti-vas clases ontologicas (por ejemplo, “CasinoRoyale” " [MOVIE]; “Alicante” " [DES-TINATION]; “Cinesa Panoramis”" [CINE-MA]).

La salida de este modulo es una preguntaen lenguaje natural etiquetada con informa-cion morfologica y con conceptos de la onto-logıa (ver tercera fila del cuadro 1).

3.2. Extraccion de la Respuesta

La pregunta es procesada por el modulode implicacion textual con el objetivo de de-terminar las implicaciones semanticas entrela misma y el conjunto de patrones que con-tiene la base de conocimiento de usuario. Sieste proceso se realiza con exito, se obtieneuna sentencia SPARQL generica (ver la filacuarta del cuadro 1) que permite obtener larespuesta a la pregunta. Seguidamente, antesde realizar la consulta a los datos RDF, lasentencia SPARQL se instancia con los datosoriginales de la pregunta del usuario. En elcuadro 1 se muestra un ejemplo del procesocompleto.

Pregunta de entrada¿Donde puedo ver Casino Royale?Analisis morfologico¿ [Fia] Donde [donde PT000000] puedo [poderVMIP1S0] ver [ver VMN0000] Casino Royale [casinoroyale NP00000] ? [Fit]Etiquetado de conceptos de la ontologıa¿Donde puedo ver [MOVIE]?SPARQL por Implicacion TextualSELECT DISTINCT ?nameCinema WHERE { ?mo-vie name [MOVIE]. ?event hasEvent ?movie. ?eventisInSite ?cinema. ?cinema name ?nameCinema }SPARQL finalSELECT DISTINCT ?nameCinema WHERE {?moviename “Casino Royale”.?event hasEvent ?mo-vie.?event isInSite ?cinema.?cinema name ?nameCine-ma }

Cuadro 1: Ejemplo de proceso de BR.

Las secciones siguientes explican en deta-8Para esta tarea utilizamos Freeling toolkit, dispo-

nible en garraf.epsevg.upc.es/freeling/.9Concretamente secondStrings library, disponible

en secondstring.sourceforge.net.

lle la creacion de la base de conocimiento deusuario y el modulo de implicacion textual.

4. Base de Conocimiento deUsuario

El principal objetivo de la base de conoci-miento es tener una muestra representativade preguntas que reflejen los intereses ynecesidades de los usuarios sobre el dominio.El proceso de construccion de dicha base deconocimiento incluye tres pasos:

1. Generar un conjunto de preguntas signifi-cativas de acuerdo al dominio de la ontologıa.Para esto se seleccionan 50 usuarios de di-ferente edad, genero y nacionalidad. Se lesmuestra la ontologıa junto a una lista deentidades reales extraıdas de nuestros datospara que generen preguntas sobre cualquierdato de interes. Mediante este proceso segeneraron un total de 500 preguntas.

2. Detectar y etiquetar las entidades queaparecen en el conjunto de preguntas. Paraesto, se aplica el Anotador de Entidades a las500 preguntas, reemplazando las entidadesdetectadas por su concepto correspondienteen la ontologıa. Por ejemplo, la pregunta“¿Donde puedo ver Saw 3?” se transforma en“¿Donde puedo ver [MOVIE]?”. Como se hamencionado anteriormente, el Anotador deEntidades esta implementado con una tecni-ca de emparejamiento difuso de cadenas, demodo que se intenta emparejar subcadenasen lenguaje natural libre con entidades ennuestro lexicon. Una vez que se completael proceso, se eliminan aquellas preguntasrepetidas y obtenemos un conjunto de 348preguntas diferentes.

3. Las preguntas anotadas se agrupan ma-nualmente de acuerdo a su equivalenciasemantica. Dos preguntas son semanticamen-te equivalentes cuando ambas solicitan lamisma informacion, y ambas contienen losmismo conceptos ontologicos. Por ejemplo,las preguntas:

“¿Cual es el numero de telefono del cine[CINEMA]?”

“¿Cual es el telefono de contacto del cine[CINEMA]?”

Oscar Ferrández, Rubén Izquierdo, Sergio Ferrández y José Luis Vicedo

50

Page 5: Un sistema de busqueda´ de respuestas basado en … los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860,

pertenecen al mismo cluster semantico. Secrean un total de 54 agrupaciones semantica-mente distintas. Una vez creadas estas agru-paciones, se asocia una consulta SPARQL acada uno, la cual permitira obtener la res-puesta para cualquiera de las preguntas de laagrupacion.

Considerando una agrupacion concreta,disponemos de varias preguntas solicitando lamisma informacion, y es muy sencillo extraerconocimiento sobre la forma de requerir estainformacion. Teniendo en cuenta esto, desa-rrollamos un recurso llamado caracterizacionde atributos de la ontologıa. Esta caracteri-zacion consiste en saber los diferentes mo-dos en que los usuarios preguntan sobre unatributo concreto. Por ejemplo, considerandolas preguntas pertenecientes a la agrupacionque solicita informacion sobre el numero detelefono de un cine, encontramos tres modosdistintos que los usuarios han utilizado pa-ra preguntar sobre este atributo: numero detelefono, numero de contacto y numero te-lefonico. Este conocimiento es muy util paraque el modulo de implicacion textual detecteparafrasis entre los atributos que aparecen enlas preguntas.

En resumen, la base de conocimientoesta compuesta por 54 agrupaciones. Cadauna contiene una media de 6.44 preguntasequivalentes, la consulta SPARQL correspon-diente y la informacion sobre la caracteriza-cion de los atributos de la ontologıa.

A pesar de que la generacion de la ba-se de conocimiento se ha construido a partirde preguntas realizadas espontaneamente porlos usuarios, la mayorıa de atributos y rela-ciones de la ontologıa (88%) quedan cubier-tos por el conjunto final de agrupaciones (porejemplo, no hay preguntas sobre el e–mail,fax o coordenadas GPS de un cine). Esta al-ta cobertura demuestra que la metodologıade construccion de la base de conocimientoes robusta y apropiada, y que aquellos atri-butos que quedan fuera son con mucha pro-babilidad de poco interes para los usuarios.

5. Modulo de Implicacion Textual

El sistema de implicacion textual esta-blece inferencias lexico–semanticas entre unapregunta y el conjunto de patrones predefi-nidos en la base de conocimiento (ver sec-cion 4). Se consideran relaciones unidireccio-nales entre dos preguntas, siguiendo la meto-dologıa propuesta en (Glickman, 2005) para

relaciones de implicacion textual. El sistemautilizado es una extension del presentado en(Ferrandez et al., 2007) adaptando e incor-porando nuevas inferencias relevantes para elnuevo paradigma en el que se enfoca.

5.1. Inferencias LexicasSe componen de un conjunto de medidas10

lexicas, basadas en las coocurrencias de laspalabras y el contexto en que aparecen. Parasu calculo, las preguntas son tratadas comobolsas de palabras (del ingles, bag–of–words),lo cual es simple a la vez que preciso, esmas rapido computacionalmente y consigueresultados competitivos comparados conotras aproximaciones (ver (Giampiccolo etal., 2007)). Las medidas son:

– Algoritmo Smith–Waterman– Emparejamiento entre subcadenas consecu-tivas– Distancia de Jaro– Distancia Euclıdea– Coeficiente de similitud de Jaccard– Emparejamiento entre terminos interroga-tivos

5.2. Inferencias basadas en laOntologıa

Corresponden con conocimiento directa-mente derivado de la ontologıa.

Restriccion sobre los conceptos: tantolas preguntas como los patrones son etique-tados con conceptos de la ontologıa. Conse-cuentemente, se establece una restriccion porla que todos los pares de preguntas de las quese puede deducir una relacion de implicaciondeben contener los mismos conceptos, tantoen numero como en tipo.Inferencia basada en atributos on-tologicos: apoyandose en el conocimientoadquirido sobre las diferentes formas que losusuarios han utilizado para referirse a losatributos de la ontologıa (i.e. la caracteriza-cion de los atributos de la ontologıa, ver sec-cion 4), el sistema implementa una inferenciasobre el atributo o atributos ontologicos quesolicitan las preguntas que se realizan al sis-tema. El procedimiento utiliza la caracteriza-cion de los atributos de la ontologıa para de-tectar la presencia de atributos (normalmen-

10Para algunas de ellas se ha usadosu implementacion de SimMetrics libraryhttp://www.dcs.shef.ac.uk/!sam/simmetrics.html.

Un sistema de búsqueda de respuestas basado en ontologías, implicación textual y entornos reales

51

Page 6: Un sistema de busqueda´ de respuestas basado en … los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860,

te estos son la informacion requerida). Aque-llos patrones que contengan atributos equiva-lentes a atributos de la pregunta de entradaseran puntuados positivamente en la detec-cion de implicacion textual. Dos atributos sonequivalentes si estan expresados de la mismamanera o usando alguna de sus parafrasis al-macenadas en la caracterizacion de los atri-butos de la ontologıa. El peso final obtenidoes:

Attsim =

!

ai!Pg, aj!Pt

Eql(ai, aj)

|Pg| (1)

donde Pg y Pt contienen los atributos de lapregunta de entrada y el patron que se estaprocesando, y Eql(ai, aj) toma el valor:

Eql(ai, aj) =

"1 ai = aj o parafrasis,

0 otro caso.(2)

Por lo tanto, dos o mas atributos pertene-cientes a la misma pregunta tienen la mismaimportancia, a la vez que patrones que nocontengan atributos equivalentes seran con-siderados menos relevantes durante la impli-cacion textual.

Por ultimo, cada inferencia obtiene un fac-tor de similitud entre cero y uno, por lo tantoel coeficiente de implicacion final es la sumade todos los factores entre el numero de in-ferencias consideradas. Para decidir las im-plicaciones, se establece un umbral empıricosobre un conjunto de preguntas de entrena-miento, por lo que preguntas nuevas que ob-tengan un coeficiente de implicacion superioral umbral seran consideradas como deduc-ciones de implicacion textual correctas. Lasiguiente seccion detalla la fase de entrena-miento del sistema ası como los resultadosobtenidos durante la evaluacion del mismo.

6. Evaluacion y resultados

Para comprobar la efectividad de QACID,hemos desarrollado un marco de evaluacionsobre el dominio de cine. Debido a que losresultados del sistema estan influenciados di-rectamente por el modulo de implicacion tex-tual, nos hemos centrado en evaluar la ca-pacidad de este en la deteccion correcta deimplicaciones entre preguntas.

6.1. Marco de Evaluacion

Esta evaluacion verificara como de repre-sentativa y util es nuestra base de conoci-miento a la hora de realizar deducciones, ycomo de preciso es el modulo de implicaciontextual. Para ello, 10 nuevos usuarios son re-queridos para generar una nueva preguntapara cada cluster usando las entidades alma-cenadas en nuestro lexicon. En total 450 nue-vas preguntas que son divididas en dos gru-pos: el conjunto de entrenamiento y el con-junto de test. El primero grupo se usa paraajustar el umbral de decision del modulo deimplicacion textual, de modo que cuando elvalor de similitud devuelto por dicho moduloes menor que el umbral establecido, conside-ramos la pregunta como incierta11. El con-junto de test se usa como un conjunto cie-go para la evaluacion final del sistema. Es-tos conjuntos comprenden 378 preguntas (7usuarios) y 162 (3 usuarios) respectivamente.Destacar tambien que no se eliminan las pre-guntas repetidas de estos conjuntos, y todaslas preguntas pertenecen al dominio de cine(esta evaluacion no tiene en cuenta preguntasfuera de dominio).

6.2. Analisis de Resultados

La figura 2 muestra la evolucion de la pre-cision, cobertura y medida F dependiendo delumbral de decision establecido. Cada graficocorresponde a los experimentos llevados a ca-bo teniendo en cuenta las inferencias descri-tas en los apartados 5.1 y 5.2:

Baseline Lexico (BL): implementa todaslas inferencias lexicas (ver seccion 5.1) yestablece nuestro sistema base para me-dir la mejora introducida con las inferen-cias basadas en la ontologıa.

BL+Restriccion de Conceptos(BL+RC): anade al baseline lexicola restriccion referente a la correspon-dencia entre conceptos de la ontologıa.

BL+RC+Inferencia basada en Atribu-tos (BL+RC+IbA): implementa todaslas inferencias lexicas y ontologicas, in-cluyendo aquella basada en la parafrasisde atributos de la ontologıa.

11Aunque en el calculo de precision, cobertura y F,las preguntas inciertas son tratadas como erroneas,cabe destacar que el analisis de las mismas nos ayu-dara a orientar correctamente el enriquecimiento deconocimiento en el modulo de implicacion textual.

Oscar Ferrández, Rubén Izquierdo, Sergio Ferrández y José Luis Vicedo

52

Page 7: Un sistema de busqueda´ de respuestas basado en … los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860,

0

10

20

30

40

50

60

70

80

90

100

0,4 0,5 0,6 0,7 0,8 0,9

Precision Recall F-measure

(a) Baseline Lexico (BL).

0

10

20

30

40

50

60

70

80

90

100

0,4 0,5 0,6 0,7 0,8 0,9

Precision Recall F-measure

(b) BL+Restriccion de Conceptos(BL+RC).

30

40

50

60

70

80

90

100

0,3 0,4 0,5 0,6 0,7 0,8 0,9

Precision Recall F-measure

(c) BL+RC+Inferencia basada enAtributos (BL+RC+IbA).

Figura 2: Precision, cobertura y F–medida para cada inferencia sobre el entrenamiento.

Como se puede observar, el sistema ob-tiene buenos resultados para todos los um-brales debido al hecho de que casi todas lasnuevas preguntas poseen un patron correctoasociado en la base de datos. Esto demues-tra la eficiencia en la construccion de la basede conocimiento. Teniendo en cuenta el con-junto de preguntas de entrenamiento, el um-bral de decision que obtiene mejor precisionsin comprometer la cobertura es 0.6 para losexperimentos BL y BL+RC, y 0.5 para el ex-perimento BL+RC+IbA.

El cuadro 2 muestra los resultados sobre elconjunto de test. Aunque los valores de pre-cision, cobertura y medida F son ligeramentemenores que en el caso del conjunto de entre-namiento el comportamiento del sistema essimilar en ambos casos.

Exp. Test

umbral Prec. Cob. FBL 0.6 57.61 93.21 71.21BL+RC 0.6 76.64 84.57 80.41BL+RC+IbA 0.5 89.24 97.53 93.2

Cuadro 2: Resultados sobre el test.

Como era de esperar, el experimento BLobtiene los resultados mas bajos, pero se me-joran sustancialmente incluyendo el conoci-miento basado en la ontologıa. La restriccionbasada en la correspondencia de conceptos(BL+RC) mejora la medida F en 12.91%,mientras que la restriccion de alineamientoentre atributos (BL+RC+IbA) produce unamejora de 30.88 %.

De esta forma se demuestra la correctaaplicacion de: (1) las medidas lexicas sin ha-cer uso de informacion ontologica, y (2) elconocimiento semantico adicional extraıdo dela ontologıa.

7. Conclusion y trabajos futuros

La principal aportacion de este artıculo esel desarrollo de una metodologıa para la crea-cion de un sistema de BR sobre dominios res-tringidos. Dicha metodologıa hace uso de unaontologıa que modela el dominio y de una ba-se de conocimiento creada a partir de las ne-cesidades e intereses de los usuarios. Ademas,el sistema utiliza un modulo de implicaciontextual para deducir inferencias semanticasentre una nueva pregunta y el conjunto depatrones que almacena en su base de conoci-miento.

Los resultados obtenidos muestran una al-ta precision del sistema, y en concreto delmodulo de implicacion textual. Ademas, es-tos valores han sido obtenidos sin el uso decomplejos recursos semanticos que pudierancomprometer la eficiencia del sistema.

La metodologıa propuesta se podrıa extra-polar a otros dominios u otros idiomas, se ne-cesitarıa una ontologıa que modelara el nuevodominio y un conjunto de usuarios para crearla base de conocimiento en el idioma requeri-do.

Finalmente, como trabajo futuro se plan-tea la extension del sistema mediante la de-teccion de expresiones temporales y espa-ciales. Preguntas como: “¿Cual es el cinemas cercano donde puedo ver [MOVIE]?” o“¿Donde puedo ver [MOVIE] manana?” en-trarıan dentro de esta lınea. Ademas, aunquela deteccion de la respuesta esperada es enmayor o menor medida considerada por nues-tra caracterizacion de atributos, tambien seplantea anadir un modulo especıfico que in-corpore este conocimiento al modulo de im-plicacion textual. Por ejemplo, en la pregun-ta “Dime donde fue rodada la pelıcula [MO-VIE]” esta informacion serıa de gran valorya que en ningun momento se menciona el

Un sistema de búsqueda de respuestas basado en ontologías, implicación textual y entornos reales

53

Page 8: Un sistema de busqueda´ de respuestas basado en … los proyectos QALL-ME, dentro del Sexto Pro-grama Marco de Investigaci´on de la Uni´on Europea con referencia FP6-IST-033860,

atributo “estudio”. Sin embargo si se formu-lara como “Dime en que estudio fue rodada lapelıcula [MOVIE]”, nuestra caracterizacionde atributos aportarıa el conocimiento sufi-ciente para el modulo de implicacion textual.

Bibliografıa

2005. The Semantic Web - ISWC 2005, 4th In-ternational Semantic Web Conference, ISWC2005, Galway, Ireland, November 6-10, 2005,Proceedings, volumen 3729 de Lecture Notes inComputer Science. Springer.

Androutsopoulos, I., G. Ritchie, y P. Thanisch.1993. An E!cient and Portable Natural Lan-guage Query Interface for Relational Databa-ses. In: 6th International Conference on In-dustrial and Engineering Applications of Arti-ficial Intelligence and Expert Systems, paginas327–320.

Androutsopoulos, Ion. 1996. A Principled Fra-mework for Constructing Natural LanguageInterfaces to Temporal Databases. CoRR,cmp-lg/9609004.

Bernstein, Abraham y Esther Kaufmann. 2006.GINO - A Guided Input Natural LanguageOntology Editor. En International Seman-tic Web Conference, volumen 4273 de LectureNotes in Computer Science, paginas 144–157.Springer.

Bernstein, Abraham, Esther Kaufmann, AnneGohring, y Christoph Kiefer. 2005. QueryingOntologies: A Controlled English Interface forEnd–Users. En International Semantic WebConference (DBL, 2005), paginas 112–126.

Chan, Hock Chuan y John Lim. 2003. A Reviewof Experiments on Natural Language Interfa-ces. En Advanced Topics in Database Resear-ch, Vol. 2. paginas 55–71.

Copestake, A. y K.S. Jones. 1990. Natural Lan-guage Interfaces to Databases. Knowledge En-gineering Review, 5(4):225–249.

Ferrandez, Oscar, Daniel Micol, Rafael Munoz,y Manuel Palomar. 2007. A Perspective–Based Approach for Solving Textual Entail-ment Recognition. En Proceedings of theACL-PASCAL Workshop on Textual Entail-ment and Paraphrasing, paginas 66–71, Pra-gue. Association for Computational Linguis-tics.

Filipe, Porfırio P. y Nuno J. Mamede. 2000. Da-tabases and Natural Language Interfaces. EnCarlos Delgado Esperanza Marcos, y Jose Ma-nuel Marques Corral, editores, JISBD, paginas321–332. Universidad de Valladolid, Departa-mento de Informatica.

Giampiccolo, Danilo, Bernardo Magnini, Ido Da-gan, y Bill Dolan. 2007. The Third PAS-CAL Recognizing Textual Entailment Cha-llenge. En Proceedings of the ACL-PASCALWorkshop on Textual Entailment and Paraph-rasing, paginas 1–9, Prague. Association forComputational Linguistics.

Glickman, Oren. 2005. Applied Textual Entail-ment. Ph.D. tesis, Bar Ilan University.

Kang, In-Su, Seung-Hoon Na, Jong-Hyeok Lee,y Gijoo Yang. 2004. Lightweight NaturalLanguage Database Interfaces. En NLDB,volumen 3136 de Lecture Notes in ComputerScience, paginas 76–88. Springer.

Lopez, Vanessa, Victoria S. Uren, Enrico Motta, yMichele Pasin. 2007. AquaLog: An ontology-driven question answering system for organi-zational semantic intranets. J. Web Sem.,5(2):72–105.

Minock, Michael. 2005. A Phrasal Approach toNatural Language Interfaces over Databases.En NLDB, volumen 3513 de Lecture Notes inComputer Science, paginas 333–336. Springer.

Popescu, Ana-Maria, Oren Etzioni, y Henry A.Kautz. 2003. Towards a theory of natural lan-guage interfaces to databases. En IntelligentUser Interfaces, paginas 149–157. ACM.

Rodrigo, Luis, V. Richard Benjamins, Jesus Con-treras, Diego Paton, D.Navarro, R. Salla, Mer-cedes Blazquez, P. Tena, y I. Martos. 2005. ASemantic Search Engine for the InternationalRelation Sector. En International SemanticWeb Conference (DBL, 2005), paginas 1002–1015.

Thompson, Cynthia A. y Raymond J. Mooney.1999. Automatic Construction of SemanticLexicons for Learning Natural Language In-terfaces. En AAAI/IAAI, paginas 487–493.

Wang, Chong, Miao Xiong, Qi Zhou, y Yong Yu.2007. PANTO: A Portable Natural LanguageInterface to Ontologies. En ESWC, volumen4519 de Lecture Notes in Computer Science,paginas 473–487. Springer.

Zelle, John M. y Raymond J. Mooney. 1996.Learning to Parse Database Queries Using In-ductive Logic Programming. En AAAI/IAAI,Vol. 2, paginas 1050–1055.

Zhang, Lei y Yong Yu. 2001. Learning to Ge-nerate CGs from Domain Specific Sentences.En ICCS, volumen 2120 de Lecture Notes inComputer Science, paginas 44–57. Springer.

Oscar Ferrández, Rubén Izquierdo, Sergio Ferrández y José Luis Vicedo

54