Una aproximaci on estoc astica para la comprensi on … · comprensi on y apoyo en todo momento en la ardua tarea que supone tanto el ... permitiendo una segmentaci on y un etiquetado

Una aproximacion estocastica para lacomprension del lenguaje

D. Fernando Garcıa Granada

Memoria para optar al grado de Doctor en Informatica

bajo la direccion de los doctores:

Dr. D. Emilio Sanchis Arnal

Dra. Dna. Encarna Segarra Soriano

Valencia, Diciembre 2003

Agradecimientos

Quisiera agradecer la colaboracion de todas las personas que han participado en elproyecto CICYT BASURDE financiado por el Ministerio de Educacion, tanto de estaUniversidad como de las universidades del Paıs Vasco (EHU), Zaragoza (UZ), Catalunya(UPC) y de la Jaume I (UJI), sin las cuales no habrıa sido posible la realizacion de esteproyecto que ha sido la base de esta tesis. En especial al grupo de comprension de Valenciadel cual forman parte mis directores (Emilio y Encarna) junto con Mabel, Lluıs y PacoTorres. Sin olvidar la ayuda de Ferran y Antonio en el etiquetado lexico.

Tambien quiero agradecer a la Universidad Politecnica de Valencia su apoyo a lainvestigacion que ha permitido la publicacion de artıculos, la asistencia a los congresos eincluso el hacer una estancia de investigacion en un laboratorio en el extranjero, ası comoal Departamento de Sistemas Informaticos y computacion por ofrecernos unos medios einfraestructuras que permiten que nuestro trabajo tenga su fruto.

Agradecer al grupo TLP del LIMSI y a su responsable Jean-Luc Gauvain su amabilidadpor dejarme realizar una estancia de investigacion en su laboratorio y en especial a missupervisores Helene y Fabrice por sus consejos y a Patrick y Leonardo por su pacienciaconmigo.

Por ultimo agradecer a mis seres queridos y en especial a mi companera Sagra sucomprension y apoyo en todo momento en la ardua tarea que supone tanto el trabajo deinvestigador ası como el escribir esta tesis.

3

Resumen

En este trabajo se ha desarrollado una aproximacion para abordar la tarea de com-prension de un sistema de dialogo hablado para un entorno semantico restringido. Elsistema de comprension representa distintos niveles de conocimiento del lenguaje a travesde modelos de estados finitos, que se aprenden de forma automatica a partir de corporaanotados con informacion semantica.

Para la construccion del sistema de comprension se han empleado metodos estocasti-cos, aprendizaje automatico a partir de datos y tecnicas de inferencia gramatical. Estosmodelos emplean una representacion de dos niveles en la que se considera la informacionde las secuencias de unidades semanticas presentes en el corpus, ası como la informa-cion de las secuencias de palabras asociadas a cada una de estas unidades semanticas,permitiendo una segmentacion y un etiquetado secuencial de la frase completa de entra-da. Un sistema de reglas convierte esta segmentacion en un frame semantico, que es larepresentacion semantica elegida para esta tarea.

La aproximacion propuesta ha sido aplicada para desarrollar el modulo de comprensionde un sistema de dialogo hablado que atiende preguntas en lenguaje natural a traves dela lınea telefonica, sobre horarios y precios de trenes de largo recorrido. Los resultadosobtenidos, evaluados sobre la representacion semantica que da como salida el sistemade comprension, han sido satisfactorios. Podemos considerar que el uso de este tipo demetodos estocasticos es adecuado para resolver el tipo de tarea abordada.

Resum

En aquest treball s´ha desenvolupat una aproximacio capac dábordar la tasca decomprensio dún sistema de dialeg parlat per a un entorn semantic restringit. El sistemade comprensio representa distints nivells de coneixement del llenguatge a traves de mo-dels déstats finits, que sáprenen de forma automatica a partir de corpora anotats ambinformacio semantica.

Per a la construccio del sistema de comprensio s´han emprat metodes estocastics,aprenentatge automatic a partir de dades i tecniques dínferencia gramatical. Aquestsmodels empren una representacio de dos nivells en la qual es considera la informacio deles sequencies dúnitats semantiques presents en el corpus. aixi com la informacio de lessequencies de paraules associades a cadascuna dáquestas unitats semantiques, permetentuna segmentacio i un etiquetat sequencial de la frase déntrada. Un sistema de reglesconverteix aquesta segmentacio en un frame semantic, que es la representacio semanticaelegida per a aquesta tasca.

Láproximacio que es proposa s’ha aplicat per al desenvolupament del modul de com-prensio dún sistema de dialeg parlat que aten preguntes en llenguatge natural a traves de

5

6

la lınia telefonica, sobre horaris i preus de trens de llarg recorregut. Els resultats obtinguts,avaluats sobre la representacio semantica que ofereix com eixida el sistema de comprensio,han estat satisfactoris. Podem considerar que lús dáquest tipus de metodes estocasticses adequat per a resoldre el tipus de tasca abordada.

Abstract

In this work, a system able to carry out the task of understanding of a spoken dialoguesystem in a limited domain has been developed. The understanding system representsdifferent levels of language knowledge throught like finite states models, that are learnedautomatically from corpora labeled with semantic information.

Automatic learning and grammar inference techniques have been used to learn sto-chastic models. These models use a two level representation in which the information ofsequences of semantic units is considered, as well as the information of the sequences ofwords associated to each one of these semantic units, allowing for a sequential segmenta-tion and labelling of the input phrase. A system of rules turns this segmentation into asemantic frame, which is the chosen semantic representation for this task.

The proposed approach has been applied for the development of the understandingmodule of a spoken dialogue system. This system answers questions in spoken natural lan-guage through the telephone about railway timetables and prices. The results obtained,which have been evaluated on the semantic representation that produces the understan-ding system, have been satisfactory. We can consider that the use of this kind of stochasticmethods is adequated for the type of undertaken task.

Indice general

1. Introduccion 15

1.1. Estructura de un sistema de dialogo hablado . . . . . . . . . . . . . . . . 17

1.2. Descripcion de algunos sistemas de dialogo hablado . . . . . . . . . . . . . 21

1.3. Objetivos de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.4. Estructura de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2. Comprension del habla 27

2.1. Representacion del conocimiento . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.1. Modelos sintacticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.2. Modelos semanticos . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2. El metodo de Analisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2.1. Metodos de analisis semantico basado en reglas . . . . . . . . . . . 31

2.2.2. Metodos de estimacion automatica a partir de datos . . . . . . . . 33

2.3. Modelos de lenguaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.3.1. Modelos conexionistas . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3.2. Modelos estocasticos . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Modelos de N-gramas . . . . . . . . . . . . . . . . . . . . . . . . . 37

Suavizado de N-gramas . . . . . . . . . . . . . . . . . . . . . . . . 38

Modelos basados en categorıas . . . . . . . . . . . . . . . . . . . . 40

Modelos dinamicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Varigramas y Multigramas . . . . . . . . . . . . . . . . . . . . . . 43

2.3.3. SLMtoolkit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.3.4. Aproximaciones gramaticales . . . . . . . . . . . . . . . . . . . . . 44

3. Tarea BASURDE 47

3.1. Adquisicion de los dialogos del corpus PERSONA . . . . . . . . . . . . . . 48

3.1.1. Criterios de seleccion de los dialogos . . . . . . . . . . . . . . . . . 48

3.1.2. Transcripcion de los dialogos del corpus PERSONA . . . . . . . . 49

3.1.3. Breve analisis del corpus PERSONA . . . . . . . . . . . . . . . . . 50

3.2. Corpus BASURDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.1. Definicion de Escenarios . . . . . . . . . . . . . . . . . . . . . . . . 50

Tipos de escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2.2. Distribucion y transcripcion de los escenarios . . . . . . . . . . . . 52

3.2.3. Caracterısticas de los dialogos adquiridos . . . . . . . . . . . . . . 55

3.3. Representacion semantica en Frames . . . . . . . . . . . . . . . . . . . . . 55

3.4. Valores que pueden tomar los cases . . . . . . . . . . . . . . . . . . . . . . 61

7

8 INDICE GENERAL

4. Modulo de comprension 65

4.1. Modelo de traduccion para la comprension . . . . . . . . . . . . . . . . . . 65

4.2. Primera fase del modulo de comprension . . . . . . . . . . . . . . . . . . . 67

4.2.1. El lenguaje semantico intermedio . . . . . . . . . . . . . . . . . . . 67

4.2.2. Aprendizaje: el modelo de 2 niveles . . . . . . . . . . . . . . . . . . 71

4.2.3. Proceso de analisis por Viterbi . . . . . . . . . . . . . . . . . . . . 73

4.2.4. Modelo de comprension de dos niveles con unidades POS y semanticas 74

Descripcion de los modelos estocasticos de dos niveles basados enetiquetas POS . . . . . . . . . . . . . . . . . . . . . . . . 75

4.3. Segunda fase del modulo de comprension . . . . . . . . . . . . . . . . . . . 77

4.3.1. Perdida de la secuencialidad . . . . . . . . . . . . . . . . . . . . . . 77

4.3.2. El frame de vuelta . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.3.3. Unidades semanticas no utilizadas en la traduccion . . . . . . . . . 79

4.3.4. Unidades semanticas que generan frames . . . . . . . . . . . . . . . 79

4.3.5. Unidades semanticas que generan atributos . . . . . . . . . . . . . 79

4.3.6. Atributos sin frame . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5. Aproximaciones Gramaticales 83

5.1. Algoritmo ECGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.1.1. Descripcion y Propiedades del Algoritmo ECGI . . . . . . . . . . . 86

5.1.2. Aplicacion del algoritmo ECGI como modelo de lenguaje para lacomprension de BASURDE . . . . . . . . . . . . . . . . . . . . . . 88

5.2. Algoritmo para la inferencia de lenguajes k-TTSS . . . . . . . . . . . . . . 89

5.2.1. Lenguajes k-explorables en sentido estricto . . . . . . . . . . . . . 89

5.2.2. Lenguajes k-explorables en sentido estricto con umbral . . . . . . . 91

5.2.3. Inferencia de (k,r)-TTSS . . . . . . . . . . . . . . . . . . . . . . . . 92

Ejemplo de funcionamiento del (k,r)-TTSSI . . . . . . . . . . . . . 93

5.2.4. Aplicacion del algoritmo (k,r)-TTSSI como modelo de comprensionBASURDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.3. Suavizado de modelos de lenguaje . . . . . . . . . . . . . . . . . . . . . . 95

5.3.1. Suavizado de aproximaciones gramaticales con el SLMtk . . . . . . 96

5.3.2. La estrategia de suavizado . . . . . . . . . . . . . . . . . . . . . . . 96

5.3.3. Aplicacion del suavizado en BASURDE . . . . . . . . . . . . . . . 98

6. Experimentacion 101

6.1. Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

6.1.1. Categorizacion y lematizacion del corpus . . . . . . . . . . . . . . . 102

6.2. Experimentos con texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Bigramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Bigramas con etiquetado lexico . . . . . . . . . . . . . . . . . . . . 106

ECGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

(r,k)-TTSSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.3. Experimentos con voz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

6.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

INDICE GENERAL 9

7. Aplicacion del sistema de comprension al corpus ARISE 113

7.1. Descripcion del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7.2. Comprension del lenguaje en ARISE . . . . . . . . . . . . . . . . . . . . . 115

7.2.1. Representacion semantica en el dominio del ARISE . . . . . . . . . 116

7.2.2. Comprension del lenguaje basada en reglas en el ARISE . . . . . . 116

7.2.3. Adaptacion de la anotacion semantica . . . . . . . . . . . . . . . . 117

7.2.4. Normalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

7.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

7.3.1. Descripcion del Corpus . . . . . . . . . . . . . . . . . . . . . . . . 120

7.3.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

7.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

8. Modulo de Dialogo 125

8.1. La estructura del dialogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

8.2. La estrategia del dialogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

8.3. La historia del dialogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

8.4. El etiquetado de dialogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

8.4.1. El etiquetado a tres niveles . . . . . . . . . . . . . . . . . . . . . . 127

8.5. Sistemas de dialogo dirigidos por la semantica . . . . . . . . . . . . . . . . 128

8.5.1. El modelo de dialogo . . . . . . . . . . . . . . . . . . . . . . . . . . 128

8.5.2. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

8.6. Modelos de comprension especıficos de Dialogo . . . . . . . . . . . . . . . 132

8.6.1. Modelizacion especıfica de la comprension . . . . . . . . . . . . . . 133

8.6.2. Experimentacion y Conclusiones . . . . . . . . . . . . . . . . . . . 133

9. Conclusiones y Trabajos Futuros 137

A. Lexico de la tarea 139

A.1. Listado de Categorıas Abiertas (excluyendo verbos) . . . . . . . . . . . . . 141

A.2. Listado de Categorıas Cerradas . . . . . . . . . . . . . . . . . . . . . . . . 144

A.3. Listado de Verbos para la Tarea (formas infinitivas) . . . . . . . . . . . . 145

A.4. Listado de Modos y Tiempos Verbales Seleccionados . . . . . . . . . . . . 146

A.5. Listado de Formas Verbales del Lexico . . . . . . . . . . . . . . . . . . . . 149

A.6. Formas Verbales con Clıticos Extraıdas de los Corpora . . . . . . . . . . . 152

A.7. Formas Verbales con Clıticos Anadidas . . . . . . . . . . . . . . . . . . . . 152

B. Reduccion del Lexico de Basurde 153

B.1. Fichero de lemas y sinonimos . . . . . . . . . . . . . . . . . . . . . . . . . 153

B.2. Fichero de Categorıas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

C. Normas de etiquetado de los dialogos del proyecto Basurde 159

C.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

C.2. Primer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

C.3. Segundo nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

C.4. Tercer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

10 INDICE GENERAL

D. Descripcion de los escenarios de la tarea 165D.1. Escenarios tipo A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166D.2. Escenarios tipo B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169D.3. Escenarios tipo C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

Bibliografıa 179

Indice de figuras

1.1. Descripcion de un sistema de dialogo hablado . . . . . . . . . . . . . . . . 18

2.1. Diagrama del sistema de comprension Chronus de AT&T. . . . . . . . . 34

3.1. Representacion grafica de frame canonico. . . . . . . . . . . . . . . . . . . 57

4.1. Esquema del proceso de comprension . . . . . . . . . . . . . . . . . . . . . 66

4.2. Creacion del modelo integrado At. . . . . . . . . . . . . . . . . . . . . . . 72

4.3. Ejemplo de traduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.4. Modelo integrado de lenguaje. . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.5. Ejemplo de lexicalizacion de un estado. . . . . . . . . . . . . . . . . . . . . 77

5.1. Automata de estados finitos A inferido con el algoritmo ECGI a partir dela muestra S = {aabb, acbb, aaabb, abb} . . . . . . . . . . . . . . . . . . . . 85

5.2. Algoritmo ECGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.3. Automatas inferidos con el algoritmo ECGI para la unidad semanticaconsulta a partir de las muestras {me podrıa decir cual es, me gustarıasaber cual es, mire me gustarıa saber, me podrıa confirmar, me podrıa in-formar, podrıa saber} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.4. Algoritmo (k,r)-TTSSI para la inferencia de la familia de lenguajes (k,r)-TTSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.5. Arbol aceptor de prefijos obtenido con la muestra S = aababa, abaaba . . 93

5.6. Automata A′

0 obtenido a partir de la muestra anterior . . . . . . . . . . . 93

5.7. Automata cociente A′

0/ ∼ obtenido a partir de A′

0 . . . . . . . . . . . . . 94

5.8. Automata cociente A′

0/ ∼ obtenido a partir de la muestra S para el valorr = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.9. Automatas obtenidos a partir de la muestras {me podrıa decir cual es,me gustarıa saber cual es, mire me gustarıa saber, me podrıa confirmar,me podrıa informar, podrıa saber} de la etiqueta semantica consulta paradiferentes valores de r y k . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5.10. Automata de estados finitos A inferido con el algoritmo ECGI a partir dela muestra S = {aabb, acbb, aaabb, abb} . . . . . . . . . . . . . . . . . . . . 97

5.11. Automata de estados finitos A′inferido con el algoritmo 2-TSS a partir de

la muestra anotada S′= {f(aabb), f(acbb), f(aaabb), f(abb)} . . . . . . . . 97

6.1. Esquema de analisis semantico . . . . . . . . . . . . . . . . . . . . . . . . 103

7.1. Modulos del sistema de dialogo ARISE . . . . . . . . . . . . . . . . . . . . 114

7.2. Esquema de Comprension ARISE . . . . . . . . . . . . . . . . . . . . . . . 115

11

12 INDICE DE FIGURAS

7.3. Algoritmo para la extraccion de la secuencia maxima de palabras . . . . . 1187.4. Algoritmo de la fase de poda . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.1. Red obtenida a partir del primer nivel de etiquetado de dialogo . . . . . . 1308.2. Esquema de funcionamiento del controlador de dialogo . . . . . . . . . . . 1318.3. Algoritmo del controlador de dialogo . . . . . . . . . . . . . . . . . . . . . 1328.4. Ejemplo de etiquetado de dialogo a un nivel . . . . . . . . . . . . . . . . . 1338.5. Seleccion de los modelos especıficos . . . . . . . . . . . . . . . . . . . . . . 134

Indice de tablas

3.1. Analisis de la longitud de los dialogos expresado en turnos . . . . . . . . . 50

5.1. Tabla de transicion del automata A . . . . . . . . . . . . . . . . . . . . . . 98

5.2. Tabla de transicion del automata A′

. . . . . . . . . . . . . . . . . . . . . 98

6.1. Caracterısticas de los conjuntos de entrenamiento y test . . . . . . . . . . 102

6.2. Caracterısticas de los conjuntos de entrenamiento y test del modelo superiorde secuencias de unidades semanticas y perplejidad para un modelo debigramas de unidades semanticas . . . . . . . . . . . . . . . . . . . . . . . 102

6.3. Caracterısticas de los conjuntos de entrenamiento y de test una vez lema-tizados y categorizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

6.4. Caracterısticas de los modelos de bigramas sin suavizar indeferidos en losniveles superior e inferior para cada particion del corpus y la media . . . . 106

6.5. Resultados al aplicar modelos de bigramas sin suavizar en los niveles su-perior e inferior para cada particion del corpus y la media . . . . . . . . . 106

6.6. Resultados de aplicar modelos de bigramas suavizados por Back-Off paracada particion del corpus y la media . . . . . . . . . . . . . . . . . . . . . 107

6.7. Resultados experimentales empleando etiquetas POS . . . . . . . . . . . . 107

6.8. Caracterısticas de los modelos inferidos con el algoritmo ECGI para cadaparticion del corpus y la media . . . . . . . . . . . . . . . . . . . . . . . . 108

6.9. Resultados obtenidos con el algoritmo ECGI para cada particion del corpusy la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

6.10. Caracterısticas de los modelos empleando un modelo de Bigramas comomodelo superior y un modelo inferido con el ECGI como el modelo inferiorpara cada particion del corpus y la media . . . . . . . . . . . . . . . . . . 108

6.11. Resultados obtenidos con el algoritmo ECGI en el modelo inferior y Bigra-mas en el modelo superior para cada particion del corpus y la media . . . 108

6.12. Caracterısticas modelos obtenidos con el algoritmo (r=2,k=2)-TTSSI paracada particion del corpus y la media . . . . . . . . . . . . . . . . . . . . . 109

6.13. Resultados obtenidos aplicando el algoritmo (r=1,k=2)-TTSSI para inferirel modelo superior de la tecnica de 2 niveles y (r=2,k=2)-TTSSI para inferirel modelo inferior, para cada particion del corpus y la media . . . . . . . . 109

6.14. Resultados de aplicar modelos de bigramas suavizados por Back-Off sobrepronunciaciones transcritas manualmente y sobre reconocimiento . . . . . 110

6.15. Resultados de aplicar el modelo BIG-ECGI sobre pronunciaciones trans-critas manualmente y sobre reconocimiento . . . . . . . . . . . . . . . . . 110

13

14 INDICE DE TABLAS

6.16. Resultados de aplicar modelos de (r=1,k=2)-TTSSI para el modelos su-perior y (r=2,k=2)-TTSSI para el modelo inferior sobre pronunciacionestranscritas manualmente y sobre reconocimiento . . . . . . . . . . . . . . 110

7.1. Ejemplo de decodificacion semantica para la version estocastica del ARISE 1167.2. Ejemplo de anotacion semantica basada en conceptos . . . . . . . . . . . . 1177.3. Ejemplo de la anotacion de conceptos con palabras adyacentes . . . . . . 1187.4. Ejemplo de la normalizacion de valores . . . . . . . . . . . . . . . . . . . . 1197.5. Ejemplo de la anotacion con Palabras Adyacentes en la normalizacion de

valores para el Frame sin extraccion de palabras . . . . . . . . . . . . . . 1207.6. Ejemplo de la anotacion con Palabras Adyacentes en la normalizacion de

valores para el frame aplicando el programa de extraccion de palabras . . 1207.7. Descripcion de los corpus de entrenamiento, tuning y test. Numero de pro-

nunciaciones (#Utt.), palabras (#Words) y conceptos CVR (#Concepts)de los conjuntos de entrenamiento, tuning y test. Se muestra el Word ErrorRate de las pronunciaciones reconocidas para los conjuntos de tuning y detest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

7.8. Ratios de error para comprension ( %REC) para la aproximacion basadaen reglas, el modelo estocastico 1 nivel del LIMSI y el modelo estocasticode 2 niveles para las transcripciones Manuales y salida del reconocedor(Automatica) tanto para el conjunto de Tuning como para el de Test . . . 121

7.9. Comparativa de los ratios de comprension ( %REC) de las diferentes com-binaciones de premarkers y postmarkers ası como su agrupamiento para elconjunto de tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

7.10. Ratios de error para la compresion (%REC) de la expansion de la anotacionde los conceptos con el numero optimo de palabras adjacentes combinadoe individual para el conjunto de tuning (Tun.) y el de test (Test) . . . . . 123

8.1. Resultados de los experimentos sobre modelos especıficos y generales paralas etiquetas Apertura, Confirmacion, Nueva consulta y Pregunta. . . . . . 135

Capıtulo 1

Introduccion

Las posibilidades de comunicacion oral entre el hombre y los computadores se han idoincrementando ampliamente a lo largo de las ultimas decadas. Son muchos los factoresque han permitido llegar al estado del arte actual en lo que se denomina Ingenierıa dela Lengua. El paso de los sistemas de reconocimiento de palabras aisladas de los anos 70a los actuales sistemas de reconocimiento de habla continua para grandes vocabularios yprimeros sistemas de dialogo hablado se ha producido gracias al gran esfuerzo de muchosgrupos de investigacion y a los avances tecnologicos en muchos campos, entre los que seencuentran las mayores prestaciones de los computadores actuales.

Sin embargo, y a pesar de estos logros, aun ciertas dificultades inherentes a los procesosde comunicacion oral hacen difıcil disponer de sistemas robustos de comunicacion hombre-maquina. En concreto nos referimos a la cantidad y diversidad de fuentes de conocimientoinvolucradas en el proceso de comunicacion oral, como la fonetica, sintactica, semantica,contextual, o a la dificultad de tratar con multiples fuentes de ruido, que pueden apareceren el proceso de comunicacion. Tal es el caso de los ruidos externos, si el ambiente esnatural (oficinas, telefonos, etc, ), o los mismos errores producidos por el locutor, comolas incorrectas pronunciaciones foneticas o errores de tipo sintactico.

Es quizas esta caracterıstica de tener que tratar con informacion muy ruidosa la queha determinado que la aplicacion de metodos estocasticos en la modelizacion de las fuen-tes de conocimiento haya sido la que mejores resultados ha producido. Es interesanteobservar que siempre que se han abordado nuevos retos dentro de las tecnologıas de hablaen un principio se ha intentado representar el conocimiento mediante reglas, pero confor-me se han ido adaptando y desarrollando los algoritmos de aprendizaje y decodificacionde modelos estocasticos, los metodos basados en reglas han quedado relegados ante lasbuenas prestaciones de los metodos estocasticos. Tal serıa el caso de la representacionde las caracterısticas acusticas de los fonemas, que frente a las descripciones linguısticasproporcionadas por los foneticos, los Modelos Ocultos de Markov (HMM) (Rabiner, 1989)han dado mejores resultados; o la sintaxis cuya descripcion de forma deductiva medianteuna gramatica esta descartada a no ser que se trate de una tarea muy simple, siendo losmejores resultados los obtenidos por sistemas que se basan en N-gramas (Bahl, Jelinek, yMercer, 1983) (Jelinek, 1986) o en gramaticas aprendidas por tecnicas de Inferencia Gra-matical (IG) (Fu y Booth, 1975). En la actualidad el problema de la comprension de hablase aborda tanto por metodos basados en reglas como estocasticos, y el de la gestion del

15

16 Capıtulo 1. Introduccion

dialogo se aborda principalmente mediante reglas. Es de suponer que conforme avancenlas investigaciones sobre la aplicacion de metodos estocasticos a modelos de comprensiony dialogo, y se vayan construyendo grandes corpora de datos etiquetados, este tipo deaproximaciones vayan mejorando sus prestaciones.

Dentro de la necesaria cooperacion entre el conocimiento deductivo que aporta eldisenador del sistema y el conocimiento inductivo, que es inferido de forma automatica porlos metodos de aprendizaje basados en muestras, y que permite obtener una modelizacionde las fuentes de conocimiento, la situacion actual serıa la siguiente.

La definicion del catalogo de unidades basicas para cada nivel de representacion, ofuente de conocimiento, se hace en base al conocimiento de la tarea. Por ejemplo, seutiliza el conocimiento linguıstico para la eleccion del conjunto de unidades acusticas(fonemas, fonemas con contexto, sılabas, etc), el conocimiento sobre la tarea parala eleccion de las unidades basicas que representan los significados, es decir, lasemantica, o el conocimiento sobre los tipos de interacciones que se producen en undialogo para definir los llamados actos de dialogo.

El aprendizaje de los modelos que representan estas unidades basicas o la relacion(concatenacion) entre ellas se realiza mediante tecnicas de aprendizaje automatico,a partir de muestras.

Gracias a la existencia de las tecnicas de aprendizaje automatico, la adaptacion delos sistemas a nuevas tareas (cambio de idioma, o cambio de aplicacion) se limita a ladefinicion de las correspondientes unidades basicas para las tareas y a disponer de un con-junto de muestras de aprendizaje. Estos metodos de aprendizaje automatico y definicionde unidades estan bien estudiados y son de facil aplicacion para los primeros niveles delreconocimiento del habla, como son el acustico-fonetico y el sintactico, pero entranan aungran dificultad en el caso de la modelizacion semantica y de la estructura del dialogo.

A partir del estado del arte en estas areas involucradas en el desarrollo de los sistemasde dialogo, podemos plantear que tipo de sistemas pueden obtenerse, basandonos en supotencial utilidad, y en las capacidades actuales. Desde el punto de vista de la utilidad,partiendo de la base de que la comunicacion oral es la forma natural de comunicacionhumana, la existencia de sistemas de comunicacion oral hombre-maquina abre grandesposibilidades para el aprovechamiento de la potencia de los computadores, en cuanto a lagestion de informacion, control de procesos, etc.

¿Que tipo de aplicaciones pueden ser utiles e implementables en la actualidad? En elcaso mas simple, podemos considerar los sistemas de accesos telefonico a informacion quese basan en que el usuario, mediante la pronunciacion de dıgitos o palabras clave, indiqueal sistema la informacion que requiere. Este tipo de aplicaciones estan absolutamentedirigidas por el sistema y el usuario solo tiene opciones del tipo de indicar medianteun numero o un nombre la opcion elegida, proporcionar su numero de identificacion oDNI, y responder palabras como “sı” o “no”. Aunque estos sistemas pueden ser utilespara algunas aplicaciones concretas, en las que la informacion solicitada esta claramentepredeterminada, no existe ambiguedad, y la variedad en cuanto el tipo de las informacioneses pequena, no estan exentos de las dificultades del reconocimiento robusto de voz enambientes ruidosos, ya que su utilidad se basa en que sean accesibles desde cualquier

1.1. Estructura de un sistema de dialogo hablado 17

lugar, por ejemplo mediante telefono movil, dentro de un coche, o desde una oficina enla que hay ruido ambiente. El siguiente tipo de sistemas de interaccion hombre-maquina,que es el que mas interes despierta en la actualidad, es aquel que permite la comunicacionoral , y permite a su vez establecer un dialogo que ayude a la consecucion de los objetivosplanteados por el usuario. Dejando en el ambito de lo futurible la existencia de sistemasde dialogo que acepten toda la variabilidad de un dialogo hombre-hombre, podemos enla actualidad abordar el diseno de sistemas de dialogo de iniciativa mixta para tareasconcretas. Un sistema de dialogo de este tipo, para ser util requiere tener las siguientescaracterısticas:

El modo de acceso telefonico. Cada vez sera mas importante el acceso a traves detelefono movil, con las dificultades anadidas que conlleva.

Debe ser independiente del locutor. Logicamente los accesos seran de multiplesusuarios, y ni siquiera es aceptable la adaptacion al locutor.

Uso de lenguaje natural. Los usuarios deben poder hablar de forma natural, sinuna sintaxis rıgida impuesta por el sistema y usando el lexico mas amplio posible.Se deben ademas aceptar las incorrecciones lexicas y sintacticas propias del hablaespontanea, y aunque el lexico este limitado por el ambito de la tarea, se ha depermitir que el usuario utilice un amplio vocabulario.

Aceptar habla continua. Para una interaccion fluida se debe permitir habla continua,sin pausas entre palabras.

Gestion mixta del dialogo. El dialogo no estara totalmente dirigido por el sistema.El usuario podra tomar la iniciativa y orientar con sus preguntas el curso de lainteraccion. De todas formas, como puede suponerse, no se podra dar demasiadalibertad al usuario ya que no es posible disenar un gestor de dialogo que este pre-parado para cualquier intervencion de los usuarios. Ante situaciones no esperadas,debera tomar la iniciativa y reconducir el dialogo.

El desarrollo de este tipo de sistemas empezo a plantearse a partir de los anos 90,cuando el reconocimiento de habla continua alcanzo un nivel suficiente como para abordartareas de mayor complejidad. Algunas de las aplicaciones mas habituales han sido elacceso telefonico a sistemas de informacion, por ejemplo horarios de aviones o trenes,informacion municipal, ocio y servicios, como cines o restaurantes, catalogo de ventas deproductos, informacion meteorologica, navegacion por voz en Internet, etc. Tambien seha explorado el desarrollo de sistemas de gestion de los buzones de voz telefonicos, o lacreacion de centralitas telefonicas gestionadas por voz. Otros sistemas mas ambiciosospretenden automatizar la interaccion hombre-maquina para tareas de planificacion o debusqueda conjunta de un objetivo, por ejemplo establecer una cita o planificar un viaje.

1.1. Estructura de un sistema de dialogo hablado

En la Figura 1.1 se muestra un esquema general de un sistema de dialogo habla-do. Como puede verse existen multiples fuentes de conocimiento que deben tenerse enconsideracion para su desarrollo. Podemos establecer tres bloques:


El bloque correspondiente al tratamiento del turno del usuario. Comprende la adqui-sicion, preproceso, reconocimiento y comprension. Al final de este bloque se esperaque el sistema haya comprendido la pronunciacion del usuario, lo cual significa quemediante algun tipo de representacion se conozca el objetivo o funcion del turno(llamado acto de dialogo) (Fillmore, 1968) y/o la informacion (o datos) proporcio-nados.

El gestor de dialogo, que debera tomar una decision para generar un turno de res-puesta. La actuacion del gestor de dialogo se basara en tres factores: la informacionproporcionada por el usuario en el ultimo turno; la informacion almacenada porel propio gestor a lo largo del dialogo hasta este momento, es decir la historia deldialogo; y la informacion del contexto de la aplicacion, que basicamente estara repre-sentada por la base de datos sobre la que se esta preguntado. Las principales accionesque suele realizar un gestor de dialogo son: confirmar datos, recuperar errores, diri-gir el dialogo hacia el objetivo solicitando nuevos datos, proporcionar la informacionsolicitada, y acciones propias del metalenguaje de dialogo como cortesıa, aperturade dialogo, o frases del tipo “espere un momento por favor”.

El bloque de generacion de respuesta, al que el gestor de dialogo enviara una repre-sentacion del mensaje que se debe emitir al usuario y que se ha de convertir en unafrase en lenguaje natural, y posteriormente sera sintetizada y emitida.

Base deDatos (BD)

Reglas

LenguajeModelos deModelos

Acústicos

Respuesta

VozSecuencia de

palabrasSintetizador

de voz de respuestas

Consulta aReconocedorde voz

FrameConsulta

palabras BD

Secuencia de

Generador

DiálogoModelos Historia del

la BDControladordel Diálogo

AnalizadorSemántico

Diccionario deunidades de voz

Semánticos

Figura 1.1: Descripcion de un sistema de dialogo hablado

Como se ha dicho anteriormente el desarrollo de sistemas de dialogo hablado ha sidoposible gracias a las prestaciones alcanzadas en las distintas areas implicadas. En particu-lar, el reconocimiento automatico del habla, que es el primer eslabon del sistema, sin elcual no podrıa pensarse en la existencia de sistemas de dialogo.

1.1. Estructura de un sistema de dialogo hablado 19

a) Reconocimiento del habla.

Los sistemas de reconocimiento del habla empezaron a dar buenos resultados a par-tir de los anos 80 en que se generalizo el uso de Modelos Ocultos de Markov (HMM)(Rabiner, 1989) como forma de representar las caracterısticas acusticas de las uni-dades del habla. El exito de los HMM se basa principalmente en la existencia dealgoritmos de aprendizaje automatico de los parametros del modelo (Baum-Welch)(Rabiner y Juang, 1993), ası como en su capacidad para representar el habla comoun fenomeno secuencial en el tiempo. Se han estudiado multiples aproximaciones,como son los modelos discretos, semicontinuos o continuos, ası como diversas to-pologıas de los modelos. Un factor importantısimo es la eleccion de las unidadesacusticas basicas. Aunque inicialmente es el fonema la unidad mas elemental delhabla, para la implementacion de sistemas de reconocimiento es necesario el uso defonemas con contexto (u otras unidades mayores como las sılabas o semisılabas),como unidad basica, ya que de esta forma se pueden representar los efectos acusti-cos debido a la coarticulacion de fonemas y palabras. El inconveniente que tiene laproliferacion de unidades basicas, ası como el de modelos mas precisos (como son losmodelos continuos con multiples gaussianas) es que se requiere mayor computacionen el proceso de aprendizaje, y por tanto mayor numero de muestras.

Uno de los elementos imprescindibles para disponer de un reconocedor de hablacontinua es el modelo de lenguaje. Dado que la percepcion de la acustica es a menudoinsuficiente, incluso para las personas, para reconocer la secuencia de fonemas opalabras pronunciadas, es necesario tener un modelo de concatenacion de palabras.Los modelos de lenguaje mas utilizados son los basados en N-gramas (Bahl, Jelinek,y Mercer, 1983) (Jelinek, 1986) y los basados en gramaticas regulares (Segarra, 1993)o independientes del contexto (Jelinek, Lafferty, y Mercer, 1992). Las gramaticassuelen ser adecuadas para tareas reducidas, ya que permiten mas precision en el tipode restricciones que imponen, pero son incapaces de representar la gran variabilidaddel habla natural. Los N-gramas, sin embargo recogen de una forma mas sencilla lasconcatenaciones entre palabras pero son muy adecuados cuando se dispone de unnumero suficiente de muestras de entrenamiento. En ambos casos la existencia detecnicas de aprendizaje automatico (Inferencia Gramatical) para las Gramaticas (Fuy Booth, 1975) y tecnicas de estimacion de parametros para los N-gramas y tecnicasde suavizado permite la obtencion de modelos adecuados para el reconocimiento delhabla. En el caso de HMM como representacion acustico-fonetica y de N-gramascomo modelos de lenguaje, se construye una red de estados en que las palabras estanrepresentadas por la concatenacion de modelos de los fonemas que las componen. Elproceso de reconocimiento, el cual puede ser llevado a cabo mediante el algoritmo deViterbi, consiste en obtener la mejor secuencia de palabras, dada la entrada acusticay el modelo de lenguaje. Es decir:

W = argmaxw∈W+ P (W ) · P (A|W )

donde W = w1, w2, . . . , ww es la secuencia de palabras, A = A1A2 . . . A|A| la secuen-cia acustica, P (W ) es la probabilidad “a priori” de la generacion de la secuenciade palabras w1w2 . . . wn y viene determinada por el modelo de lenguaje. En generalesta probabilidad se puede expresar como:


P (W ) =∏

i=1..nP (wi|w1 . . . wi−1)

donde P (wi|w1 . . . wi−1) representa la probabilidad de que sea pronunciada la pala-bra wi si hasta el momento se ha pronunciado la subsecuencia de palabras w1 . . . wi−1.

Los reconocedores de habla que se han de implementar en un sistema de dialogodeben tener en cuenta algunas de las caracterısticas del tipo de pronunciaciones conlas que se van a encontrar. Podemos destacar el hecho de que al ser independientesdel locutor hay que trabajar con un tipo de representacion de la senal de entrada,lo mas independiente del locutor, y del canal que se utilice. Por otra parte se han deconsiderar los efectos del habla espontanea, como son los sonidos carentes de signifi-cado (hum, ehh, mm), los reinicios de palabras o frases, o la incorreccion sintactica.Asimismo habra que disponer de mecanismos para detectar o tratar palabras fueradel vocabulario.

b) Comprension del habla.

Tras los sistemas de reconocimiento, debemos considerar los sistemas de compren-sion que, aunque seran tratados con profundidad a lo largo de esta tesis, veremoscuales son sus caracterısticas principales. En primer lugar podemos establecer dostipos de aproximaciones al proceso de comprension: las basadas en reglas (Benna-cef et al., 1994), (Seneff, 1992), (Peckham, 1993), (Ward, 1994), (Cheng, Fortier, yNormandin, 1994), (Kuhn y Mori, 1993) y (Oeder y Aust, 1994) y las basadas enmodelos estocasticos (Miller et al., 1996), (Segarra et al., 2001), (Bonneau-Maynardy Lefevre, 2001), (Minker, 1998), (Epstein et al., 1996) y (Levin y Pieraccini, 1995).En el caso de las basadas en reglas la informacion semantica se extrae a partir delanalisis sintactico-semantico de las frases, utilizando gramaticas definidas para latarea, o a partir de la deteccion de palabras (o secuencias de palabras) clave, consignificado semantico. En el caso de los metodos estocasticos el proceso se basa enla definicion de unidades linguısticas con contenido semantico y en la obtencion demodelos a partir de muestras etiquetadas. El proceso de comprension se realiza deforma similar al del reconocimiento del habla, mediante el algoritmo de Viterbi, pue-de interpretarse como un proceso de traduccion de una frase de entrada (secuenciade palabras) en una frase de salida (secuencia de unidades semanticas). Un aspectoimportante a considerar es la forma de transmitir la informacion entre los modulosde reconocimiento y de comprension. Con el objetivo de que los errores de la etapade reconocimiento puedan ser recuperados en posteriores etapas hay multiples pro-puestas para proporcionar mas de una sola frase, como es el caso de las N mejoresfrases (N-best) (Soong y Huang, 1991), o de los grafos de palabras (Aubert y Ney,1995) y (Ney, Ortmanns, y Lindam, 1997). De esta forma la etapa de comprensionpuede tener en consideracion multiples hipotesis del reconocedor. Esta misma ideapodrıa ser aplicada a la comunicacion entre el modulo de comprension y el gestorde dialogo.

c) Gestion del dialogo.

Ası como en los modulos anteriormente descritos es habitual encontrar aproxima-ciones basadas en metodos estocasticos, en el caso de los gestores de dialogo haymayores dificultades para estas modelizaciones, principalmente debido a la falta de

1.2. Descripcion de algunos sistemas de dialogo hablado 21

muestras de aprendizaje y a la gran cantidad de situaciones, o estados del dialogo,que habrıa que representar. Por ello la mayorıa de sistemas de dialogo tienen re-presentada la estrategia del dialogo en forma de reglas. Se han desarrollado en losultimos anos, algunas herramientas “toolkit” para el desarrollo de sistemas de dialo-go que permiten al disenador que defina el comportamiento del gestor de dialogo(CMU Communicator (Xu y Rudnicky, 2000b), VOICEXML (Nyberg et al., 2002),CSLU (McTear, 1998), (McTear, 1999)). Sin embargo, tambien hay aproximacio-nes basadas en metodos estocasticos, donde las unidades basicas son los “actos dedialogo” (Bennacef, Neel, y Bonneau-Maynard, 1995), y se puede modelizar el com-portamiento del dialogo como una secuencia de estos. Se debe tener en cuenta queeste tipo de representacion es limitada, en la medida en que un acto de dialogorepresenta una intencion del turno, pero en principio no aporta informacion sobresu contenido semantico.

d) Sıntesis de voz.

Finalmente en el caso de la sıntesis del habla, existen en la actualidad buenos sis-temas (Bonafonte et al., 2000). Para producir voz, pueden utilizarse mecanismosdiversos, dependiendo de la complejidad de los recursos que se disponga. Existensistemas que se limitan a unos pocos los mensajes que puede generar la maquina(cita previa de la ITV, informacion bursatil). En estos sistemas la generacion de vozpuede realizarse mediante la reproduccion de mensajes grabados, o concatenandograbaciones de palabras o frases. Sin embargo existen apliaciones donde la informa-cion es tan grande que es muy posible que nunca se llegue a escuchar toda (noticias,lectura de correo electronico, etc.) en este contexto se contemplan los sistemas deconversion de texto en habla, capaces de producir voz a partir de un representacionescrita.

La conversion de texto en habla puede dividirse en tres procesos (Bonanfonte, 2003).El primero nos dicta que se ha de decir, esto es, que sonidos se han de pronunciar.Este proceso debe analizar el texto, interpretar formas de expresion no explıcita co-mo son abreviaturas, cifras, etc. (normalizacion) y determinar los sonidos asociadosa cada palabra (transcripcion fonetica). El segundo indica como se ha de pronunciarcada sonido (rapido, lento, grave, agudo, fuerte, flojo, etc.) considerados individual-mente o en su conjunto. Son las caracterısticas llamadas prosodicas (pitch, pausas,duracion, entonacion). Finalmente se ha de generar el habla acorde a esos sonidos ya esas caracterısticas, donde los metodos para generar voz se suelen clasificar en tres:sıntesis por formantes, sıntesis articulatoria y sıntesis por concatenacion, siendo esteultimo el metodo dominante en los sistemas actuales y que se basa en disponer de ungran catalogo de unidades basicas, y mediante la concatenacion de estas unidadesse forman las frases, no sin antes realizar los postprocesos necesarios para dotar ala pronunciacion de la mayor naturalidad.

1.2. Descripcion de algunos sistemas de dialogo hablado

Son muchos los laboratorios que han dedicado grandes esfuerzo a la obtencion desistemas de dialogo. Aunque las aplicaciones escogidas son variadas, la mayorıa de ellos seha centrado en sistemas de acceso a informacion. Las restricciones que suelen tener estos


sistemas son: una talla del vocabulario de una 2.000 palabras, iniciativa mixta, acceso enlenguaje natural, y tareas semanticamente restringidas.

Una de las primeras tareas que se planteo fue la tarea ATIS (Air Travel InformationServices) (Pallet et al., 1995) patrocinado por la organizacion ARPA (Advanced ResearchProjects Agency) que consiste en obtener informacion sobre vuelos. En torno a esta tarease desarrollaron multiples proyectos y se convirtio, junto a la de informacion sobre trenesen un tipo de aplicacion ampliamente estudiada en otras lenguas. Un ejemplo de ello sonlos proyectos SUNDIAL (Peckham, 1993), ARISE (Lamel et al., 2000), MASK (Gauvainet al., 1997),...

A continuacion se muestra una breve descripcion de algunos de los proyectos y labo-ratorios mas representativos, que representan la evolucion en el desarrollo de sistemas dedialogo:

ATT: Desde los primeros proyectos de desarrollo de sistemas de dialogo, los laboratoriosde ATT han trabajado en esta lınea, haciendo especial enfasis en la utilizacionde modelos estocasticos, tanto para comprension como para dialogo. Desarrollarondiversas aplicaciones para la tarea ATIS, como fue el proyecto AMICA (Pieraccini,Levin, y Eckert, 1997). Actualmente desarrolla proyectos como “How May I Helpyou?” (Gorin, Riccardi, y Wright, 1997), consistente en una tarea de “callrouting”.Durante tres anos se adquirieron 30.000 dialogos.

MIT: Ademas de trabajar con la tarea ATIS, en el MIT se desarrollo un sistema dedialogo, GALAXY (Goddeau et al., 1994), con el objetivo de ser un sistema conver-sacional valido para distintos dominios. Un ejemplo de los diferentes sub-dominios,es el WHEELS que es un sistema de acceso a informacion sobre ventas de coches, elVOYAGER, cuyo objetivo es proporcionar informacion tıpicamente relacionadas conviajes, como distancias entre ciudades, hoteles, direcciones o numeros de telefono.El JUPITER (Zue et al., 2000) es un sistema de informacion sobre el tiempo. Desdemayo de 1997 se han recibido sobre 100.000 llamadas, y la talla del vocabulario esde 1.957 que incluye 650 ciudades y 166 paıses.

CMU: Uno de los principales proyectos desarrollados en la CMU es el CommunicatorTravel Planning system, cuya tarea es la de planificacion de viajes: aviones, hoteleso reservas de coche (Rudnicky et al., 1999). La talla del vocabulario es de 2.500palabras. Otro proyecto es el CMU-VODIS (Geutner et al., 1998), orientado aldesarrollo de aplicaciones de interfaz oral hombre-maquina en los automoviles.

SUNDIAL: Entre los primeros proyectos desarrollados en Europa se encuentra el SUN-DIAL (Peckman, 1991) (Peckham, 1993) (Giachin y McGlashan, 1997). Se desarro-llaron cuatro prototipos en cuatro lenguas distintas para las consultas de horarios detrenes en Aleman e Italiano y de vuelos en Ingles y Frances. El objetivo del proyec-to era construir sistemas de dialogo integrados en tiempo real capaces de mantenerdialogos cooperativos con los usuarios.

LIMSI: A partir de los trabajos desarrollados sobre la version francesa de ATIS (Ben-nacef et al., 1994), se desarrollo el proyecto ARISE (Lamel et al., 2000), y el MASK(Gauvain et al., 1997). El ARISE fue un proyecto europeo para desarrollar un proto-tipo automatico de consulta de horarios y servicios para trenes que permita manejar

1.2. Descripcion de algunos sistemas de dialogo hablado 23

la gran mayorıa de las rutinarias consultas telefonicas. Se construyo un sistema pa-ra los operadores alemanes e italianos y dos para el frances. El proyecto predecesorRAILTEL (Bennacef et al., 1996; Lamel et al., 1997), definio la estructura parael desarrollo de los servicios interactivos de voz que proporcionan los horarios yplanificacion en diversos lenguajes (Aleman, Ingles, Frances y Italiano) a travesdel telefono. El proyecto MASK (Gauvain et al., 1997) desarrollo un servicio dequiosco multimodal y multimedia para ser colocado en las estaciones de tren. Sedesarrollo un prototipo de quiosco de informacion que se instalo en la estacion de“St. Lazare” en Parıs. El quiosco pretende mejorar la eficacia de tales servicios per-mitiendo la interaccion con el uso coordinado de entradas multimodales (discurso ytacto) y salidas multimedia (sonido, vıdeo, texto y graficos) creando ası una nuevamodalidad de servicios al publico.

TRAINS Universidad de Rochester: (Allen et al., 1995) (Allen et al., 2000) es unsistema de dialogo en lenguaje natural para la planificacion de la ruta de trenesdesarrollado en la Universidad de Rochester. La motivacion es obtener el conjuntode rutas mas eficiente entre dos ciudades. Un analisis bottom-up para Context FreeGrammars produce una secuencia de actos de dialogo a la vez de llevar a cabo unexacto analisis sintactico. El rendimiento de la tarea de TRAINS fue evaluada enterminos de dos metricas: la cantidad de tiempo que se necesita para obtener lainformacion del itinerario y la calidad de la solucion, medida por la cantidad detiempo necesaria para cubrir las rutas.

Los proyectos VERBMOBIL (Kay, Gawron, y Norvig, 1994) y C-STAR (consorciofundado en 1991 por ATR Interpreting Telephony Laboratories (Kyoto, Japan), Car-negie Mellon University (Pittsburgh, USA), University of Karlsruhe (Karlsruhe, Ger-many) y Siemens AG (Munich, Germany) http://www.c-star.org/main/english/cstar2/-navigator.html) incluyen los recursos de un sistema de dialogo para una tarea de traduc-cion multilingue entre lenguaje hablado.

En Espana existen en la actualidad diversos grupo trabajando en el desarrollo desistemas de dialogo:

Universidad de Granada: STACC (Rubio et al., 1997) Es un sistema de acceso te-lefonico o por internet a informacion sobre calificaciones desarrolado por el Depar-tamento de Electronica y Tecnologıa de Computadores (GiPSC).

UPC: Han participado en el proyecto BASURDE (Bonafonte et al., 2000), en la definicionde escenarios y adquisicion del corpus a traves de tecnicas de Mago de Oz (Fraser yGilbert, 1991), definicion de la representacion semantica de la tarea, definicion delvocabulario de la tarea e implementacion del modulo de sıntesis de habla, ademasde implementar el modulo de comprension y dialogo basado en reglas. Tambien handesarrollado un sistema de acceso telefonico a informacion meteorologica en catalandenominado Attemps (Hernando, Padrell, y H., 2002), que permite el acceso a lainformacion de las estaciones metereologicas del Departament de Medi Ambient,pudiendo ası recibir informacion de un determinado municipio de Cataluna.

UPV: Ha participado en la definicion de escenarios para la adquisicion de dialogos, ladefinicion del vocabulario y de la representacion semantica, ası como, en la cons-


truccion del modulo de comprension y de control del dialogo, ambos estocasticos,del sistema BASURDE (Segarra et al., 2001).

Universidad de Vigo: Han desarrollado un sistema de acceso mediante voz al buzonde voz telefonico en gallego y castellano (Rodrıguez-Linares et al., 2002). Participaninvestigadores de las universidades de Vigo y Santiago de Compostela. El sistemaesta desarrollado usando la herramienta VOICEXML y en (Perez-Pinar-Linareset al., 2002) se presenta una arquitectura especıfica para sistemas de dialogo quepermite la integracion automatica de todas las fuentes de conocimiento linguıstico(gramatica, modelo de lenguaje y vocabulario) a partir de la especificacion formalde la aplicacion.

Telefonica I+D: Ha participado en el proyecto IDAS financiado por la Union Europea(1998-2000) en el que se ha desarrollado un sistema automatico mediante recono-cimiento de voz capaz de dar un servicio de paginas blancas por telefono, propor-cionando numeros de telefono o de fax de particulares y empresas (Lehtinen et al.,2000). El sistema es de habla aislada para grandes vocabularios (10.000 palabras) eindependiente del locutor.

Ademas tiene un sistema de acceso a la informacion sobre horarios de trenes paralas conexiones entre ciudades espanolas, donde se propone una combinacion de va-rias fuentes de informacion con el fin de definir y evaluar la estrategia de dialogo:intuicion a partir del conocimiento que nos pueda dar el diagrama entidad relacionde la base de datos, observacion a partir de transcripciones de dialogos entre usua-rios y operadores y simulacion empleando la tecnica del Mago de Oz para aprenderlas caracterısticas especiales de la interaccion hombre-maquina (San-Segundo et al.,2001). Ademas se incorpora medidas de confianza en el reconocimiento con el fin dedefinir y controlar los mecanismos de confirmacion.

1.3. Objetivos de la Tesis

En este apartado se va a detallar aquellos aspectos mas significativos que esta tesispretende abordar. El principal objetivo es el desarrollo de metodologıas de aprendizaje apartir de corpus para el proceso de comprension del lenguaje en el contexto de un sistemade dialogo hablado. Para ello se han propuesto diversas aproximaciones que han sidoevaluadas sobre un corpus de datos, en nuestro caso dialogos hablados, adquirido dentrodel proyecto BASURDE.

Las principales lineas de trabajo que se han desarrollado son:

- Definicion de una representacion de la semantica asociada a las frases. Se ha traba-jado en la definicion de la representacion mediante frames de la informacion propor-cionada en las frases, y en la definicion de un lenguaje intermedio, secuencial con lafrase de entrada, que permite un proceso de traduccion secuencial de las frases.

- Estudio de tecnicas de aprendizaje automatico de modelos estocasticos y su aplica-cion al proceso de comprension del habla. Se ha abordado el problema de la com-prension con un esquema de dos niveles: un nivel semantico, que debe representarlas posibles secuencias de unidades semanticas en el lenguaje, y un nivel sintactico

1.4. Estructura de la Tesis 25

que debe representar las diferentes formas de decir ciertas unides semanticas. Pa-ra ello se han aprendido modelos estocasticos utilizando N-gramas y aplicando dosalgoritmos de inferencia gramatical ampliamente empleados en reconocimiento delhabla y en decodificacion acustico fonetica: el basado en el Analisis Corrector deErrores (ECGI) (Rulot, 1992) que construye una gramatica regular (o el equivalen-te automata de estados finitos) de forma incremental a partir de un conjunto demuestras positivas, o el algoritmo para la inferencia de lenguajes k-explorables conumbral (r,k)-TTSSI (Garcia y Vidal, 1990) donde la pertenencia de una cadena allenguaje esta determinada por el conjunto de segmentos de un tamano k que puedenaparecer en ella y por los prefijos o sufijos de longitudes menores que k.

- Se ha abordado el problema del suavizado de los modelos de comprension con elfin de conseguir una cobertura lo mas amplia posible de la tarea. Por otra parte,se han aplicado tecnicas orientadas a reducir la talla del vocabulario y aumentar lacobertura de los modelos, como son el uso de lemas, categorıas lexicas o semanticas.

- La comprension en el contexto de un dialogo. Se ha estudiado la posibilidad deutilizar la informacion aportada por el estado en que se encuentra un dialogo paraayudar al proceso de comprension, en particular se ha estudiado la posibilidad deutilizar modelos especıficos en funcion del contexto del dialogo.

1.4. Estructura de la Tesis

La tesis se estructura en 9 capıtulos y 4 apendices. En el presente capıtulo de intro-duccion se describe la estructura y funcionamiento de los sistemas de dialogo hablados,ası como se enumeran algunos de los laboratorios y grupos de investigacion que han lle-vado a cabo la construccion de sistemas de dialogo. Por ultimo se marcan los objetivosde la tesis.

En el capıtulo 2 se hace una revision bibliografica de las principales aproximacionesa la comprension del lenguaje. En el se desarrolla como se representa el conocimiento,cuales son los metodos analisis, ası como una descripcion de los diferentes modelos delenguaje.

En el capıtulo 3 se presenta la tarea BASURDE, describiendo como se han adquiridolos dialogos que forman parte del corpus BASURDE. Tambien se describe la representa-cion semantica elegida, en nuestro caso se emplea el formalismo de los case frames.

En el capıtulo 4 se presenta una aproximacion al modulo de comprension del sistemade dialogo BASURDE en dos fases, para la primera fase se emplean modelos estocasticosaprendidos a partir de los datos y para la segunda fase se emplea un conjunto de reglascon el fin de normalizar y cuantificar los valores obtenidos en la primera fase, obteniendocomo resultado uno o varios frames a partir de la frase de entrada.

En el capıtulo 5 se presenta la inferencia de modelos con el algoritmo ECGI y con elalgoritmo (k,r)-TSSI para la primera fase del modulo de comprension. Estos modelos sonsuavizados aplicando una tecnica de reetiquetado de muestras.

En el capıtulo 6 se muestra la experimentacion llevada a cabo sobre el modulo com-prension propuesto empleando los diferentes modelos aprendidos a partir de las muestras


etiquetadas del corpus BASURDE etiquetado manualmente y con la salida de dos reco-nocedores de voz.

En el capıtulo 7 se aplica la aproximacion del modulo de comprension al sistemafrances de consulta sobre trenes ARISE. Para mejorar los resultados se lleva a cabo laimplementacion de un programa que expande la notacion original del corpus ARISE. Porultimo se muestran resultados experimentales.

En el capıtulo 8 se presenta una aproximacion estocastica al modulo de dialogo em-pleando una red de estados finitos para predecir cual es el siguiente acto de dialogo delusuario y con ello poder emplear modelos especıficos de comprension en funcion de eseacto de dialogo esperado. Se presentan resultados sobre el uso de modelos especıficos decomprension.

En el capıtulo 9 de conclusiones se hace una recopilacion de las tecnicas empleadas y losprincipales objetivos conseguidos. A partir de estos se establecen una serie de conclusionesy trabajos futuros a realizar.

En el apendice A se enumera el vocabulario de la tarea. En el apendice B se describelos ficheros empleados para obtener los lemas y categorias en la reduccion del lexicode BASURDE. En el apendice C se describe como se ha llevado a cabo el etiquetado dedialogo del corpus BASURDE y finalmente en el apendice D se muestran algunos ejemplosde los diferentes tipos de escenarios practicados en la adquisicion del corpus BASURDE.

Capıtulo 2

Comprension del habla

A la hora de construir un sistema de dialogo hombre-maquina, ademas de los com-ponentes que se ocupan del reconocimiento y sıntesis del habla, se hace necesario uncomponente de comprension del lenguaje natural capaz de “comprender” la pronuncia-cion del usuario. Es decir, extraer y en parte desambiguar la informacion contenida en eltexto (frase o conjunto de posibles frases) generado por el reconocedor de voz y a partirde el construir una adecuada representacion semantica que sera posteriormente procesadapor el algoritmo que controla el dialogo.

Al abordar este problema intervienen diferentes y complejas fuentes de conocimiento:fonetica, morfologıa, sintaxis, semantica, pragmatica, conocimiento del mundo, etc. Lacooperacion de todos estos conocimientos hace que se pueda conseguir una correcta inter-pretacion del significado y de la funcion sintactica de las palabras de una frase. Ademashay que tener en cuenta ciertos fenomenos de habla espontanea que se dan en la co-municacion hablada como son: falsos comienzos, nuevos comienzos, pausas, vacilaciones,tartamudeos, repeticiones, interjecciones, etc.

Existen actualmente dos grandes paradigmas en el desarrollo de sistemas de com-prension del habla: el basado en corpus y el basado en el conocimiento linguıstico. Enel paradigma basado en corpus el sistema de comprension es un modelo parametriza-do y sus parametros son aprendidos a partir de un corpus anotado semanticamente. Enlos sistemas basados en el conocimiento linguıstico, el necesario conocimiento linguısti-co/sintactico/semantico es codificado manualmente en forma de reglas.

Dos decisiones se deben tomar a la hora de disenar un analizador semantico: la primeraconcierne al formalismo empleado para representar el significado de las pronunciacionesdel usuario (representacion del conocimiento) y la segunda en cuanto a la tecnica empleadapara extraer el significado del texto (metodo de analisis).

2.1. Representacion del conocimiento

Como formalismo para describir las relaciones entre los constituyentes que componenuna frase se emplea la gramatica, formada por un conjunto de reglas que describen comolos distintos constituyentes se pueden combinar. Solo las combinaciones permitidas por

27

28 Capıtulo 2. Comprension del habla

la gramatica son consideradas gramaticales, mientras que el resto son agramaticales. For-malmente, una lengua es un conjunto de oraciones; cada oracion es una cadena de unoo mas sımbolos pertenecientes al vocabulario de la lengua. Desde esta perspectiva, unagramatica no es mas que una especificacion formal y finita de este conjunto de oraciones(Grishman, 1986).

2.1.1. Modelos sintacticos

La sintaxis contempla dos modos diferentes, pero no por ello opuestos, de analisis. Elprimero es el analisis de constituyentes o analisis de estructura de frase: la estructuracionde las oraciones en sus partes constituyentes y la categorizacion de estas partes comonominales, verbales, adjetivales, etc. El segundo es el analisis de las relaciones o funcionesgramaticales: la asignacion de relaciones gramaticales tales como Sujeto, Objeto, etc.

Una amplia variedad de formalismos linguısticos son los denominados gramaticas ba-sadas en restricciones (las restricciones eliminan posibles alternativas, siendo su meta elllamado analisis superficial) incluido bajo el termino “gramaticas de unificacion” intro-ducido por (Kay, 1984). Ejemplos de ellas son: las Gramaticas Formales y de arboles des-critas en (Fu y Booth, 1975) (Hopcroft y Ullman, 1979), las gramaticas lexico-funcionales(Bresan y Kaplan, 1982), las gramatica de adjuncion de arboles (Tree Adjoining Gram-mar TAG) (Joshi y Schabes, 1992), las gramaticas de estructura de frase dirigidas porel h-nucleo (Head-Driven Phrase Structure Grammar HPSG) (Pollard y Sag, 1994), quepasamos a describir sucintamente a continuacion (Minker, 1999a).

Gramaticas Formales: segun el tipo de reglas sintacticas (Hopcroft y Ullman, 1979), seclasifican en no restrictivas, contextuales, independientes del contexto y regulares.Las gramaticas independientes del contexto han sido ampliamente empleadas pararepresentar y analizar el lenguaje natural. Sin embargo, a pesar de la existencia demetodos eficientes y simples para la implementacion de estas gramaticas, se requiereuna considerable cantidad de reglas para describir exhaustivamente la espontaneidaddel lenguaje natural. En casos en que el tipo de lenguaje lo permita se utilizanGramaticas Regulares debido a su simplicidad.

Lexical-Functional Grammar (LFG): es un modelo linguıstico computacional desa-rrollado a finales de la decada de 1970 en la Universidad de Stanford en Califor-nia, como fruto de la colaboracion entre la linguista Joan Bresnan y el informaticoRonald Kaplan, conocido por sus trabajos pioneros sobre analisis morfosintacticoautomatico mediante redes de transicion aumentadas. El objetivo de la LFG con-siste en la elaboracion de un modelo altamente formalizado del lenguaje humano,un modelo del lenguaje computacionalmente preciso, psicologicamente realista yde orientacion linguıstica lexicista y funcional (Kaplan y Bresnan, 1982)(Bresnan,2001). En el terreno de la sintaxis, la LFG se caracteriza por mantener que la estruc-tura sintactica debe representarse al menos en dos niveles: uno correspondiente a laestructura de constituyentes (representada habitualmente mediante una estructurade arbol) y otro correspondiente a la estructura funcional. La estructura de consti-tuyentes (denominada, en este modelo, ”estructura-c”) se describe formalmente me-diante una gramatica sintagmatica independiente del contexto y constituye la basedel procesamiento fonologico de la oracion. Por su parte, la estructura funcional (o

2.1. Representacion del conocimiento 29

”estructura-f”) representa en LFG las funciones gramaticales y otras propiedadesgramaticales de base funcional presentes en la oracion, como la concordancia, eltiempo, la definitud, el control o la anafora. La estructura-f adopta la forma de unamatriz no ordenada de rasgos, donde cada rasgo esta compuesto por un parametroo propiedad linguıstica (Bresan y Kaplan, 1982).

Tree Adjoining Grammar(TAG) (Joshi y Schabes, 1992) : El formalismo es muyparecido al de las gramaticas independientes del contexto basadas en la unifica-cion, pero se le anade una funcionalidad adicional para el tratamiento del fenomenolinguıstico. Los modelos de TAG estan lexicalizados por completo (asocia sistemati-camente descripciones sintacticas con lexicas). Un conjunto de estructuras de arboliniciales describen las frases mas simples del lenguaje. Una operacion de adjuncioninserta un arbol dentro de otro para crear unas estructuras mas complejas. Comocontrapartida, el proceso de analisis para este formalismo, suavemente sensible alcontexto, implica mayores costes computacionales que el mismo proceso para lasgramaticas independientes del contexto (Carrillo, Dıaz, y Alonso, 2002).

Head-Driven Phrase Structure Grammar (HPSG): Es una mejora de la Generali-zed Phrase Structure Grammar (GPSG) (Gazdar et al., 1985), disenada por Pollardy Sarg (Pollard y Sag, 1994). Permite una integracion mas explıcita de los diferentesniveles del analisis linguıstico: fonetica, sintaxis y semantica. Uno de sus aspectosmas interesantes es la codificacion del lexico, la sintaxis, la semantica y las fra-ses en una identica estructura de datos. Esto permite una descripcion conjunta delfenomeno sintactico y semantico ası como de sus interacciones. Las descripcionesproducidas por el HPSG son declarativas, independientes del orden y reversibles.

Estos modelos, en general, son mas adecuados para entornos de texto escrito (Allen,1995) que para el habla, pues presuponen la correccion sintactica de la frase e ignoranefectos de habla espontanea; estas disfluencias como son los falsos comienzos, titubeos,palabras repetidas, etc., ası como los errores generados en la etapa de reconocimiento,deben poder ser abordados a la hora de trabajar con aplicaciones reales de consultahablada.

Por otra parte, en los anos 90 han aparecido aproximaciones que no persiguen elanalisis completo de las frases, sino que realizan un analisis parcial para poder abordarel analisis de textos no restringidos y garantizar que este analisis sea robusto. El analisisparcial permite obtener la segmentacion de una oracion en unidades sintacticas de unamanera rapida y con una alta fiabilidad. Dado que muchas aplicaciones no necesitan deun analisis completo de los textos de entrada estas pueden ser objeto de la aplicacion deestas tecnicas. En la literatura se emplean dos terminos para diferenciar la profundidaddel analisis sintactico llevado a cabo, el analisis parcial (“partial parsing”) que permiteel analisis sintactico de aquellas partes de la oracion que pueden analizarse y el analisissuperficial (“shallow parsing” o “chunking”) que divide el texto en segmentos no solapadosque se corresponden con ciertas estructuras o “chunks”, no permitiendo la recursividaden estas estructuras (Abney, Berwick, y Tenny, 1991)(Pla, Molina, y Prieto, 2000a).


2.1.2. Modelos semanticos

Los modelos semanticos representan las secuencias posibles o probables de unidadesque describen el contenido conceptual del lenguaje, el objetivo de estos modelos es im-poner restricciones semanticas a la tarea; de esta forma, solo aquellas frases que poseansignificado dentro de la aplicacion abordada deberıan resultar reconocidas.

A continuacion se describen dos tipos de gramaticas semanticas, como son las Gramati-cas Semanticas (Burton, 1976) y las Gramaticas de Case Frames (Fillmore, 1968).

Gramaticas Semanticas: descritas en (Burton, 1976), son similares a las de Chomsky(Chomsky, 1965) (Hopcroft y Ullman, 1979), pero permiten la integracion de lainformacion semantica y sintactica dentro del mismo modelo. Las clases semanticasson especıficas para la aplicacion. Esta gramatica solo funciona bien en aplicacionesrestringidas y no es portable a otras tareas. Otra desventaja es que tiende a crecermuy rapidamente, ello es debido a que deben construirse diferentes estructuras paracada una de las categorıas pese a que sean muy similares. Aunque se encuentranmuy cercanas a las gramaticas formales, son poco flexibles a la hora de abordarcomo entrada lenguaje natural hablado.

Gramaticas de Case Frames: Para conseguir una representacion semantica orientadaa la comprension en el analisis del habla se suelen emplear las gramaticas de CaseFrames. Estas han sido aplicadas con exito en numerosos sistemas (Hayes, Haupt-man, y Carbonell, 1986) (Matrouf et al., 1990) (Bennacef et al., 1994) y son conside-radas mas apropiadas para el tratamiento del habla espontanea que las gramaticasbasadas en un analisis sintactico.

El concepto linguıstico original de Case Frame fue introducido por (Fillmore, 1968)y se basa en un conjunto de Cases (casos) universalmente aplicables que muestranla relacion entre un verbo y sus nombres (sintagmas nominales). Utilizando la me-todologıa descrita por (Bruce, 1975), un caso es la relacion que aparece entre unpredicado (no necesariamente un verbo) y uno de sus argumentos. Un Case Marker(marcador del caso) es un indicador del caso (preposicion, afijo del caso, etc.). UnCase Frame de un predicado es el conjunto de casos de ese predicado y un Sistemade Cases es el conjunto completo de casos para un lenguaje.

La idea que se esconde detras de este tipo de comprension no es verificar la correctaestructura sintactica de una sentencia, sino extraer su significado utilizando la sin-taxis solo como restriccion, creando unas gramaticas mas robustas y adecuadas a lainteraccion hombre-maquina.

El predicado del Case Frame se convierte en concepto semantico en vez de en un ver-bo y los argumentos son las restricciones de este concepto. La identificacion de estosconceptos y sus restricciones en una tarea determinada es un trabajo importante ycostoso, siendo este totalmente dependiente de la tarea.

El lenguaje, desde el punto de vista de esta tesis, se puede considerar como una formade comunicacion de significados. El objetivo del analisis semantico es pues extraer elsignificado de la sentencia en vez de buscar si esta contiene o no estructuras sintacticascorrectas o incorrectas. La intencion de este analisis no es rechazar una sentencia que no es

2.2. El metodo de Analisis 31

gramaticalmente correcta, sino interpretar aquello que el hablante nos dice. Las gramaticasque buscan los constituyentes semanticos de la sentencia respecto a una determinadatarea pueden ser mas robustas frente a derivaciones de la gramatica, es por ello que paranuestro trabajo es mas interesante utilizar una representacion semantica, en particular elformalismo de los case frames es adecuado pues ha sido aplicado con exito en diferentessistemas de dialogo.

2.2. El metodo de Analisis

Una vez se ha seleccionado el formalismo de representacion del conocimiento, en nues-tro caso los case frames, el siguiente paso es la seleccion de una tecnica para obtener laestructura (analisis) de la pronunciacion analizada en terminos de sus entidades: concep-tos, marcadores del caso y valores de los casos. En este punto, la solucion recae funda-mentalmente en dos categorıas de metodos: basados en reglas o estocasticos.

La aproximacion basada en reglas sobre un formalismo de gramaticas de casos implicael escribir reglas que controlen la identificacion de los conceptos y de los valores de loscasos (Minker, 1999a). Normalmente, las reglas son lexicalizadas, definiendo familias depalabras que identifican los conceptos y los marcadores de caso. Las reglas deben ademasdescribir las relaciones entre los marcadores del caso y los valores.

El analisis estocastico (Minker, 1999a) emplea un modelo probabilıstico para iden-tificar los conceptos, marcadores y valores de los casos, para representar las relacionesentre los marcadores de los casos y sus valores y para decodificar semanticamente laspronunciaciones del usuario. El modelo es construido durante una fase de entrenamiento(aprendizaje), donde sus parametros capturan las correspondencias entre las entradas detexto y su representacion semantica. Una vez el modelo de entrenamiento esta comple-tado, el modelo se emplea a modo de decodificador para generar la mejor representacionsemantica de la entrada.

2.2.1. Metodos de analisis semantico basado en reglas

En nuestros dıas los metodos basados en reglas, donde se define manualmente unconjunto de estas en base a un analisis de la tarea, aplicados a la comprension del len-guaje natural proporcionan buenos resultados en aplicaciones restringidas con lenguajesespecıficos. Conforme la cobertura del dominio crece, las estructuras que intervienen (lexi-cas, sintacticas, y/o semanticas) se complican y se hacen inmanejables creando problemasde computabilidad y mantenimiento. Este tipo de analisis se suele adaptar a aplicacionesy lenguajes especıficos para intentar alcanzar el mejor rendimiento, haciendo imposible suportabilidad a otros dominios. Ademas el esfuerzo humano (no automatico) en estos siste-mas de comprension es costoso pues cada aplicacion y lenguaje requieren una adaptaciono en el peor de los casos una nueva implementacion.

A continuacion se muestra una relacion de algunos laboratorios que han implementadogramaticas basadas en restricciones a traves de un sistema de reglas para llevar a caboel sistema de comprension. Con el objetivo de mejorar la robustez del analisis, algunosanalizadores combinan los aspectos sintacticos y semanticos en la gramatica. Otros aplican


un analisis a dos niveles en el cual las gramaticas sintacticas llevan a cabo un analisisdetallado y las gramaticas semanticas proporcionan una estrategia para la recuperaciona partir de errores.

CSELT ha desarrollado un sistema de dialogo hombre maquina para el acceso habla-do por vıa telefonica a informacion horaria de trenes para el italiano. Se enmarcadentro del proyecto SUNDIAL. El procesador linguıstico (Peckham, 1993) aplicaiterativamente el conocimiento sintactico y semantico detallado ası como conoci-miento semantico y pragmatico. Usa reglas de gramaticas de dependencia para elanalisis sintactico y gramaticas de casos para la representacion semantica.

MIT ha desarrollado un marco para los sistemas conversacionales llamado GALAXY.Su analizador TINA (Seneff, 1992), usa una gramatica incontextual acompanadade ciertas restricciones que produce arboles de derivacion que son a continuacionconvertidos en su correspondiente representacion en Frames.

CMU ha desarrollado el sistema PHOENIX (Ward, 1994) que emplea un analizadorflexible basado en gramaticas de casos, compilando en un conjunto de redes detransicion recursivas para la tarea ATIS (que proporciona informacion sobre hora-rios y tarifas de vuelos). Este sistema trata los efectos de habla espontanea comoreinicios, repeticiones y frases gramaticalmente incorrectas.

LIMSI-CNRS ha desarrollado sistemas de consulta para diferentes tareas para el estu-dio de la portabilidad de los mismos. Las tareas consideradas incluyen la version deATIS en Frances (permite al usuario tanto la comunicacion hablada con el sistemacomo a traves de una pantalla tactil o a traves del teclado), el MASK (quiosco parael acceso multimodal y multimedia a la informacion a informacion sobre viajes entren) y el ARISE (informacion sobre trenes a traves de la lınea telefonica), todasellas relacionadas con el acceso a las bases de datos con informacion sobre viajes.El analisis semantico (Bennacef et al., 1994) en los tres casos esta basado en reglasy se lleva a cabo a traves de gramaticas de casos.

CRIM (Centre de recherche informatique de Montreal) participa en dos aproximacionesdiferentes para la construccion de sistemas de dialogo hablado. En la primera SIC-SA (Cheng, Fortier, y Normandin, 1994) se integran una aproximacion conexionistay otra simbolica para la comprension del lenguaje natural a la tarea ATIS. Dosredes conexionistas analizan las frases de palabras clave semanticas y extraen losatributos de la consulta. A continuacion un analizador de case frames basado enreglas se encarga de procesar los atributos junto con una serie de restricciones. Enla segunda aproximacion (Kuhn y Mori, 1993) se introduce los arboles de clasifi-cacion semantica, un tipo especializado de arboles de decision que aprenden reglassemanticas para una comprension robusta del lenguaje natural. El reconocedor devoz identifica constituyentes de la consulta que son semanticamente significativos.Estos constituyentes son analizados posteriormente por un bosque de arboles, cadauno representando un aspecto diferente de la representacion semantica.

Philips Research Laboratoires ha disenado un interfaz de lenguaje natural robus-ta para diferentes dominios de aplicacion y diferentes lenguas. El componente de

2.2. El metodo de Analisis 33

comprension (Oeder y Aust, 1994) extrae los valores necesarios para construir unaconsulta a la base de datos a partir de una representacion contextual en forma degrafo de la entrada. Una gramatica semantica probabilıstica identifica las partesrelevantes de la frase.

2.2.2. Metodos de estimacion automatica a partir de datos

Por otro lado los metodos de estimacion automatica a partir de datos intentan, apartir de corpora etiquetados manualmente, aprender cual es la informacion semanticacontenida en estos y almacenarla en forma de parametros; la cobertura del dominio y lascaracterısticas del lenguaje son extraıdas del mismo corpus. El mayor problema de estaaproximacion estocastica es encontrar un buen balance entre la cobertura del dominio, elnumero de parametros y la calidad del modelo. Sin embargo, para trasladar los componen-tes semanticos a una nueva tarea es suficiente entrenar el modelo de la aplicacion a partirde conjuntos especıficos de datos, siendo el esfuerzo dirigido exclusivamente a la tareade etiquetado de los datos. Incluso este esfuerzo, en grandes corpora, puede ser aligeradocreando modelos a partir de unos pocos datos etiquetados manualmente y emplear estospara etiquetar el resto (bootstrapping), procediendo luego a una simple tarea de revisiondel etiquetado. Este proceso es mucho mas simple que un mantenimiento, extension ytraduccion de las reglas gramaticales.

En (Minker, 1998) se comparan ambos metodos empleando el corpus americano de latarea ATIS (Air Travel Information System) y el frances de la tarea MASK (Multimodal-Multimedia Automated Service Kiosk), observando que, pese a que en ambos metodosexiste la necesidad de un delicado analisis e identificacion por expertos de los conceptossemanticos de relevancia y sus restricciones de valor, los metodos estadısticos superan alos basados en reglas si se entrenan sobre un corpus bien disenado.

Los siguientes laboratorios han desarrollado sistemas que usan modelos de compren-sion estadısticos que no requieren reglas gramaticales explıcitas. Estos sistemas han de-mostrado la viabilidad de una aproximacion estocastica guiada por los datos para laconstruccion de un componente de comprension en un sistema de dialogo hablado paraaplicaciones de consulta a una base de datos. Otro aspecto importante de este tipo deaproximaciones es su portabilidad para diferentes lenguas, dominios y tareas.

BBN ha introducido una nueva clase de mecanismos estocasticos basados en modelosocultos de Markov para el procesamiento del lenguaje natural, y ha desarrollado unarepresentacion semantica estructurada en forma de arbol para la tarea ATIS (Milleret al., 1996). El objetivo es la construccion de un sistema basado completamenteen tecnicas de aprendizaje automatico, para la comprension tanto en frases aisladascomo en un cierto contexto.

IBM ha presentado una aproximacion para la comprension estocastica del lenguaje na-tural (Epstein et al., 1996). El metodo consiste en la traduccion del lenguaje naturalen una representacion formal, que es una variante del NL parse paraphrase del inglesde los datos de ATIS.

ATT ha desarrollado el sistema Chronus (Levin y Pieraccini, 1995) para la tarea ATIS.Esta basado en la modelizacion estocastica de las entradas en forma de una secuencia


de conceptos que representan su significado. Las unidades conceptuales definidas sonmuy generales, y se deja en manos de un interprete basado en reglas y disenado amanualmente la resolucion de las ambiguedades. Se asume que la frase de entradaes generada por un proceso oculto de Markov cuyos estados se corresponden conunidades semanticas llamadas conceptos. El proceso de comprension aparece en laFigura 2.1.

reconocidapronunciación

léxicoanalizador decodificador

conceptual

retículo depalabras

conceptos significadoléxico

significadocontextualgenerador de

plantillasintérprete

Figura 2.1: Diagrama del sistema de comprension Chronus de AT&T.

El papel del analizador lexico es la reduccion de la talla del modelo. Realiza unanalisis morfologico de las palabras y obtiene como salida un retıculo con las di-ferentes asignaciones morfologicas posibles correspondientes a la entrada, es decirno lleva a cabo ningun proceso de desambiguacion. El decodificador conceptualasocia segmentos de las frases de entrada del retıculo con unidades semanticas, esdecir, con los conceptos. Se han definido 7 conceptos generales (QUERY, OBJECT,ATTRIBUTE, RESTRICTION, Q ATR, AND, DUMMY), que a su vez contienensubconceptos, en un total de 44, para la tarea ATIS. Este proceso se lleva a cabomediante una modelizacion estocastica (a traves de un HMM ergodico) de la es-tructura conceptual de la tarea: los estados del modelo llevan asociadas a dichosconceptos. A su vez, las observaciones representan secuencias de palabras asociadasa dichos conceptos. A su vez, las observaciones son modelizadas a traves de mode-los de lenguaje de bigramas, suavizados con back-off (Katz, 1987). El generador deplantillas, formado por un conjunto de maquinas de estados finitos programables,transforman la segmentacion producida por el decodificador conceptual en una plan-tilla, que sera usada por el interprete para construir la consulta en lenguaje formalal sistema de informacion. Este sistema ofrecio unos esplendidos resultados en laevaluacion de 1994.

UPV Dentro del proyecto espanol CICYT ALBAYZIN (Dıaz-Verdejo et al., 1998) deconstruccion de una base de datos de voz orientada a una tarea, una de sus subtareases la de consulta en lenguaje natural a una base de datos sobre geografıa de Espana(BDGEO), donde se han abordado tecnicas de inferencia gramatical como el ECGIpara establecer todos los modelos que intervienen en el proceso de traduccion odecodificacion: semantico, sintactico, fonetico y acustico (Prieto, 1995). El ECGIinfiere una gramatica regular de un modo incremental, basandose en un analisiscorrector de errores. Este algoritmo ha sido aplicado con exito en el aprendizajede modelos de lenguaje para diferentes aplicaciones de reconocimiento del habla ycomprension como son la tarea de interpretacion de numeros MILLON o BDGEO.Para ello se han aprendido, a partir de un corpus de frases segmentadas y etiquetadascon un cierto lenguaje semantico intermedio definido para la tarea, un modelo desecuencias de etiquetas semanticas y otro de palabras para cada una de las etiquetas,inferidos con el ECGI integrando ambos modelos en una unica red de estados finitos(E.Sanchis, N.Prieto, y J.Bernat, 1996).

La metodologıa de Inferencia Gramatical mediante Generadores Morficos (MGGI)

2.3. Modelos de lenguaje 35

(Garcia y Vidal, 1990) (Segarra y Hurtado, 1997) que permite obtener una ciertavariedad de gramaticas regulares y ha sido aplicada en diferentes tareas de compren-sion como las interpretacion de numeros MILLON y la tarea BDGEO de consulta auna base de datos geografica espanola. La aplicacion de esta metodologıa implica ladefinicion de una funcion de reetiquetado, donde cada simbolo de una muestra deentrada es reetiquetado siguiendo una cierta funcion g que incorpora conocimien-to al modelo inferido, intentando suplir la falta de muestras negativas. Diferentesdefiniciones de la funcion g producen diferentes modelos (automatas regulares es-tocasticos).

2.3. Modelos de lenguaje

Con el nombre de “Modelo de Lenguaje” se suele designar a cualquier conjunto demecanismos que se emplean en un sistema de Reconocimiento del Habla para definirla estructura del lenguaje de la aplicacion, es decir, para restringir adecuadamente lassecuencias posibles de unidades linguısticas que definen el conjunto de frases permitidas(Lenguaje) de una aplicacion de Reconocimiento o Comprension Automatica del habla.

El concepto de Modelo de Lenguaje es lo suficientemente general como para represen-tar diferentes niveles de conocimiento linguıstico: fonologico, sintactico, semantico etc..Algunos sistemas utilizan Modelos de Lenguaje que llamaremos puramente sintacticos(ya que describen las posibles concatenaciones de palabras, y por tanto la sintaxis dellenguaje). Otros sistemas estan dirigidos por Modelos de Lenguaje que podrıamos llamarsemanticos, para senalar que modelan o representan las restricciones semanticas del len-guaje de la tarea; ademas pueden incluir o no las restricciones sintacticas. En los modelossemanticos, las unidades basicas del modelo son ciertas categorıas o conceptos relaciona-dos con los significados asociados a las frases del lenguaje.

Los Modelos de Lenguaje sintacticos plantean varios inconvenientes. Por una parte,presentan problemas para la definicion de modelos cuando se trabaja con grandes voca-bularios; estos problemas se plantean en la estimacion de parametros si pensamos en unformalismo de N-gramas y tambien en la definicion de un formalismo gramatical tanto sise realiza de forma manual como de forma automatica. Por otra parte tambien se pre-sentan problemas de sobreespecificacion, ya que en muchas aplicaciones, sobre todo enaquellas en las que interviene el lenguaje hablado, solo es importante la semantica o elsignificado del mensaje transmitido y no tanto la decodificacion lexica del mismo.

Si el Modelo de Lenguaje representa las posibles secuencias de unidades que describenel contenido conceptual del lenguaje, lo denominaremos Modelo de Lenguaje Semantico.El objetivo de estos modelos es imponer las restricciones semanticas de la tarea; de estaforma, solo aquellas frases que posean significado dentro de la tarea abordada deberıanresultar comprendidas.

Existen dos grandes tendencias a la hora de elegir un formalismo en modelizacion dellenguaje para tareas naturales:

a) Una primera aproximacion a la modelizacion del lenguaje, de uso muy extendido,que podemos llamar estocastica, consiste en modelizar las concatenaciones posiblesde unidades linguısticas o semanticas a traves de probabilidades (obtenidas a partir


de su frecuencia de aparicion) de ocurrencia de secuencias de unidades linguısticaso semanticas de longitud fija (N). A estas secuencias se les suele denominar con elnombre de N-gramas (Bahl, Jelinek, y Mercer, 1983)(Derouault y Merialdo, 1986)y a estos modelos se les denomino Modelos de N-gramas.

b) Una segunda tendencia asume que el lenguaje a modelizar se particulariza a unsubconjunto (mas o menos restringido) de una lengua natural, y que por lo tantose puede definir un formalismo de gramatica (principalmente gramaticas regulareso incontextuales) que determine las secuencias posibles que definen las frases per-tenecientes a dicho lenguaje; a estos formalismos probabilısticos o no) basados enla especificacion de la estructura completa de la frase, se les denomina Modelos deLenguaje Gramaticales.

La principal ventaja de los modelos estocasticos estriba en su capacidad para el apren-dizaje automatico de los parametros del modelo a partir de un conjunto de frases dellenguaje, lo cual los hace flexibles y adaptables a cualquier cambio de lenguaje. Su prin-cipal inconveniente es que el incremento del valor de N hace que el numero de posiblessecuencias de unidades a estimar (y almacenar) crezca exponencialmente, lo que crea lanecesidad de tener suficientes muestras. En la practica se suelen emplear valores de Nbajos, lo cual hace que estos metodos no sean capaces de explotar la estructura a largoplazo de las frases del lenguaje.

Por otra parte los modelos basados en gramaticas se caracterizan por su capacidadpara representar las restricciones del lenguaje de una forma natural, sin embargo suprincipal inconveniente es que la definicion de estos modelos entrana una gran dificultadpara aquellas tareas con lenguajes proximos a lenguajes naturales. Asımismo la rigidezen la estructura del lenguaje que especifican los hacen no adecuados para entornos delenguaje hablado.

2.3.1. Modelos conexionistas

En los modelos conexionistas o redes neuronales, el proceso computacional se descri-be en terminos de interaccion entre cientos de procesadores elementales. En (Feldman yBullard, 1982) se introduce este tema. En (Castro y Prat, 2003) se proponen los mode-los conexionistas como alternativa a los modelos basados en la frecuencia de N-gramaspara modelos de lenguaje. Los primeros pasos en esta direccion fueron dados en 1989por (Nakamura y Shikano, 1989). Aunque estos modelos de lenguaje conexionistas gas-tan mucho tiempo en su entrenamiento, presentan dos ventajas: las redes presentan unsuavizado implıcito en sus estimaciones y el numero de parametros a estimar no creceexponencialmente con N.

Ejemplos de la aplicacion de estos modelos se puede ver en (Small, Cottrell, y Shastri,1982), (Cottrell y Small, 1983) y (Miikkulainen, 1993) aplicado al procesamiento dellenguaje natural. En (Nakamura y Shikano, 1989), (Xu y Rudnicky, 2000a), (Bengio etal., 2003) se muestra que las redes neuronales pueden aprender modelos de lenguaje conresultados comparables a los modelos estocasticos de N-gramas. En (Vilar, Castro, ySanchis, 2002), (Castro y Sanchis, 2002), (Sanchis y Castro, 2002) y (Vilar, Castro, ySanchis, 2003) se emplean redes conexionistas aplicado a la clasificacion para el uso demodelos de lenguaje especıficos en el proceso de comprension de un sistema de dialogo.


2.3.2. Modelos estocasticos

A continuacion se pasa a describir los modelos de lenguaje estocasticos mas extendidos.

Modelos de N-gramas

La aproximacion estocastica mas extendida es la de los modelos de N-gramas. Esteformalismo fue ampliamente empleado en el reconocimiento del habla y es perfectamentetrasladable a la comprension. Las razones que los justifican son varias:

- permiten representar de forma simultanea los diferentes niveles de conocimiento(sintaxis, semantica y pragmatica) del dominio del discurso de la aplicacion

- permite lo que se conoce como aprendizaje basado en corpus, es decir, una vez fijadoN, los modelos se aprenden automaticamente a partir de un conjunto de datos dela aplicacion.

- permiten una facil implementacion ya que existen algoritmos eficientes para su tra-tamiento.

Como inconveniente hay que destacar que no reflejan la estructura completa de lafrase, lo cual puede redundar en una deficiente modelizacion de las relaciones de largadistancia entre terminos.

A continuacion vamos a dar la formulacion probabilıstica de estos modelos, suponemosuna formulacion sintactica donde las unidades linguısticas son palabras. Sea W el voca-bulario de la tarea, la probabilidad “a priori” de generacion de la secuencia de palabrasw = w1w2 . . . wn wi ∈ W i = 1, . . . , n determinada por el Modelo de Lenguaje, puede servista como:

P (w) =∏

i=1...n

P (wi|w1 . . . wi−1)

donde la probabilidad de wi depende de toda la historia pasada w1 . . . wi−1. Sin embargo enla practica la estimacion de las probabilidades P (wi|w1 . . . wi−1) serıa imposible incluso apartir de valores bajos de i. Por ello se definen diferentes tipos de particiones del espacio dela historia, en particular una particion especialmente simple es la de los N-gramas, dondela probabilidad de wi solo va a depender de las N-1 palabras anteriores en la secuencia,quedando P (w) de la siguiente forma:

P (w) =∏

i=1...n

P (wi|wi−N+1 . . . wi−1)

Sin embargo por razones de complejidad y por la necesidad de una gran cantidad demuestras para obtener estimaciones fiables, tıpicamente los Modelos basados en N-gramasemplean secuencias de dos o a lo sumo tres palabras (bigramas, trigramas). Este hechohace que los modelos basados en N-gramas, si bien modelizan de forma adecuada aspectoslocales de la estructura del lenguaje, no pueden capturar relaciones a larga distancia entre


terminos (mas alla de tres en el caso de los trigramas), lo cual puede redundar en unadeficiente modelizacion del lenguaje. Numerosas ideas de tipo practico se han incorporadoen los Modelos de N-gramas con el fin de reducir el numero de parametros a estimar y,de esta forma conseguir estimaciones fiables. La mas inmediata, y de uso generalizado esla combinacion (interpolacion) de modelos de orden N con modelos de orden N-1, etc.A estas ultimas se le denomina suavizado de los modelos de N-gramas. A continuacionpasamos a describir los metodos de suavizado de N-gramas mas comunes.

Suavizado de N-gramas

Los metodos de suavizado son necesarios para el calculo de parametros poco significa-tivos o no contemplados en el corpus de aprendizaje. Cuando la estimacion se hace por elcriterio de maxima verosimilitud (probabilidades proporcionales a las frecuencias relativasde los sucesos), si la muestra de aprendizaje no es lo suficientemente rica (muestra insufi-ciente y/o no completa) se pueden obtener modelos que no describan de manera adecuadalas secuencias de unidades semanticas o las de las palabras que pertenecen a una de lasunidades semanticas. En la literatura aparecen diferentes metodos para solucionar estosproblemas y han sido empleados en multiples aplicaciones, principalmente en el campodel reconocimiento automatico del habla, para obtener modelos de lenguaje de diferentesniveles: unidades acusticas, palabras, categorıas lexicas, unidades semanticas, etc.

Uno de los mas sencillos es el “anadir 1”que consiste en incrementar todos los con-tadores de frecuencias de los sucesos de Si, f(Si) en 1, Ley de Laplace, o en una ciertacantidad k, Ley de Lidstone, donde (0 < k ≤1).

P (Si) =f(Si) + k∑

∀Si(f(Si) + k))

0 < k ≤ 1 (2.1)

El problema de esta aproximacion es la sobreestimacion de los sucesos con baja pro-babilidad, que probablemente, se corresponden con los de baja frecuencia.

Otra alternativa es el “Suavizado Plano” consistente en reservar una cierta cantidaduniforme, P reservada, que se descontara a los sucesos vistos, para repartirla entre los novistos por igual, donde #Si No V istos es el numero de sucesos no vistos.

P (Si) =

P modificada(Si) Si 6= 0

P reservada

#Si No V istosSi = 0

(2.2)

Esto obliga a recalcular la probabilidad de los sucesos vistos a fin de mantener la con-sistencia del modelo, es decir que se cumpla que la suma de las probabilidades modificadaspara todo suceso visto sea igual a uno menos la probabilidad reservada:

∑

∀Si/Si 6=0

P modificada = 1 − P reservada

El principal problema que presentan estas aproximaciones es que asignan a todos lossucesos no vistos exactamente la misma probabilidad. Para solucionar estos problemas se


emplean metodos que combinan diferentes distribuciones de probabilidad para tratar lossucesos no vistos. Estos metodos se pueden dividir en dos grupos: Interpolacion Lineal yBack-off. El primero tiene en cuenta todas las distribuciones de probabilidad disponiblespara la estimacion de un determinado suceso. El segundo utiliza solo una, la que se esperasea la mas apropiada de entre las disponibles para ese suceso. Vamos a ver estos dosmetodos particularizados para un modelo de bigramas, el caso mas general de N gramas,para las probabilidades de un modelo de lenguaje de unidades vi (el caso de n-gramasse podrıa realizar de igual manera considerando las probabilidades P (vi|vi−n . . . vi−1)).El problema consiste en estimar P (vi|vj) para cualquier par de unidades (vi,vj)∈ V × V .Supongamos que se dispone de dos distribuciones de probabilidad: bigramas (P (vi|vj)) yunigramas (P (vi)) a suavizar.

La aproximacion mediante Interpolacion Lineal se expresa en la ecuacion (2.3) dondese ponderan las dos distribuciones, bigramas y unigramas, mediante los parametros deinterpolacion λi. Estos pueden ser estimados experimentalmente o utilizando el algoritmo“deleted interpolation” (Jelinek y Mercer, 1985) (Jelinek, 1991). El numero de parametrosde interpolacion a estimar se reduce considerablemente si suponemos que que estos sonindependientes de la unidad considerada vi. Siguiendo esta suposicion, se simplifica elcalculo de los parametros, como aparece en los trabajos de H. Ney (Ney y Kneser, 1991)(Ney, Essen, y Kneser, 1994).

P Int(vi|vj) = λi1 · P (vi|vj) + λi2 · P (vi); λi1 + λi2 = 1 (2.3)

La solucion mediante Back-Off consiste en descontar una cierta masa de probabilidada los sucesos vistos para repartirla entre los sucesos no vistos de una forma proporcionala otra distribucion de probabilidad. Se puede ver como un caso particular de la interpo-lacion lineal en que un unico λi puede ser distinto de cero. Bajo este esquema podemosencontrar diferentes aproximaciones dependiendo de la funcion de descuento utilizada ysobre que sucesos se aplica.

En la ecuacion (2.4) se presenta la aproximacion introducida por Katz en (Katz,1987) para el bigrama vjvi donde r es la frecuencia del suceso, k es un umbral (definidoexperimentalmente) a partir del cual se aplica la funcion de descuento dr y α es unaconstante de normalizacion para garantizar que

∑∀vi

P (vi|vj) = 1,∀vj

P Suavizada(vi|vj) =

P (vi|vj) r > kdr · P (vi|vj) 0 < r ≤ kα · P (vi) r = 0

(2.4)

A continuacion se detallan las funciones de descuento mas comunes que se han definidopara el suavizado por Back-Off:

La funcion de descuento “Good Turing Discount” (Good, 1953), utilizada por Katz(Katz, 1987) que se muestra en la ecuacion (2.5), se define en funcion de unoscontadores especiales (nx: numero de veces que un suceso aparece con frecuencia x)obtenidos a partir del corpus de aprendizaje. Esta funcion garantiza que el descuentototal aplicado sea igual a n1

R , donde n1 representa el numero de sucesos de frecuencia1 y R el numero total de muestras de aprendizaje.


dr =

(r + 1) · nr+1

r · nr−

(k + 1) · nk+1

n1

1 −(k + 1) · nk+1

n1

(2.5)

El principal inconveniente de esta aproximacion es la determinacion experimentaldel umbral k y el calculo de dr, puesto que para algunos casos, la ecuacion puededar valores indefinidos.

En la literatura aparecen otras aproximaciones que no tienen en cuenta el umbralk y que sin embargo garantizan que dr > 0 para todo r, cumpliendose ademas, que

el descuento total aplicado es den1

R. Esta aproximacion se muestra en la ecuacion

(2.6).

P suavizada(vi|vj) =

{dr · P (vi|vj) r > 0α · P (vi) r = 0

(2.6)

El Descuento lineal (Jelinek, 1991) aplica el mismo descuento a todos los sucesosindependientemente de su frecuencia (ecuacion 2.7).

dr =n1

R(2.7)

El Descuento absoluto (Ney y Kneser, 1991)(Ney, Essen, y Kneser, 1994) reduce enuna constante b las probabilidades de todos los sucesos (ecuacion 2.8).

dr =r − b

R, donde b =

n1

n1 + 2n2(2.8)

Modelos basados en categorıas

Un metodo para evitar los problemas relacionados con la falta de muestras y esti-maciones poco fiables a la hora de emplear N-gramas consiste en utilizar modelos deN-gramas en los que los elementos son o bien palabras o agrupaciones de estas en clases(Derouault y Merialdo, 1986) (Jelinek, 1986). En el caso de bigramas la probabilidad delbigrama wi−1wi serıa:

P (wi|wi−1) = P (wi|ci−1) = P (ci|ci−1)P (wi|ci)

donde ci es la clase (categorıa) asociada a la palabra wi. La probabilidad de la clasesolo depende del predecesor, y la probabilidad de que se observe una palabra, dada unahistoria, depende de su pertenencia a la clase.

Para la estimacion de estas probabilidades es necesario disponer de texto etiquetado,es decir, texto en el que cada palabra ha sido sustituida por la clase a la que pertenece.Una estimacion del modelo a partir de una muestra etiquetada (con las mismas tecnicasvistas para N-gramas en general) dara lugar a eventos no vistos, por lo que se requierenotra vez tecnicas de suavizado.

Se pueden dar diferentes tipos de clases o categorıas:


Por conocimiento linguıstico: El caso mas habitual es el POS (Parts of Speech), don-de se define una serie de categorıas (gramaticales) de palabras y se realizan estadısti-cas de la frecuencia de aparicion de secuencias de N categorıas, en vez de N palabras(Jelinek, 1986), permitiendo incorporar restricciones gramaticales y/o morfologicasen los modelos.

Los problemas que plantea esta aproximacion es que algunas palabras pueden perte-necer a mas de un POS. El etiquetado POS-tagging de esas palabras es un problemaabierto (los sistemas actuales tienen una tasa de error del 3 %). Existen diferentesclasificaciones de POS, ademas de que estas clasificaciones no siempre son utilespara la construccion de un modelo de lenguaje.

Por conocimiento del domino: Por ejemplo en la tarea ATIS los nombres de los ae-ropuertos, de las ciudades etc., tienen el mismo comportamiento y se agrupan enclases.

El principal problema que plantea esta aproximacion es que requiere un experto ala hora de definir las clases.

Dirigido por los datos: Se emplea el conjunto de datos para obtener automaticamen-te las clases, algunos de los metodos son el Algoritmo Voraz de Informacion Mu-tua (Merge) (Brown et al., 1992) y el Algoritmo basado en tecnicas estadısticas(ML)(Kneser y Ney, 1993). En (Moisa y Giachin, 1995) se aplican los dos algorit-mos para la obtencion de un modelo de bigramas de clases para una tarea especıficade consulta a un horario de trenes, donde se han definido un agrupamiento automati-co excepto para unas clases predefinidas como son: ciudades, estaciones, dıas de lasemana, etc. Se obtuvieron resultados similares para ambos metodos, dando mejo-res tasas de reconocimiento el uso de agrupamiento automatico frente al etiquetadomanual o a la ausencia de etiquetado.

Modelos dinamicos

Un modelo dinamico o adaptativo es un modelo que cambia su estimacion como re-sultado de analizar texto del corpus de test. Este tipo de modelo es util cuando:

El texto de aprendizaje ası como el de test es un gran texto heterogeneo que secompone de segmentos mas pequenos homogeneos.

El modelo de lenguaje ha sido entrenado con datos de un dominio y se pretendeutilizar en otro dominio.

El modelo de lenguaje que mas exito ha tenido consiste en introducir el uso de uncomponente dinamico “cache”, que recoge la informacion estadıstica que va apareciendoen el texto de prueba, para utilizarla para la modificacion de las probabilidades en elmodelo estocastico estimado a partir del texto de aprendizaje. Este componente trabajacomo una memoria que usa frecuencias de palabras de un pasado reciente para estimarprobabilidades a corto plazo que serviran para actualizar las de los modelos estaticos.Existen variantes que emplean el componente cache como parte del modelo POS (Kuhny Mori, 1990), de forma que la informacion dinamica se anade a la probabilidad de una


palabra en su categorıa. Otra variante utiliza el componente cache como suavizador dela probabilidades del unigrama en un modelo de palabras, de forma que se anade a laprobabilidad del unigrama (Essen y Ney, 1991).

Otra aproximacion es la de los Triggers, su idea principal estriba en que ademas dela contribucion del componente cache en la historia del documento de test, existe unainformacion importante a considerar: la correlacion entre palabras o secuencias de pala-bras donde si la la secuencia de palabras A esta altamente correlacionada con la secuenciaB, entonces (A->B) se considera un trigger pair A es el elemento desencadenador y Bel desencadenado. El modelo trigger trata de captar de forma sistematica esta informa-cion, usando la correlacion entre secuencias de palabras derivada de un gran corpus deentrenamiento. En (Lau, Rosenfeld, y Roukos, 1993) se aplica al corpus del Wall StreetJournal para estimar un modelo estatico de trigramas suavizados con back-off y una listade triggers. Se interpolan linealmente el modelo estatico con el trigger obteniendo mejorasde hasta un 32 % en el conjunto de test.

A la hora de crear un Modelo de Lenguaje adaptativo, se debe combinar diferentesfuentes de informacion, para ello tradicionalmente se utiliza interpolacion lineal y susvariantes, frente a estas tecnicas se propone en (Rosenfeld, 1996) el uso del principiode Maxima Entropıa (ME) para la construccion de un Modelo de Lenguaje adaptativoempleando trigger pairs como elementos portadores de la informacion de la historia deldocumento, donde:

Cada fuente de informacion fija un conjunto de restricciones.

La interseccion de las restricciones es un conjunto de funciones de probabilidadconsistente con todas las fuentes de informacion

La funcion de probabilidad con la ME es la solucion. Se garantiza una unica solucionME y existe un algoritmo iterativo cuya convergencia esta garantizada.

Esta aproximacion se utilizo para entrenar un Modelo de Lenguaje adaptativo de MEsobre el corpus del Wall Street Journal, donde se consiguio una mejora de la perplejidadentre el 32 % y el 39 %. Cuando este modelo se incorporo al reconocedor de voz de launiversidad Carnegie Mellon denominado SPHINX-II, este redujo su ratio de error del10 % al 14 %

En (Khudanpur y Wu, 2000) se presenta otra aproximacion que emplea la tecnica MEpara crear un modelo unificado que combine:

dependencias posicionales (de corto alcance)

dos tipos de dependencia estadıstica de largo alcance:

- la estructura sintactica

- el tema o asunto (topic)

Este modelo propicio mejoras sustanciales tanto en perplejidad como en el ratio deerror a nivel de palabras (Word Error Rate WER) para el corpus de conversacionestelefonicas Switchboard con el fin de detectar topicos en un entorno conversacional.


Varigramas y Multigramas

La mayorıa de las metodologıas de modelado del lenguaje descritas con anterioridadrepresentan como denominador comun el uso de un valor fijo N que condiciona todaslas probabilidades del modelo. La probabilidad de aparicion de una palabra (categorıa opalabra etiquetada) se relaciona, exactamente, con las N-1 palabras anteriores.

Existen metodologıas del lenguaje en la cuales la probabilidad de aparicion de unapalabra esta ligada a la aparicion de un numero flexible de palabras vistas con anteriori-dad.

En algunas de estas aproximaciones como los llamados poligramas o varigramas seintenta combinar dentro de un mismo modelo las ventajas de los unigramas, bigramas,trigramas, etc. De esta manera unicamente se utiliza las dependencias de palabras a maslarga distancia (N mayores) si esto redunda en un beneficio para el modelo.

En otra aproximacion conocida como multigramas se introduce los segmentos comobase de los modelos, en lugar de las palabras. La diferencia principal entre los modelosbasados en multigramas (Deligne y Bimbot, 1995) y otros modelos de lenguaje es suunidad basica. Mientras los modelos estocasticos se basan en la palabras o en la clase enla que se agrupan un conjunto de palabras, los multigramas se basan en el concepto desegmento. Un segmento es una secuencia de palabras que aparecen de forma consecutivaen el texto y que, en principio, formarıan una unidad a algun nivel, ya sea sintactico osemantico. Dependiendo del mecanismo utilizado para modelizar las relaciones entre losdistintos segmentos estarıamos ante un tipo de multigramas u otro (Deligne y Sagisaka,2000).

El uso de multigramas y en consecuencia segmentos como base de un modelo delenguaje esta justificado en el campo de la modelizacion y comprension del discurso porla propia naturaleza del discurso humano, constituido por distintas subunidades las cualesintentan modelizar las clases de segmentos.

La aproximacion mas empleada es la de N-multigramas, que consiste en asumir quela verosimilitud de cada segmento depende de un numero determinado de segmentosque le preceden (N). Esta aproximacion se puede ver como una generalizacion de los N-gramas. Esta metodologıa con sus distintas variantes (diferentes valores de N, limitaciondel numero de palabras por segmento, uso o no de categorıas de segmento) es la masutilizada, en (Deligne y Sagisaka, 2000) se aplica a la estimacion de modelos de lenguajepara la tarea ATIS.

La dificultad de estas aproximaciones como los N-multigramas es la elevada com-plejidad computacional que presenta su manipulacion, debido a las multiples posiblessegmentaciones de las frases.

2.3.3. SLMtoolkit

Con el fin de facilitar la construccion y prueba de modelos de lenguaje estocasticosbasados en modelos de N-gramas el grupo de habla de la universidad Carnegie Mellon hacreado una herramienta llamada SLMtoolkit (Statistical Language Model) creado en 1994y del cual ya han aparecido varias versiones (Clarkson y Rosenfeld, 1997). Este toolkit se


emplea en numerosas universidades y centros de investigacion de todo el mundo y tambienen esta tesis e implementa muchas de las tecnicas que se consideran estandar en el campode los modelos de lenguaje estocasticos. Algunas de sus caracterısticas son: obtencion deestadısticas de los modelos de N-gramas construidos, evaluacion del modelo de lenguajeconstruido con el calculo de la perplejidad de un conjunto de test, calculo del ratio depalabras de fuera del vocabulario, suavizado con Back-Off con diferentes estrategias dedescuento (Good Turing, Written Bell, Absoluto, Lineal) etc. (CMU, 1997).

2.3.4. Aproximaciones gramaticales

Existen otras aproximaciones, que podrıamos llamar gramaticales, en las que se mode-liza la estructura de la frase haciendo uso de gramaticas formales, principalmente gramati-cas regulares y gramaticas incontextuales, que son capaces de capturar mejor la estructuradel lenguaje. Estas tecnicas de Inferencia Gramatical (Garcia y Vidal, 1990) (Fu y Booth,1975) empleadas para abordar el problema de la definicion del lenguaje desde el aprendi-zaje basado en datos, tienen las siguientes ventajas:

- Aprendizaje automatico a partir de un conjunto de datos, al igual que los N-gramas.

- Flexibilidad, es decir tolerancia a construcciones linguısticas no estrictamente co-rrectas, pero aceptables, mediante la introduccion de suavizado de los modelos.

- Representacion natural de las descripciones del lenguaje, es decir de su estructuraglobal, caracterıstica de los modelos basados en gramaticas.

A continuacion se muestra un resumen de algoritmos susceptibles de ser aplicados alproblema de la comprension:

- Los k-explorables en sentido estricto (Garcia y Vidal, 1990). Es la aproximacion deN-gramas desde el punto de vista de la inferencia gramatical (Segarra, 1993). En(Bordel, 1993) (Bordel, 1994) se muestra la aplicacion al aprendizaje de modelos delenguaje, con diferentes metodos de suavizado e interpolacion para la aplicacion deconsulta de la base de datos de informacion geografica BDGEO.

- Generadores morficos (MGGI) (Garcıa, Vidal, y Casacuberta, 1987). Es una tecnicade inferencia gramatical compromiso entre los metodos heurısticos y los metodos ca-racterizables, pues incorpora un conocimiento a priori sobre el problema particulara abordar. En (Segarra, 1993) y (Segarra y Hurtado, 1997) se presenta la aproxi-macion al aprendizaje de modelos de lenguaje mediante la tecnica MGGI.

- k-explorables con umbral (Ruiz, 1998), cuya tecnica consiste en contar el numerode ocurrencias de los factores de longitud k de sus palabras hasta un cierto umbralr. El umbral r proporciona un segundo control de generalizacion en los segmentosde palabras del lenguaje.

- El Error Correcting Grammatical Inference (ECGI) basado en correccion de errores(Rulot y Vidal, 1987) ha sido empleado con exito en numerosos problemas de reco-nocimiento de formas y en tareas como la consulta de la base de datos de BDGEO(Prieto, Sanchis, y Palmero, 1994) (Prieto, 1995) (Sanchis, 1994).


Podrıan ser aplicadas otras aproximaciones como: los algoritmos de inferencia de len-guajes k-reversibles (Angluin, 1982), tecnica que se basa en la agrupacion de estados einfiere lenguajes regulares a partir de una muestra positiva; inferencia de lenguajes a par-tir de muestra positivas y negativas (Oncina, 1991), metodo que tambien se basa en laagrupacion de estados, pero utiliza muestras negativas para evitar ciertas construcciones yevitar la sobregeneralizacion del automata o por ultimo la inferencia de gramaticas incon-textuales Inside-Outside aparecen en (Baker, 1979) (Lari y Young, 1991) (Sanchez, 1999),tecnica que estima las probabilidades de las reglas incontextuales a partir de muestraspositivas.


Capıtulo 3

Tarea BASURDE

El sistema de dialogo BASURDE pretende ser capaz de responder, a traves de la lıneatelefonica, a preguntas en lenguaje natural sobre horarios, precios y servicios de los trenesde largo recorrido de la red de ferrocarriles espanola. Para ello, debe entender aquellascuestiones que el usuario le plantea y a partir de ellas, consultar a una base de datospara que le suministre informacion y poder construir una respuesta adecuada. El dialogomantenido entre el usuario y el sistema debe ser de iniciativa mixta para ser lo mas naturalposible, donde el usuario es libre de realizar cualquier cuestion cuando lo desee. Es normalque el dialogo conste de varios turnos de usuario y sistema para conseguir el objetivo, demodo que el sistema puede interrogar al usuario, tanto para clarificar la peticion de este,como para completar la informacion necesaria para realizar la consulta a la base de datoso por ultimo acotar la dimension de la respuesta.

Este sistema de dialogo ha sido creado dentro del proyecto BASURDE financiadoparcialmente por Comision Interministerial de Ciencia y Tecnologıa espanola (CICYTTIC98-0423-C06) (1998-2000) cuyo objetivo es el adquirir experiencia en los interfacespara el acceso a informacion hablados basados en dialogo a traves de la lınea telefonica. Eneste proyecto participaron grupos de investigacion de diferentes universidades espanolas,en concreto los grupos de tratamiento del habla y tratamiento del lenguaje natural de laUniversitat Politecnica de Catalunya (UPC), el grupo de tecnologıa de las comunicacionesde la Universidad de Zaragoza, el grupo de reconocimiento automatico del habla de laUniversidad del Paıs Vasco (EHU), el grupo de aprendizaje computacional de la Univer-sitat Jaume I de Castellon (UJI) y el grupo de reconocimiento de formas e inteligenciaartificial de la Universidad Politecnica de Valencia (UPV).

Uno de los objetivos del proyecto BASURDE es la creacion de un corpus oral persona-maquina, para ello, se penso en la posibilidad de crearlo bajo el paradigma del Mago de Oz(Fraser y Gilbert, 1991), donde una persona especializada (el mago) controla el dialogo yresponde al usuario como si del propio sistema se tratara. A la hora de aplicar esta tecnicaes indispensable acotar bien la tarea y plantear una serie de situaciones (escenarios) paraque los hablantes las reproduzcan. Ademas el Mago de Oz debe seguir unas normas deactuacion, a estas se les denomina estrategia del mago y se utiliza en la obtencion de corpusde dialogo para que este se adapte al modo de actuacion predefinido por los disenadoresdel Mago de Oz (Life y Salter, 1997).

47

48 Capıtulo 3. Tarea BASURDE

Para poder acotar la tarea y crear una estrategia de Mago de Oz realista se analizarondistintas aplicaciones en las que interviniera dialogo oral para obtener un primer corpusa analizar. Entre ellas, se escogio la informacion telefonica sobre trenes de viajeros. Lasgrabaciones de dialogos persona-persona entre los operadores del servicio de informaciontelefonica de RENFE y usuarios reales fueron el punto de partida para la creacion delcorpus de BASURDE, a este conjunto de dialogos se le denomino corpus PERSONA. Enla elaboracion de este corpus han participado de forma directa los grupos de investigacionde la UPC (grupo de reconocimiento del habla) y de la UZ. El grupo de la UPC seencargo de las gestiones con el grupo RENFE, la seleccion y grabacion de los dialogos y laedicion final del corpus. El grupo de la UZ realizo la tarea de transcribir los dialogos entrepersonas. A continuacion se hace una breve descripcion de este corpus cuya descripcioncompleta junto sus transcripciones aparecen en (Bonafonte y Mayol, 1999) y (Lleida,1999) respectivamente.

3.1. Adquisicion de los dialogos del corpus PERSONA

El corpus PERSONA recoge llamadas reales realizadas al servicio de informacion deRENFE (Barcelona) durante el mes de noviembre de 1997. RENFE ha cedido grabacionesde su servicio de informacion de forma que las transcripciones de las llamadas puedan serutiles en tareas de investigacion.

Hasta finales de 1997 RENFE-Barcelona grababa todas las llamadas a su serviciode informacion sobre trenes de viajeros y reservas de billetes. El sistema de grabacionconsistıa en un magnetofono de 30 canales (uno por puesto de informacion) conectadode forma constante de inicio a fin de jornada. Cada canal estaba asociado al microfonodel operador y grababa, no solo las conversaciones de los operadores con clientes, sinotambien las conversaciones con otros operadores, las conversaciones (atenuadas) de otrosoperadores con otros clientes, etc. Se disponıan de 15 cintas magnetofonicas de 8 canales,cada una de ellas con capacidad para grabar un dıa, que se iban reciclando de formaperiodica.

Las senales de las grabaciones son muy ruidosas (ruido de oficina ruidosa) y contienenen el mismo canal la senal del operador y del llamante. No se considera aprovechable lasenal en sı misma de cara a entrenamiento o evaluacion de modelos acusticos sino que sedesea utilizar unicamente las transcripciones para definir el dominio semantico, e inspiraren el diseno del sistema de dialogo, de comprension del habla y de generacion de respuesta.Tambien se utilizaran en el diseno de escenarios bajo el paradigma del Mago de Oz. Lastranscripciones tambien pueden ser utiles, junto con otros materiales, para el diseno delmodelo del lenguaje y el estudio del habla espontanea.

3.1.1. Criterios de seleccion de los dialogos

Se han seleccionado 204 dialogos entre las grabaciones cedidas. Para la seleccion sehan utilizado los siguientes criterios:

Se ha primado las conversaciones de informacion sobre las de reserva (de hecho soloun pequeno porcentaje de las llamadas que recibe RENFE son de reserva). Algunas

3.1. Adquisicion de los dialogos del corpus PERSONA 49

llamadas contienen una parte larga de informacion y al final se reservan billetes. Enese caso se ha adquirido la llamada cuidando de no registrar datos personales de lapersona llamante.

La mayorıa de los dialogos se refieren a trenes de grandes lıneas (largo recorrido).Estos dialogos son en general mas largos y ricos que los dialogos sobre informacionesde cercanıas. Por ejemplo, aparecen mas servicios (literas, coche-cama, restaurante),preguntas sobre enlaces, etc. La mayor complejidad de estos dialogos los hacen masapropiados para fines de investigacion. No obstante, tambien se han seleccionado uncierto numero de dialogos de cercanıas o regionales de forma que pueda apreciarseel tipo de informacion que se requiere para este tipo de trenes.

3.1.2. Transcripcion de los dialogos del corpus PERSONA

A la hora de emplear este corpus entre personas, analizo el servicio y se delimito eldominio semantico, ademas de ser punto de partida para diferentes fases del sistema dedialogo como son el controlador del dialogo, el componente de comprension y el generadorde respuestas.

La transcripcion es basicamente ortografica, utilizando como juego de caracteres elISO-8859 para codificar los caracteres no ASCII, (acentos, dieresis, signos de apertura deinterrogacion y exclamacion, etc.). Se utilizaron los signos de puntuacion para indicar laentonacion apropiada.

Tambien se ha realizado un primer etiquetado de algunos fenomenos propios de con-versaciones entre personas:

Se han utilizado las palabras “uh”, “hum”, para indicar sonidos de relleno en pau-sas (filler pauses). Tambien se utiliza el codigo “<PAUSA>” para indicar pausasque producen discontinuidad en el discurso, como por ejemplo: “a un <PAUSA>

compartimento de cuatro“. Se ha utilizado el codigo <RISA> para indicar risas enlas conversaciones.

Cuando una persona ha empezado a hablar solapandose con lo que estaba diciendoel interlocutor, se ha introducido al final de la frase el codigo <SIMULTANEO>.Ası, en el ejemplo siguiente, el operador toma la iniciativa antes de que termine dehablar el usuario.

Ejemplo:US: si, buenas tardes, mire quisiera informacion para ir a Lerida. Paramanana ¿que horario y de donde salen los trenes ?OP: vamos a ver, usted sobre ¿que hora quiere salir para Lerida? (simultaneo)

En muchos casos, cuando la pronunciacion de una palabra no es estandar, se haescrito de la forma en la que fue pronunciada. Por ejemplo: “pa“ (por para), susti-tuciones de “ado“ por “ao“ (fijao, gustao, precipitao, etc.), segundico, etc.

En los casos en que una palabra o fragmento no se ha entendido se ha marcadomediante el codigo <ININTELIGIBLE>.


3.1.3. Breve analisis del corpus PERSONA

El corpus consiste en 204 dialogos con un total de 7.739 turnos (3.949 Operador +3.790 Usuario), por tanto, unos 38 turnos (19+19) en promedio. El dialogo mas cortotiene 8 turnos; el mas largo tiene 179 turnos. En la tabla 3.1 puede verse un histogramaque indica el numero de dialogos en funcion del numero de turnos. La gran mayorıa delos dialogos (el 84 %) tienen entre 10 y 60 turnos.

n turnos < 10 10-19 20-29 30-39 40-49 50-59n dlg 6 40 50 40 25 16

n turnos 60-69 70-79 80-89 90-99 > 99n dlg 8 4 4 3 8

Tabla 3.1: Analisis de la longitud de los dialogos expresado en turnos

Tamano del lexico1,2: El numero total de palabras son unas 60.000; de estas, unas38.000 son pronunciadas por el operador del servicio de informacion y 22.000 por elusuario. En cuanto al lexico, el numero de palabras distintas son alrededor de 2.200, delas que unas 900 aparecen una unica vez. El numero de palabras medio que aparece encada turno son diez, cuando habla el operador y seis, cuando habla el usuario.

En el 76 % de las ocasiones se pregunta por trenes de largo recorrido, en un 17 % porcercanıas y un 4% sobre enlaces internacionales, el 2 % restante son consultas combinadasde trenes de largo recorrido con cercanıas. En cuanto al tipo de informacion solicitada,en el 72 % de las ocasiones se pregunta sobre horarios, en el 28 % sobre precios y en un27 % sobre la combinacion de ambos.

3.2. Corpus BASURDE

Una vez analizados los datos del corpus PERSONA para delimitar la tarea, se proce-dio a la adquisicion del corpus de BASURDE bajo el paradigma del Mago de Oz (Frasery Gilbert, 1991), donde se disena una estrategia para responder al usuario como si delpropio sistema se tratara, para ello se debe establecer una serie de situaciones (escenarios)para que los hablantes las reproduzcan (Marino y Hernando, 1999b). A continuacion seva a describir el formato de los escenarios, los distintos tipos de escenarios y el numerode dialogos adquiridos de cada uno de ellos, ası como una pequena descripcion del corpusobtenido a partir de la adquisicion.

3.2.1. Definicion de Escenarios

A los efectos de analisis de los dialogos obtenidos mediante las grabaciones con Magode Oz interesa que estos se realicen en condiciones controladas: con una estrategia de

1Para contar las palabras se han eliminado los signos de puntuacion, risas, y la marca “...”, pero sehan contabilizado como palabras “uh”, “um”, etc.

2El numero de palabras distintas es, de hecho, menor debido a errores tipograficos (“bilete”, “bielletes“),de acentuacion (p.e. aparece “andalucıa” y “andalucia”) y a variaciones en la pronunciacion, que aquı sehan contado como palabras distintas.

3.2. Corpus BASURDE 51

dialogo definida para el Mago y en unas circunstancias concretas para el informante. Estesegundo condicionante se ha descrito mediante escenarios, que incluyen un objetivo (lainformacion que debe obtener el informante) y una situacion que motiva el interes en lainformacion (Lamel et al., 1997). He aquı un ejemplo de escenario:

Objetivo: Precios y horarios de ida y vuelta para ir a una ciudad dada a pasar unfin de semana.

Situacion: Piense en una actividad que practica con unos amigos que viven en unaciudad (escoja una entre capitales de provincia o de importancia similar) distintade su ciudad de residencia. Ha quedado que el fin de semana visitara a sus amigospara practicar esa actividad en comun. Desea viajar en un tren rapido pero que nosea muy caro.

Los escenarios fueron disenados conjuntamente por todos los miembros de BASURDE yse recogen en (Marino y Hernando, 1999a) donde tambien se describe la plataforma deadquisicion del Mago de Oz y la adquisicion de dialogos llevada a cabo por el grupo dereconocimiento del habla de la UPC. El Apendice D contiene algunos ejemplos de losdiferentes tipos y objetivos de escenarios practicados.

Tipos de escenarios

Para definir los escenarios se han estudiado los dialogos del corpus PERSONA (Seccion3.1). En estos dialogos se han identificado tres categorıas de objetivos que se han descritodel siguiente modo:

[Tipo A:] <Horario> a destino [de origen] [el fecha-intervalo] ([en tipo-tren — <tipo-tren>])

[Tipo B:] (<Horario> — Horario) y <precio> a destino [de origen] [el fecha-intervalo]([en tipo-tren — <tipo-tren>])

[Tipo C:] (<Horario> — Horario) y <precio> y <ida y vuelta> a destino [de origen][el fecha-intervalo] ([en tipo-tren — <tipo-tren>])

donde la notacion empleada tiene el siguiente significado:

< > Pregunta[ ] Opcional— alternativa

Ası, el primer tipo tiene por objetivo obtener el horario de trenes en viajes de ida,en los que la fecha o el tipo de tren pueden estar especificados o el tipo de tren puedetambien ser motivo de la consulta. Aunque el origen aparece como opcional, es evidenteque un tren siempre ha de tener un origen y un destino. La opcionalidad del origen ha deentenderse del siguiente modo: el origen puede ser la ciudad de residencia del informantey desde la que se hace la consulta (Barcelona o Zaragoza) u otra distinta, que hay queespecificar. Los escenarios B incluyen la consulta sobre precios y el horario puede serespecificado por el informante. Los escenarios C se refieren a trayectos de ida y vuelta.

Horario, destino, origen, fecha-intervalo, tipo de tren y precio pueden considerarse va-riables para la formulacion de los escenarios. Las variables que intervienen en un escenarioconcreto han de ser instanciadas (se les ha de asignar valor) o bien en la formulacion de


la situacion del escenario o como resultado de la consulta. Por ejemplo, considerese elsiguiente escenario:

Objetivo: Confirmar el horario y averiguar el tipo de tren y el precio entre origen ydestino un dıa determinado de la semana.

Situacion: Usted reside en Tarragona. Tiene que ir manana urgentemente a Vinarozy, a ser posible, ir y volver en el dıa. Solo necesita un par de horas en Vinarozpara visitar un notario. Le suena que puede tomar algun tren sobre las ocho de lamanana. Intente confirmar el horario y el tipo de tren que tomarıa. Informese delprecio del viaje.

En la descripcion de la situacion se da valor a horario, origen, destino y fecha-intervalo.El objetivo es obtener los valores de tipo de tren y del precio.

Para cada tipo de escenario se han definido 10 objetivos concretos y para cada uno deestos se han establecido 5 variantes. De este modo se obtiene un total de 150 escenariosdistintos.

Se han establecido dos clases de variantes. En la primera clase (que incluye las variantes1, 2 y 3) las variables que definen la situacion del escenario (horario, destino, origen, etc.)son instanciadas en la propia descripcion de la situacion. En la segunda clase (variantes4 y 5) las clases son instanciadas por el informante. De este modo obtenemos escenarioscerrados (primera clase) y semiabiertos (segunda clase).

Ademas de los tres tipos de escenarios descritos anteriormente, se ha anadido unescenario totalmente abierto (tipo D) que el informante se encarga de concretar, tantoen su objetivo como en el valor de las variables que intervienen en el. Su enunciado es lasiguiente

Objetivo/Situacion: Recuerde la ultima vez que haya viajado en tren dentro de lapenınsula entre dos capitales de provincia (o ciudades de similar importancia). Si norecuerda ningun viaje en ferrocarril, suponga que ası ha sido en el ultimo que hayarealizado. Trate de traer a su memoria las circunstancias de aquel viaje. Consulte alservicio de informacion telefonica la informacion que precisa para reproducir en trenel viaje recordado. Tenga presente que el sistema no esta preparado para realizarreserva de plazas.

3.2.2. Distribucion y transcripcion de los escenarios

Las grabaciones en Mago de Oz han sido realizadas por 75 informantes, cada uno delos cuales practicara 3 escenarios: los dos primeros de los tipos A, B o C y el tercerotipo D. En la distribucion de los escenarios entre los informantes se han respetado lassiguientes condiciones:

Los escenarios practicados por un informante han de corresponder a tipos diferentes.

Los dos primeros escenarios practicados por un informante no deben respondersimultaneamente a variantes semiabiertas.

3.2. Corpus BASURDE 53

No ha de repetirse ningun escenario.

Los informantes fueron reclutados entre estudiantes y profesores. Se procuro que hu-biera una distribucion equilibrada entre estudiantes y profesores, y entre sexos. Ningunode los informantes tiene experiencia en procesado del habla.

La transcripcion y el etiquetado se han realizado en la Universidad de Zaragoza. Existeun fichero de transcripcion por fichero de voz, es decir, uno para cada canal. Se ha realizadola transcripcion de acuerdo con los criterios adoptados en el proyecto, que se resumen acontinuacion.

Para la transcripcion del contenido linguıstico se ha procedido como sigue:

1. La transcripcion es basicamente ortografica, con solo algunas marcas que represen-tan eventos acusticos audibles (de habla o no) presentes en los ficheros de senal.

2. Las palabras mal pronunciadas (no variaciones dialectales) que son inteligibles semarcan con un asterisco * a la izquierda de la palabra sin espacio. Cuando hay unasecuencia de palabras mal pronunciadas, cada una de ellas se marca individualmente.

3. Las palabras o secuencias de palabras que son completamente ininteligibles se de-notan con dos asteriscos ** con espacio.

4. Los fragmentos de palabras, por ejemplo, cuando el informante no acaba la palabra,se consideran palabras mal pronunciadas.

5. Si la palabra ha sido cortada debido a un error en la grabacion, se usa la siguientenotacion:

Inicio: ˜transcripcion .Fin: transcripcion˜.Inicio y fin: ˜transcripcion˜.

Se diferencia entre una frase que ha sido cortada pero que no tiene palabras cortadasal inicio o al fin y una frase con palabras cortadas. indica el corte de la palabramarcada, que se transcribe entera. Sin embargo, las frases cortadas sin palabrascortadas no se marcan.

Los eventos acusticos no linguısticos se han agrupado en cuatro categorıas. Estoseventos solo se transcriben si se distinguen claramente. Se ignoran los eventos de muybajo nivel. Los eventos se transcriben en el instante en que ocurren, usando los sımbolosdefinidos entre corchetes. En el caso de eventos ruidosos que se extienden sobre una o maspalabras, la transcripcion indica el principio del ruido, justo antes de la primera palabraa la que afecta. Las dos primeras categorıas de estos eventos proceden del informante ylas otras dos proceden de otras fuentes. Los sonidos procedentes del informante no suelensolaparse con el habla y los sonidos procedentes de otras fuentes pueden solaparse con elhabla.

Las cuatro categorıas son:

[ fil ]: Pausa de relleno del informante. Estos sonidos se pueden modelar bien con unmodelo propio en los reconocedores de voz. Ejemplos: “ah, mm, . . . ”.


[ spk ]: Ruido del informante. Todos los tipos de sonidos no linguısticos y ruidos produci-dos por elinformante que nos son pausas de relleno. Ejemplos: “golpe de labios, tos,grunido, carraspeo, golpe de lengua, respiracion profunda, risa, suspiro,...

[ sta ]: Ruido estacionario. Esta categorıa comprende ruido de fondo que no es intermi-tente y tiene un espectro mas o menos estable. Ejemplos: ruido de coche, ruido decarretera, ruido de canal, ruido GSM, voice babble (ruido cocktail-party), ruido defondo de un lugar publico, ruido de calle

[ int ]: Ruido intermitente. Esta categorıa comprende ruidos de naturaleza intermitente.Estos ruidos ocurren solo una vez (como un portazo), tienen pausas entre ellos(como un timbre de telefono) o cambian de color con el tiempo (como la musica).Ejemplos: musica, voz de fondo, llanto de un nino, timbre de telefono, portazo,timbre de puerta, crujido de papel, cruce de conversaciones,. . .

A continuacion se muestra un ejemplo de fichero de transcripcion y etiquetado. Elfichero del ejemplo corresponde a un informante. Las etiquetas de los ficheros de trans-cripcion del Mago de Oz son las mismas que en el caso de un informante. La unicadiferencia es que no existe la etiqueta NET, pues carece de sentido. El campo de etiquetaUSR distingue los dos canales: el valor User corresponde al informante y el valor Systemcorresponde al Mago de Oz. En este ejemplo los caracteres de los nombres que aparecıana continuacion de la etiqueta EXP y EOZ, correspondientes al nombre de locutor y delMago de Oz respectivamente, han sido sustituidos por el caracter “x” para preservar suintimidad.

LHD:

SES:

REP: UPC,BARCELONA,SPAINRED: 27/Oct/1999

RET: 10:51:10QNT: A LAW

SNB: 1

SBF:

SSB: 8

SAM: 8000

DIR: /OZ1/DAT/D540

SRC: OZ1D540U.ESA

USR: User

NET: PSTN

EXP: xxx xxxxx xxxxxx

EOZ: xxxxxxx xxxxx

SCN: D.5.4

LBD:

LBO: 0,0,0,

LBO: 59520,96448,133376,”[fil] Buenos dıas [fil] querrıa informacion sobre horarios de trenes regionales

[spk] entre Zaragoza y Calatayud para el proximo viernes”

LBO: 195200,195200,195200,

LBO: 326016,350080,374144,”[fil] Si podrıa decirme a que hora llega *el de las diecinueve cuarenta y cinco

a Calatayud”

LBO: 452608,488256,523904,”[fil] Si [fil] podrıa decirme el precio del billete *y si existe algun tipo de

descuento [spk] con carnet joven *o de la universidad”

3.3. Representacion semantica en Frames 55

LBO: 590592,602048,613504,”[fil] Si puede decirme el precio del billete”

LBO: 718848,727488,736128,”No gracias eso es todo”

LBO: 798848,805312,811776,”D cincuenta y cuatro”

LBO: 840576,848576,856576,

NTR: 9

ELF:

3.2.3. Caracterısticas de los dialogos adquiridos

A partir de los escenarios descritos en los apartados anteriores se adquirieron y poste-riormente transcribieron un total de 227 dialogos de los cuales 50 son de tipo A, 51 son detipo B, 51 son de tipo C y 75 de tipo D. Los dialogos contienen un total de 4.884 turnos,2.333 de usuario y 2.551 de sistema (Mago), lo cual nos lleva a una media de 21,5 turnos.El dialogo con menos turnos contiene 7 turnos y el mas grande 105 turnos. En cuantoal vocabulario, los dialogos contienen un total de 61.843 palabras de las cuales 2.402 sonnombres de ciudad. Hay 860 palabras distintas y de ellas 101 son nombres de ciudad. Lalongitud media de caracteres por palabra es de 5,4. La frase mas larga esta compuesta de100 palabras y la mas corta de 1 palabra, el numero medio de palabras por turno es deaproximadamente 14,6 palabras.

3.3. Representacion semantica en Frames

La representacion de la semantica de la tarea se basa en el concepto de “Frame” (Fill-more, 1968) todo mensaje enviado por el modulo de comprension y por cada intervenciondel usuario al modulo de dialogo, es un frame. En algunos casos este frame se correspondecon una consulta completa a la base de datos, en otros son solo una lista de restriccionesa anadir a la semantica de intervenciones anteriores; tambien se puede expresar con unframe una peticion de confirmacion sobre datos, una afirmacion, etc. Los grupos de tra-tamiento del lenguaje natural de la UPC y el grupo de la UPV se encargaron de definirlos frames de la tarea que se recogen en (Segarra et al., 2000).

Para tratar esta variabilidad se ha definido como unidad de comunicacion o interfazcomprension-dialogo el llamado frame canonico, un formato estandar de frame que per-mite explicitar el tipo particular de cualquier frame y sus caracterısticas, p.e. conceptos,atributos y valores susceptibles de aparecer en el.

Dos decisiones que se han tomado a priori son:

las fechas y horas expresadas por el usuario se traduciran a una forma canonica.

el modulo de comprension no va a propagar al modulo de dialogo las redundancias,de forma que si en la frase de entrada se nombra un determinado concepto o valorvarias veces se propagara una unica instancia del mismo. Sin embargo, informacionesdiferentes sobre el mismo atributo se propagan todas. El conocimiento que el modulode comprension tiene sobre el estado e historia del dialogo es nulo, por lo quepensamos no debe tomar decisiones de eliminacion de ningun valor expresado en


la frase de entrada. Por ejemplo, en la traduccion de la frase “Dime los horariode trenes para ir de Barcelona a Valencia por la manana, bueno, a partir de las10 de la manana” se propagara al controlador de dialogo tanto el primer intervalohorario que expresa el usuario (“por la manana”), como el segundo (“a partir de las10 de la manana”), dejando en manos del controlador de dialogo las decisiones deinterpretacion en estos casos.

El criterio con el que se han definido hasta ocho tipos de frames es el tipo de preguntarealizada por el usuario en una intervencion. En particular, un usuario puede hacer unaintervencion de dos tipos:

Dependiente de la tarea: si hace una consulta (completa o incompleta o de vuel-ta) o una peticion de confirmacion o expresa falta de comprension sobre un conceptodependiente de la tarea. Hablaremos de frame de consulta, frame incompleto, framede vuelta, frame de confirmacion y frame de falta de comprension respectivamente.

Independiente de la tarea: si hace una intervencion propia del tipo de comunica-cion que se establece en cualquier tarea de dialogo. En particular, se han establecidotres tipos de preguntas de este genero: afirmacion, negacion y cierre. Hablaremos deframe de afirmacion, frame de negacion y frame de cierre respectivamente.

Para el caso de una intervencion dependiente de la tarea, se ha determinado la siguientelista de conceptos susceptibles de aparecer en el frame canonico correspondiente.

- HORA-SALIDA - HORA-LLEGADA

- PRECIO - ESTACION-ORIGEN

- ESTACION-DESTINO - TIEMPO-RECORRIDO- PARA-EN - TIPO-TREN- SERVICIOS - FECHA-SALIDA- FECHA-LLEGADA

Asimismo, y para cualquiera de los cinco tipos de frames dependientes de la tareadefinidos, se ha determinado las siguientes dos listas de atributos o “cases” susceptiblesde aparecer junto al tipo de pregunta en el frame canonico correspondiente:

- CIUDAD-ORIGEN - CIUDAD-DESTINO- PARA-EN - ESTACION-ORIGEN- ESTACION-DESTINO - FECHA-SALIDA- FECHA-LLEGADA - INTERVALO-FECHA-SALIDA- INTERVALO-FECHA-LLEGADA - TIPO-DIA-SALIDA- TIPO-DIA-LLEGADA - HORA-SALIDA- HORA-LLEGADA - INTERVALO-HORA-SALIDA- INTERVALO-HORA-LLEGADA - TIPO-TREN- TIPO-VIAJE - CLASE-BILLETE- NUMERO-RELATIVO-ORDEN - PRECIO- TIEMPO-RECORRIDO - SERVICIOS

En esta lista estan recogidos atributos para los que, en la frase de entrada, se fijaun determinado valor. Los valores que pueden tomar estos atributos se recogen en masadelante en la Seccion 3.4 de este Capıtulo.


En la siguiente lista enumeramos los atributos que han ido apareciendo en los dialogosestudiados y que hacen referencia a valores que no se explicitan en la frase de entrada,sino que son valores que debe conocer el controlador de dialogo, ya que se han fijado enintervenciones anteriores a la actual.

- TREN-ACTUAL - HORA-ACTUAL- FECHA-ACTUAL - MES-ACTUAL- TRAYECTO-ACTUAL - CIUDAD-ORIGEN-ACTUAL- CIUDAD-DESTINO-ACTUAL

Por tanto, y a modo de resumen, cada intervencion del usuario (consulta, confirmacion,etc. . . ) generara uno o varios frames. Por ejemplo, las frases:

la frase “Dıgame los precios y el horario de los trenes hacia Barcelona” dispararıa dosframes de consulta en los que aparecerıan los conceptos PRECIO y HORA-SALIDA yel atributo CIUDAD-DESTINO con valor Barcelona que afectarıa a ambos conceptos;

la frase “Si. Pero ha habido un error, en realidad yo quiero ir de Valencia a Alicante”dispararıa un frame de AFIRMACION y un frame incompleto en el que aparecerıancomo atributos CIUDAD-ORIGEN con valor Valencia y CIUDAD-DESTINO con valorAlicante.

Ahora bien, si en una consulta no se especifica el concepto, como por ejemplo en lafrase “Dıgame los trenes para Valencia”, por defecto se dispara el frame HORA-SALIDA;es decir, se supone que “Dıgame los trenes para Valencia” pregunta por los horarios delos trenes para Valencia.

Definimos el frame canonico o formato de cualquier tipo de frame como sigue:

Parte 1 o Cabecera: entre parentesis, en el caso de los frames de consulta el nombredel concepto por el que se pregunta y en los otros tipos de frames el nombre deltipo de frame.

Parte 2 o Lista de Pares Atributo-Valor afectados por la pregunta: En cada par elsımbolo “:” separa el atributo de su valor.

(nombre concepto/tipo de frame)

nombre atributo 1: valor atributo 1

......

nombre atributo i: valor atributo i

......

nombre atributo n: valor atributo n

Figura 3.1: Representacion grafica de frame canonico.

En la Figura 3.1 se muestra la representacion grafica de frame canonico que se utili-zara en adelante en todos los ejemplos. Como se observa, los nombres de conceptos/tiposde frame de la cabecera aparecen entre parentesis para distinguirlos de los atributos


homonimos. Por otra parte, senalaremos que el orden en el que aparecen los atributos(cases) del frame debe respetar el orden en que aparecen en la anterior lista de atributos.

A continuacion se describen con detalle los ocho tipos establecidos (Segarra et al.,2000), empezando por el mas general o Frame de Consulta.

Frame de Consulta es el que corresponde a una consulta completa sobre uno o masconceptos dependientes de la tarea, posiblemente con restricciones introducidas me-diante la expresion de algunos de sus atributos.

Para presentar el frame canonico de consulta, a continuacion figuran algunos ejem-plos de pares frase de entrada-frame canonico obtenidos de los dialogos:

“Hola, mire me interesarıa ir a Albacete la primera semana de agosto; estoyen Alicante.”

(HORA-SALIDA)

CIUDAD-ORIGEN: Alicante

CIUDAD-DESTINO: Albacete

INTERVALO-FECHA-SALIDA: 1-8-2004/8-8-2004

“Deseo informacion sobre el horario, precio y tipo de tren de Barcelona a Ma-drid Chamartın.”

(HORA-SALIDA)

CIUDAD-ORIGEN: Barcelona

ESTACION-DESTINO: Madrid Chamartin

(PRECIO)



(TIPO-TREN)



Conviene notar que se considera el posible uso de partıculas de negacion o reafirma-cion de un cierto valor de un atributo (NO, SI). En los casos en que aparece algunade estas partıculas, el valor del atributo se parentizara. Cuando hay varios valorespara el mismo atributo se expresa dando la lista de todos ellos. Por ejemplo:

“Dime los horarios del primer y del segundo tren que salga hacia Madrid.”

(HORA-SALIDA)

CIUDAD-DESTINO: Madrid

NUMERO-RELATIVO-ORDEN: primero segundo

“¿Que trenes hay, aparte del de las 12.30?”

(HORA-SALIDA)

HORA-SALIDA: NO (12.30)

“Si que me interesarıa salir a ver en el horario de tarde, mejor en el de noche”

(HORA-SALIDA)

HORA-SALIDA: <= 13.00-21.00 SI(<=21.00-5.00)


Frame Incompleto es un caso particular de un frame de consulta en el que se enun-cian, unica y exclusivamente, nuevas restricciones (atributos) sobre una consultapreviamente realizada. Debido a ello, el frame canonico correspondiente tiene unacabecera vacıa, tras la que aparece la lista de los nuevos atributos introducidos. Porejemplo, en un momento dado de un dialogo el sistema acaba de responder a unaconsulta:

SIST: “Ese dıa hay 5 trenes. El primero sale a las 7 horas y 30 minutos de lamanana y el ultimo a las 21 horas y 50 minutos. ¿ Algo mas ?.”

A lo que el usuario responde:

US: “Quisiera viajar en coche cama.”

Con lo que el frame canonico correspondiente a esta consulta incompleta es:

( )

SERVICIOS: coche-cama

Otro ejemplo serıa: en un momento dado de un dialogo el sistema acaba de responderal usuario, y este detecta que el sistema ha cometido un error y lo corrige:

US: “No viajo desde Palencia sino desde Valencia.”

Con lo que el frame canonico correspondiente a esta consulta incompleta es:

( )

CIUDAD-ORIGEN: NO(Palencia) SI(Valencia)

Este ultimo ejemplo ilustra el tratamiento que se lleva a cabo en las intervencionesen las que se corrige algun dato.

Frame de Confirmacion se corresponde con una peticion explıcita de confirmacion porparte del usuario. En este tipo de intervenciones se da/n un/os nombre/s de atribu-to/s y un/os valor/es que se pretende/n confirmar. El formato de un frame de estetipo, su frame canonico correspondiente, es el mismo que el definido para un framede consulta pero con cabecera “(CONFIRMACION)“. Se hace uso de una cierta pa-rentizacion para senalar los pares atributo-valor afectados por la confirmacion. Porejemplo:

“Quisiera saber si el de las 10.50 es un Talgo.”

(CONFIRMACION)

TIPO-TREN: Talgo

HORA-SALIDA: 10.50

Frame de Vuelta es un caso particular de un frame de consulta que aparece en aquellasintervenciones en las que el usuario, tras haber obtenido informacion sobre uno o masconceptos que atanen a un trayecto dado, requiere informacion sobre el conceptode vuelta sobre lo ya consultado o incluso sobre nuevos conceptos. Ejemplos de


este tipo serıan frases como “Dime el horario de trenes para volver.”, “¿A que horallega el de vuelta” o “El de vuelta, ¿tiene coche cama?”. En estos casos, el sistema dedialogo debera ser el que, para poder responder, intercambie los valores de CIUDAD-

ORIGEN y CIUDAD-DESTINO en su historia actual si ello no ha sido explıcitamenteindicado por el usuario en alguna intervencion. Una forma de implementar dichocambio es distinguiendo un frame de Vuelta cuyo frame canonico correspondientees el mismo que el de uno de consulta, pero cuya cabecera consiste en el nombre delconcepto consultado terminado en “-V“. Por ejemplo:

“ Dime el horario de trenes para volver.”,

(HORA-SALIDA-V)

Frame de Falta de Comprension se utiliza para expresar la falta de comprension porparte del usuario de un mensaje del sistema. Por tanto, el frame correspondientetiene como cabecera “(NO-ENTENDIDO)“. Por ejemplo:

“¿Puede repetir? ” origina el frame canonico

(NO-ENTENDIDO)

Este frame puede no aparecer aislado, sino como inicio de una lista de frames dediferentes tipos. Por ejemplo,

“¿Puede repetir el horario? ”, origina el frame canonico compuesto

(NO-ENTENDIDO)

(HORA-SALIDA)

Frame de Afirmacion expresa la respuesta afirmativa a una pregunta del sistema. Suformato, frame canonico correspondiente, contiene una unica linea con cabecera“(AFIRMACION)“. Por ejemplo, si en un momento dado de un dialogo el sistemaacaba de preguntar al usuario:

SIST: :“¿Quiere viajar desde Valencia a Alicante? ”

Y el usuario responde:

US: “Exactamente”,

el frame canonico correspondiente serıa:

(AFIRMACION)

En general este frame no aparece aislado, sino como inicio de una lista de frames dediferentes tipos. Por ejemplo, si a la pregunta del sistema,

SIST: :“¿Desea alguna informacion mas? ”,

el usuario responde:

3.4. Valores que pueden tomar los cases 61

US: “Si. ¿Podrıas darme los servicios de ese tren? ”,

el frame canonico correspondiente serıa una concatenacion de dos frames, uno deafirmacion y otro de consulta:

(AFIRMACION)

(SERVICIOS)

Frame de Negacion corresponde a una respuesta negativa a una pregunta del sistema.Su formato, frame canonico correspondiente, contiene una unica linea con cabecera“(NEGACION)”.

Frame de Cierre expresa cierre de dialogo. Su formato contiene una unica linea concabecera “(CIERRE)“. Por ejemplo, si en un momento dado de un dialogo el sistemaacaba de preguntar al usuario:

SIST: “¿Desea alguna informacion adicional?.”

Y el usuario responde:

US: “No. Muchas gracias.”,

el frame canonico correspondiente a este cierre de dialogo es:

(CIERRE)

3.4. Valores que pueden tomar los cases

En este apartado se muestran los posibles valores que los cases (atributos) asociadosa cada frame pueden alcanzar.

Cases que hacen referencia a ciudades y estaciones podran tomar los valores quese determinen en el vocabulario de la tarea.

En cuanto al case PARA-EN, puede adquirir, ademas de los valores que se determinenen el vocabulario de la tarea, el valor directo en el sentido de “sin paradas”.

Cases que hacen referencia a fechas Para las fechas se ha fijado el formato:

FECHA-SALIDA/LLEGADA: DD-MM-AAAAINTERVALO-FECHA-SALIDA/LLEGADA: DD-MM-AAAA/DD-MM-AAAA

El “fin de semana” que aparece de forma frecuente en los dialogos se traduce en unintervalo de dos dıas: el siguiente viernes y sabado (siguientes si no se indica otracosa). Las fechas especiales tienen un tratamiento que se explicita. En cuanto altipo de dıa puede tomar los valores: laborable y festivo.

Cases que hacen referencia a horas Para las horas concretas se ha fijado el formato:


HORA-SALIDA (HORA-LLEGADA): HH.MM.

En cuanto al tratamiento de los intervalos horarios, queda como sigue:

“por la manana” y equivalentes: 5.00-13.00;

“al mediodıa” y equivalentes: 12.00-14.00;

“por la tarde” y equivalentes: 13.00-21.00;

“por el dıa”, “de dıa”, “diurno”, cuando no se refiere al tipo de tren del mismonombre, se considera equivalente a “por la manana” + “por la tarde”: i.e. 5.00-21.00;

“por la noche” y equivalentes: 21.00-5.00;

en particular, “nocturno” se considera equivalente a “por la noche”;

en particular, “por la noche” es equivalente a “muy tarde”;

“de madrugada“ y equivalentes: 4.00-7.00; en particular, “de madrugada“ esequivalente a “muy temprano”;

si un intervalo va precedido de la expresion “muy tarde” o “muy pronto”,como “muy tarde por la manana” o “muy pronto por la tarde”, dicho intervaloequivale, respectivamente, a sus dos ultimas o dos primeras horas de definicion.Ası, “muy tarde por la manana” es equivalente a 11.00-13.00 y “muy pronto porla tarde” es equivalente a 13.00-15.00. Si el intervalo que se indica es “a media”(por ejemplo“a media tarde”) equivale a eliminar las primeras dos horas y lasultimas dos horas del intervalo correspondiente. En el ejemplo serıa 15.00-19.00,

“a partir de las dos de la tarde”: >= 14.00;

“antes de las doce del mediodıa”: <=12.00;

“hacia las doce del mediodıa”: 11.00-13.00;

“desde primera hora de la manana”: >=5.00;

“a partir de ahora mismo”: >=HORA-ACTUAL,

donde entendemos que HORA-ACTUAL es una constante del sistema que debeser conocida por el controlador de dialogo;

se considera que un intervalo horario puede tomar tambien cualquiera de losdos siguientes valores relativos: + tarde y + pronto. (“un poco mas tarde” yequivalentes se traducen como dicho intervalo)

“el mismo dıa” se traduce, cuando no significa “fecha actual ”, como un in-tervalo que abarca desde el primer horario disponible (madrugada) hasta elultimo tren de la noche.

El case TIPO-TREN puede tomar cualquiera de los valores que se indican a continua-cion:

“Alaris, Arco, Ave, Diurno, Electrotren, Estrella, Euromed, Intercity, Regional,Talgo y Tren Hotel, Rapido, Diario”.

Ademas, seran valores de TIPO-TREN los identificadores de tren, como “Anto-nio Machado”, que puedan aparecer en el lexico.

3.4. Valores que pueden tomar los cases 63

El case TIPO-VIAJE Puede tomar dos valores: “ida” e “ida y vuelta”.

El case CLASE-BILLETE puede tomar cualquiera de los valores que se indican a con-tinuacion:

“primera, segunda, clase preferente, clase turista, litera, cama y gran clase,sentado, butaca”.

El case NUMERO-RELATIVO-ORDEN puede tomar cualquiera de los valores que seindican a continuacion:

“primero, segundo, tercero, cuarto, quinto, ultimo, anterior y siguiente”.

El case PRECIO para este case se aceptan, ademas de valores numericos, el valor “+ba-rato”.

El case TIEMPO-RECORRIDO para este case se aceptan, ademas de valores numeri-cos, el valor “+rapido”. Rapido, que como “diurno”, cuando no se refiere al tipo detren del mismo nombre, se considera TIEMPO-RECORRIDO.

El case SERVICIOS puede tomar cualquiera de los valores que se indican a continua-cion:

“autoexpreso, bar, camas, coche cama, cafeteria, literas, motoexpreso, musicaambiental, prensa, restaurante, revistas, telefono, television y video”.

Puede tomar tambien el valor “comodo”.


Capıtulo 4

Modulo de comprension

Una definicion generica de un sistema de Comprension del Lenguaje, es la de unamaquina que acepta cadenas de palabras como entrada y produce frases de un ciertolenguaje semantico que especifica las acciones que se van a llevar a cabo. Bajo este puntode vista, la Comprension del Lenguaje es un proceso de traduccion. Para implementareste proceso se pueden emplear una serie de tecnicas de inferencia para aprender, de formaautomatica, el traductor necesario a partir de un conjunto de muestras de entrada y salidade entrenamiento.

En este trabajo se describe la aplicacion de traductores inferidos de forma automati-ca a una tarea de comprension en el marco de los sistemas de dialogo para entornossemanticamente restringidos.

4.1. Modelo de traduccion para la comprension

Como se mencionaba anteriormente un sistema de Comprension puede ser visto comoun traductor que recibe frases en lenguaje natural y las traduce en su representacionsemantica correspondiente (en uno o varios frames). La aproximacion que hemos pro-puesto (Segarra et al., 2001) (Segarra et al., 2002) permite obtener un modelo efectivoque describe este comportamiento. En esta aproximacion el proceso de traduccion estadividido en dos fases. La primera fase consiste en la traduccion de la frase de entrada enterminos de un lenguaje semantico intermedio. Como este lenguaje intermedio que defi-nimos es secuencial con la entrada, se pueden emplear tecnicas de traduccion secuencial.En la segunda fase una serie de reglas traduce esta representacion intermedia en una re-presentacion basada en frames. Como el lenguaje semantico intermedio que se ha definidopara esta tarea esta cercano a la representacion de frames, esta fase solo requiere de unapocas reglas para construir el frame. Un ejemplo de las acciones llevadas a cabo en estasegunda fase son las conversiones de las fechas relativas y horas en valores absolutos, p.e.“proximo lunes” por “mm/dd/yy” o “por la manana” por “intervalo de hora (5 a 12)”.La primera fase se basa en modelos estocasticos aprendidos automaticamente. Ejemplosde modelizacion de la comprension en dos fases se pueden ver en el sistema Chronus deATT sobre la tarea ATIS (Levin y Pieraccini, 1995) y en el componente estocastico decomprension para la tarea ATIS (Minker, 1998) (Minker, 1999a) y posteriormente en el

65

66 Capıtulo 4. Modulo de comprension

desarrollado para los proyectos RAILTEL y ARISE (Minker, 1999b) del LIMSI.

Decodificacion

ortografica/semanticaGeneracion de FRAME

´

´´

unidad semantica´segmento/Secuencia de pares

Frase de Entrada FRAME

Figura 4.1: Esquema del proceso de comprension

Se define un lenguaje semantico de 64 unidades semanticas para poder recoger lossignificados o la funcion en el dialogo de las diferentes secuencias de palabras recogidas enlas frases de entrada del corpus de BASURDE. Cuando el lenguaje semantico es secuencialcon el lenguaje de entrada podemos segmentar esta en un numero de intervalos igualal numero de unidades semanticas que hay en su correspondiente secuencia semanticaasociada. Esto es, sea W el vocabulario de la tarea (conjunto de palabras) y V el alfabetode unidades semanticas definido. El conjunto de entrenamiento es una conjunto de pares(u,v) donde:

u = u1u2...un, ui = wi1wi2 ...wi|ui|, wij ∈ W, con i = 1, ..., n y j = 1, ..., |ui|

v = v1v2...vn, vi ∈ V para i = 1, ..., n

Cada frase de entrada en W ∗ tiene un par (u,v) asociado a ella, donde v es unasecuencia de unidades semanticas y u es una secuencia de segmentos de palabras de lafrase. A continuacion sigue un ejemplo:

Par de entrada (u,v)=(u1u2u3u4, v1v2v3v4) donde:

u1: quisiera v1: consultau2: horarios de trenes v2: <hora s>u3: a v3: m destino

u4: Alicante v4: ciudad destino

La secuencia semantica v para entrenamiento del modelo de lenguaje semantico es:

consulta <hora s> m destino ciudad destino

Cuando se dispone de un conjunto de entrenamiento de este tipo, el problema delaprendizaje de la traduccion secuencial puede ser resuelto a traves de automatas de estadosfinitos.

Una vez segmentada la frase de entrada y asociado a cada segmento u una unidadsemantica v del lenguaje intermedio la segunda fase del modulo de comprension consis-tira en transformar estos pares en uno o varios frames. Para ello se aplicaran una seriede reglas para reorganizar los contenidos, eliminar los marcadores o partes de la frasecarentes de informacion relevante o mal reconocidas, convertir los valores cualitativos encuantitativos, etc. El ejemplo anterior se convertirıa en el siguiente frame:

4.2. Primera fase del modulo de comprension 67

(HORA-SALIDA)CIUDAD-DESTINO: Alicante

donde la unidad semantica consulta es eliminada por carecer de informacion relevante,la unidad semantica <hora s> se traduce directamente por el frame (HORA-SALIDA),el marcador de destino es eliminado pues solamente indica que la siguiente categorıa/sesta asociada a un destino, la unidad ciudad destino se convierte directamente en elcaso CIUDAD-DESTINO del frame actual que corresponde a (HORA-SALIDA) y se le asociael valor “Alicante” despues de haber sido identificado como valido en el diccionario deciudades definido para esta tarea.

4.2. Primera fase del modulo de comprension

A continuacion se describe la primera fase del modulo de comprension que consisteen la traduccion automatica, empleando modelos estocasticos, de la frase de entrada enterminos de un lenguaje semantico intermedio. En este apartado se describe el lenguajesemantico definido, el aprendizaje, a partir de un corpus segmentado y etiquetado conunidades semanticas, de dos modelos estocasticos: uno de secuencias de palabras asociadasa cada unidad semantica del lenguaje intermedio (habra un modelo por cada unidadsemantica) y un modelo de secuencias de unidades semanticas. Todos estos modelos seintegraran en un unico modelo estocastico capaz de segmentar la frase de entrada yetiquetar cada uno de estos segmentos con un sımbolo del lenguaje intermedio a travesdel alineamiento de Viterbi (Forney, 1973) de la frase de entrada con el modelo integradoestocastico aprendido. Se obtiene de esta forma una secuencia de sımbolos en este lenguajeque es la traduccion de mayor probabilidad entre las posibles de la frase de entrada.

4.2.1. El lenguaje semantico intermedio

El alfabeto sobre el que se ha definido el lenguaje semantico intermedio es especıficopara la tarea de consulta de horarios de trenes. Cada sımbolo, llamado unidad semantica(concepto), representa un tipo de significado (categorizacion semantica) o una funcion enla frase. Una frase en este lenguaje intermedio es una secuencia de unidades semanticasque contiene un mensaje. Como la frase de entrada es lenguaje natural, existen multiplesformas de generar el mismo mensaje semantico. Por ejemplo la unidad semantica consulta

puede ser asociada a: “Me podrıa decir, Cual es, Digame, etc.” Se han definido 64 unidadessemanticas para poder recoger los significados o la funcion en el dialogo de las diferentessecuencias de palabras recogidas en las frases de entrada del corpus de BASURDE. De estamanera, una frase de entrada (secuencia de palabras) tiene una frase semantica (secuenciade conceptos) asociada a ella, que comporta una segmentacion de la frase de entrada.

Utilizando la terminologıa de representacion de los frames, se definieron varias cate-gorıas de etiquetas. Muchas de estas etiquetas tienen una conversion directa en un unicoframe o atributo del frame, otras han sido anadidas para modelizar diferentes estadosdel dialogo o simplemente como marcadores del caso. A la hora de trasladar los valoresobtenidos de la segmentacion al frame, muchas veces se puede trasladar este valor, otrasha de transformarse el valor cualitativo en cuantitativo, o el valor aproximado en valores


(intervalos) concretos. A esta reorganizacion y conversion de valores se le ha denominadola conversion a Frame Canonico y es la segunda fase del modulo de comprension quepasaremos a explicar mas adelante en este capıtulo.

A continuacion se enumeran algunas las unidades semanticas definidas, agrupadassegun su funcion:

a) Unidades relevantes para la creacion posterior del frame. Los conceptos, que vienenentre caracteres especiales < y >, representan una consulta sobre contenidos de latarea como: la estacion de destino, la hora de salida, la hora de llegada, el tipo detren, etc. (<estacion destino>,<hora salida> . . . ). Todas estas etiquetas conceptose corresponden con tipos de frames que se han descrito en el Capıtulo 3.

Los conceptos

<hora s> / <hora a>

<fecha s> / <fecha a>

<precio>

<estacion origen>

<estacion destino>

<tiempo recorrido>

<para en>

<tipo tren>

<servicios>

<vuelta>

Los atributos (cases) se suelen emplear como una serie de restricciones al frame/sal que acompanan en la frase de entrada, aunque a veces aparecen solos como unalista de restricciones a anadir a la semantica de intervenciones anteriores. Se definentres tablas para diferenciar aquellos que llevan asociados un indicativo que expresasi son de salida ( s) o de llegada ( a) y aquellos que hacen referencia a atributos yanombrados con anterioridad ( actual).

Los atributos (cases)

ciudad origen

ciudad destino

para en

estacion origen

estacion destino

tipo tren

tiempo recorrido

precio

tipo viaje

clase billete

numero relativo orden

servicios


Los atributos (cases) de salida y llegada

dia semana s mes a

dia semana a tipo dia s

dia mes s tipo dia a

dia mes a hora s

ano s hora a

ano a intervalo hora s

fecha relativa s intervalo hora a

fecha relativa a intervalo fecha s

mes s intervalo fecha a

Los atributos (cases) que hacenreferencia a un case anterior

hora actual

dia actual

mes actual

ano actual

trayecto actual

ciudad origen actual

ciudad destino actual

A continuacion se muestra un ejemplo de una intervencion del usuario en la apareceuna consulta sobre horarios, precios y tipos de tren para un determinado trayectoy su correspondiente traduccion a lenguaje semantico intermedio:

US : Deseo informacion sobre horario , precio y tipo de tren , debarcelona a madrid chamartın .

deseo informacion sobre : consulta

horario : <hora s>

precio : <precio>

y tipo de tren : <tipo tren>

de : m origen

barcelona : ciudad origen

a : m destino

madrid chamartın : estacion destino

En el siguiente ejemplo se muestra el uso de los atributos que hacen referencia a unatributo ya nombrado en el dialogo:


US : ¿ el primero de ese dıa ?

el primero : numero relativo orden s

de ese dıa : fecha actual

b) Los marcadores de algunos atributos:

m origen (le sigue de cerca la ciudad o estacion origen)m destino (le sigue de cerca la ciudad o estacion destino)m salida (le sigue de cerca alguno de los cases de salida)m llegada (le sigue de cerca alguno de los cases de llegada)m dato valido (le sigue de cerca el valor de un dato que se confirma)not (le sigue de cerca el valor de algun dato que se niega)

El uso de estos marcadores puede apreciarse en el ejemplo anterior para el caso dela ciudad de origen y la estacion destino del trayecto solicitado.

...

de : m origen

barcelona : ciudad origen

a : m destino

madrid chamartın : estacion destino

c) Unidades que hacen referencia al tipo de intervencion del usuario, y que general-mente se corresponden con actos de dialogo:

consulta<confirmacion><no entendido><afirmacion><negacion>

Por ejemplo, a continuacion se muestra una intervencion de usuario y su traduccioncorrespondiente:

US : sı . me lo repite.

sı : <afirmacion>

me lo repite : <no entendido>

d) Unidades sin relevancia semantica para la tarea.

nada (segmentos de relleno)<cortesıa> ( formula de cortesıa)<cierre> (formula de cortesıa de cierre de dialogo)

A continuacion se muestra un ejemplo de etiquetado de fragmentos de una inter-


vencion de usuario con la etiqueta nada, para el caso de palabras sin significadosemantico relevante:

si pudiera ser : nadano le he comentado que : nada

o para servicios que se encuentran fuera de la tarea:

el aeropuerto de : nada

Por ejemplo la ultima intervencion de un usuario al final del dialogo, se etique-tarıa/segmentarıa de la siguiente forma:

...

SIS : ¿Desea usted algo mas?

US : no gracias .

no gracias:<cierre>

4.2.2. Aprendizaje: el modelo de 2 niveles

En este trabajo se propone la construccion del modulo de comprension de BASURDE,para ello se va llevar a cabo el aprendizaje de dos tipos de modelos a partir de un conjuntode pares de entrenamiento (u,v) donde v es una secuencia de unidades semanticas y u esuna secuencia de segmentos de palabras de la frase. Esta aproximacion de dos niveles yafue llevada a cabo con exito para una tarea de consulta en lenguaje natural a una basede datos sobre geografıa de Espana BDGEO (Prieto, 1995).

- Un modelo para el lenguaje semantico Ls ⊆ V ∗. Este representa las secuencias deunidades semanticas permitidas, es decir, el campo semantico de la tarea. El modeloregular As (un automata de estados finitos) para el lenguaje semantico Ls se estimaa partir de las secuencia de unidades semanticas v ∈ V ∗ de la muestra de entrena-miento. A continuacion se muestran dos secuencias semanticas correspondientes ados turnos de usuario del corpus de entrenamiento:

consulta <hora s> m destino ciudad destino

m dato valido consulta tren actual servicios

- Un conjunto de modelos, uno por categorıa semantica vi ∈ V . El modelo regular Avi

(un automata de estados finitos) es estimado para cada categorıa semantica v i ∈ Va partir del conjunto de segmentos ui obtenido de la muestra de entrenamiento aso-ciado a cada una de estas unidades semanticas vi. Por ejemplo posibles realizacionespara la unidad semantica consulta serıan:

quiero sabercual esdıgamepodrıa informar...


En ambos casos hemos escogido modelos de estados finitos. El aprendizaje de estosmodelos se realiza automaticamente a partir de un corpus de muestras segmentado yetiquetado manualmente en terminos de unidades del lenguaje semantico intermedio. Estetrabajo de segmentacion y etiquetado ha sido llevado a cabo por el grupo de la UPVencargado de la realizacion de un modulo de comprension del cual formo parte, empleandosegmentadores/etiquetadores desarrollados dentro del grupo para este proyecto y tecnicasde bootstrapping y posterior supervision para aligerar esta ardua tarea.

Estos modelos de estados finitos se pueden aprender con diferentes tecnicas tanto deInferencia Gramatical, que proporciona la estructura del modelo, como mediante metodosde estimacion automatica de los parametros del modelo como los N-gramas.

A partir de los modelos inferidos se genera un modelo final At, a traves de la aplica-cion de una sustitucion regular σ del lenguaje semantico Ls. Sea σ : V ∗ → P(W ∗) unasustitucion regular tal que ∀vi ∈ V σ(vi) = L(Avi

). El modelo regular At es tal queL(At) = σ(L(As)) = σ(Ls). Esta sustitucion σ convierte cada sımbolo terminal vi ∈ V delmodelo regular As en su modelo regular Avi

correspondiente. La creacion de este modelose muestra en la Figura 4.2.

Figura 4.2: Creacion del modelo integrado At.

Una de las ventajas de esta aproximacion, es que podemos escoger la tecnica de apren-dizaje mas adecuada para la estimacion de cada modelo (el modelo semantico y el modelode unidad semantica). La unica restriccion es que la representacion de estos modelos debedarse en forma de un automata de estados finitos.


4.2.3. Proceso de analisis por Viterbi

Una vez el modelo At ha sido estimado el objetivo es la busqueda de la segmentacionoptima u, u = u1u2....un, de la frase de entrada w = w1w2 . . . wm, wi ∈ W . Cadauno de estos segmentos ui tiene asociada una unidad semantica (concepto) vi, con lo queuna secuencia de conceptos v = v1, . . . , vn, vi ∈ V esta asociada a w y representa susignificado. Cada uno de estos segmentos ui esta formado por una secuencia de palabrascuyo numero expresamos como li, tal que la suma de la longitud de todos los segmentosasociados a la frase es el numero total de palabras de esta l1 + l2 + . . . + ln = |w|.

Dada la secuencia de palabras w, el proceso estocastico consiste en encontrar la se-cuencia de conceptos v que maximiza la probabilidad:

v = argmaxv∗

P (v|w)

De acuerdo con la formula de Bayes la ecuacion puede reescribirse de la siguienteforma:

v = argmaxv∗

P (w|v)P (v)

El termino P (w|v) es estimado como la probabilidad de cada segmento dentro de sucategorıa:

P (w|v) = max∀l1,l2,...ln−1

{P (w1, ..., wl1 |v1) · P (wl1+1, ..., w(l1+l2)|v2) · ...·

·... · P (w(l1+l2+...+ln−1)+1, ..., wm|vn)}

donde la probabilidad de cada segmento es estimada a traves de la probabilidad de laspalabras dado el concepto asociado a la palabra k, y suponiendo que la probabilidad dewk solo depende de la palabra anterior (bigramas):

P (wi, ..., wj |vs) =

j∏

k=i

P (wk|wk−1, vs)

El termino P (v) es estimado en terminos de la probabilidad de la secuencia de concep-tos asociada a la frase de entrada, donde si suponemos que esta probabilidad solo dependede la categorıa anterior (bigramas) serıa:

P (v) =

n∏

i=1

P (vi|vi−1)

Ası pues, se estiman dos probabilidades distintas, la probabilidad de sucesion de laspalabras dentro de un concepto (P (wk|wk−1, vs)) y la probabilidad de sucesion de con-ceptos (P (vi|vi−1)).


Como antes se comentaba se construye un modelo integrado (automata de estadosfinitos) At (Figura 4.2) empleando el modelo semantico As y el modelo de palabras Avi

para cada concepto a partir de las pronunciaciones anotadas semanticamente del corpusde entrenamiento. Estos dos modelos pueden haber sido estimados por diferentes tecnicas.El automata de estados finitos At contiene dos tipos de transiciones las del modelo desecuencias semanticas que indicara un cambio de unidad semantica lo cual lleva implıcitala segmentacion y la de palabras dentro de un concepto que representa las secuenciasposibles de palabras dentro de una unidad semantica.

En nuestro caso, para aprender y estimar los modelos Aviy As a partir del corpus

anotado, se han empleado tres tecnicas, un modelo estocastico de bigramas empleandoel SLMtoolkit (CMU, 1997) y dos aproximaciones gramaticales empleando los algoritmosde inferencia gramatical ECGI (Rulot, 1992) y (k,r)-TSSI (Ruiz, Espana, y Garcıa, 1998)suavizados con el SLMtoolkit a traves de una tecnica de reetiquetado de muestras (Segarray Hurtado, 1997) (Segarra et al., 2003) que se explica en el proximo Capıtulo.

Para analizar la frase de entrada se realiza un alineamiento de Viterbi (Forney, 1973)entre esta y la red del modelo integrado At. Sea w = w1w2 . . . w|w| la frase de entrada. Laprobabilidad de estar en un estado q para una palabra w, habiendo observado la secuenciade palabras w1w2 . . . wt es:

P (q, t) = max∀q′∈pred(q)

{P (q′, t − 1) · P (q|q

′, wt)}

donde pred(q) es el conjunto de estados con una transicion a q y P (q|q′, wt) es la proba-

bilidad de transitar de q′a q habiendo observado wt.

Sea V el alfabeto de unidades semanticas, sea Avjel automata asociado a la unidad

semantica vj ∈ V . La probabilidad de estar en el estado inicial del automata Avj, qi

vj,

habiendo observado la secuencia de entrada w1 . . . wt viene dada por:

P (qivj

, t) = max∀vk∈V

{P (qfvk

, t) · P (vj |vk)}

donde qfvk

es el estado final del automata Avkasociado a la unidad semantica vk ∈ V y

P (vj |vk) es la probabilidad de la secuencia de unidades semanticas vkvj

En la Figura 4.3 aparece un ejemplo de esta traduccion.

4.2.4. Modelo de comprension de dos niveles con unidades POS y seman-ticas

En los ultimos anos, los modelos estocasticos, que son automaticamente estimados apartir de los datos, han sido ampliamente utilizados en el modelado de la comprension dellenguaje natural (Levin y Pieraccini, 1995) (Schwartz et al., 1996) (Minker, 1999b) (Sega-rra et al., 2001). La gran mayorıa de estos trabajos se basan en la definicion de secuenciasde palabras como unidades semanticas basicas para los modelos de lenguaje semanticos.En muchos de ellos la definicion de clases de palabras es necesaria para obtener una altacobertura a partir de los datos (el problema de la carencia de datos esta siempre presente


Frase de entrada (8 palabras):me podrıa decir los horarios de trenes para Barcelona

Frase de salida (9 unidades semanticas):consulta consulta consulta <hora s> <hora s> <hora s> <hora s>m destino ciudad destino

Transduccion:consulta <hora s> m destino ciudad destino

Segmentacion:me podrıa decir: consultalos horarios de trenes: <hora s>para: m destino

Barcelona: ciudad destino

Figura 4.3: Ejemplo de traduccion.

cuando se emplean tecnicas de aprendizaje automatico). Esta aproximacion al proble-ma de la comprension del lenguaje presenta una fuerte similitud con la aproximacionestocastica aplicada en los ultimos tiempos (Brants, 1999) (Pla, Molina, y Prieto, 2000c)(Pla, Molina, y Prieto, 2000a) al problema del etiquetado de textos, donde el objetivo noes solo asociar la etiqueta POS a las palabras sino detectar algunas estructuras sintacti-cas tales como NP, VP, PP, etc. En el primer caso, los segmentos representan unidadessemanticas, y en el segundo, unidades sintacticas.

La aproximacion que se presenta en este apartado trata el problema de forma similar ala aproximacion estocastica para la deteccion de estructuras sintacticas (Shallow Parsingor Chunking) en las sentencias en lenguaje natural. Sin embargo, en este caso, los modelosde lenguaje estocasticos se basan en la deteccion de algunas unidades semanticas a partirde los turnos de usuario del dialogo.

Descripcion de los modelos estocasticos de dos niveles basados en etiquetasPOS

Se propone una aproximacion basada tambien en modelos estocasticos a 2 niveles.Este modelo va a combinar diferentes fuentes de conocimiento a dos niveles. En el nivelsuperior se encuentran modeladas las secuencias de unidades semanticas del lenguajeintermedio. La diferencia con lo explicado anteriormente es que en este caso el nivelinferior se representa la estructura interna de cada una de las unidades semanticas enterminos de categorıas lexicas (palabras, POS, lemas) (Pla, Molina, y Prieto, 2000a) Parala modelizacion de los 2 niveles se emplean modelos de bigramas suavizados a partirde la tecnica de Back-Off (Katz, 1987) para alcanzar la maxima cobertura del lenguajeconsiderado. Las probabilidades se obtienen con el SLMtk a partir de las secuencias dediferentes unidades del conjunto de entrenamiento.

Cuando se aprenden modelos de palabras para modelar la estructura de las unidadessemanticas el tamano de estos es muy grande pese al uso de la categorizacion de ciertaspalabras con identico significado semantico (ciudades, numeros, etc. . . ). Por ello, se pro-pone un metodo alternativo basado en las etiquetas POS (figura 4.4). Para ello, se empleaun etiquetador de Castellano (Pla, Molina, y Prieto, 2000a) que nos proporciona la etique-


<s>

......[Si

Ci

Cj

Ck

Si]

......[Si

Ci

Cj

Ck

Si]

......[Si

Ci

Cj

Ck

Si]

(a) Semantic Model

(c) Integrated LM

...Sk

... Sj

Si

... ... </s>

(b) Model for the Semantic Unit ‘Si’

wn

w1...

......[Si

Ci

Cj

Ck

Si]

</s>

<s>

Figura 4.4: Modelo integrado de lenguaje.

ta POS correspondiente a cada palabra. En esta situacion, se obtiene un nuevo conjuntode entrenamiento etiquetado con informacion morfologica. Por cada unidad semantica seaprende un HMM donde los estados representan las etiquetas POS y las palabras sonemitidas por estos estados de acuerdo con una cierta probabilidad lexica (figura 4.4(b)).Este HMM se estima a partir de los segmentos de POS asociados a esa unidad semantica.

Una vez los modelos han sido aprendidos, se realiza una sustitucion regular de losmodelos del nivel bajo en los del nivel alto, creando un solo modelo a 2 niveles quemuestra las posibles concatenaciones de las unidades semanticas y su estructura interna.Este modelo integrado incluye las probabilidades de transicion ası como las probabilidadeslexicas. Este modelo es similar en su construccion al modelo de 2 niveles explicado en elapartado 4.2.2. Pero en el nivel inferior de cada unidad semantica contiene un modeloHMM de unidades POS capaz de emitir palabras en vez de una palabra. En este caso seva a emplear un conjunto reducido de categorıas gramaticales PAROLE de 68 etiquetas.

Para poder conseguir una modelizacion mas precisa de las unidades semanticas, seemplea una tecnica para enriquecer los HMM (Pla, Molina, y Prieto, 2000b). Esta tecni-ca consiste en incorporar nuevas categorıas al conjunto de etiquetas POS. Estas nuevascategorıas estan fuertemente relacionadas con algunas palabras seleccionadas, que pue-den ser establecidas empıricamente a partir del conjunto de entrenamiento o siguiendootros criterios. A partir de este proceso se obtienen modelos lexicalizados. Aunque estalexicalizacion produce modelos mas complejos, los modelos de unidades semanticas mejo-ran. Por ejemplos si lexicalizamos las preposiciones a y de podemos distinguir entre dossignificados muy distintos en la tarea de horarios de trenes.

En la figura 4.5 se muestra el estado de la lexicalizacion sobre un estado genericoCi, perteneciente a cierta unidad sintactica, cuando esta es particularizada para cierta

4.3. Segunda fase del modulo de comprension 77

Ci Ci +w1...

...wn

w1...

...

wi+1wi−1

wn

Ci|wi

wi

wi

Figura 4.5: Ejemplo de lexicalizacion de un estado.

palabra wi. De esta forma, se obtiene un nuevo estado (el que aparece en negrita) dondesolo puede ser emitida la palabra wi con una probabilidad lexica igual a 1.

4.3. Segunda fase del modulo de comprension

Una vez segmentada la frase de entrada y traducida a un lenguaje semantico inter-medio esta se ha de convertir en un frame, para ello se hace preciso el reorganizar loscontenidos hallados en la frase de entrada y convertir aquellos valores relativos o cua-litativos en valores cuantitativos, siguiendo aquellas normas que se describieron en elapartado 3.3 dedicado a la descripcion de los frames de la tarea. Estas normas conviertenexpresiones como “por la manana” en valores concretos: “entre 5.00 y 13.00”. Un sistemabasado en reglas sera el encargado de realizar esta transformacion a frame a partir de lassegmentaciones en lenguaje semantico intermedio.

A continuacion se explican algunas de las peculiaridades del traductor a frame.

4.3.1. Perdida de la secuencialidad

Una de las caracterısticas principales del proceso de segmentacion de las frases ensegmentos semanticos es el hecho de tratarse de un proceso secuencial con la entrada.El traductor a frame canonico rompe esta secuencialidad imponiendo un orden estrictoentre los frames, ası como entre los atributos dentro de un mismo frame. Este orden, fijoe independiente de la segmentacion semantica, permitira al gestor de dialogo manejar losresultados de comprension de una manera clara y estandar. El orden de los frames es elsiguiente:

(AFIRMACION)(NEGACION)(CIERRE)(HORA-SALIDA)(HORA-LLEGADA)(PRECIO)(ESTACION-ORIGEN)(ESTACION-DESTINO)(TIEMPO-RECORRIDO)(TIPO-TREN)(SERVICIOS)(FECHA-SALIDA)


(FECHA-LLEGADA)()(CONFIRMACION)

El orden de los atributos dentro de un frame es:

CIUDAD-ORIGENCIUDAD-DESTINOPARA-ENESTACION-ORIGENESTACION-DESTINOFECHA-SALIDAFECHA-LLEGADAINTERVALO-FECHA-SALIDAINTERVALO-FECHA-LLEGADAHORA-SALIDAHORA-LLEGADAINTERVALO-HORA-SALIDAINTERVALO-HORA-LLEGADATIPO-TRENTIPO-VIAJECLASE-BILLETEN-RELATIVO-ORDEN-SN-RELATIVO-ORDEN-APRECIOTIEMPO-RECORRIDOSERVICIOSTREN-ACTUALHORA-ACTUALFECHA-ACTUALMES-ACTUALCIUDAD-ORIGEN-ACTUALCIUDAD-DESTINO-ACTUAL

4.3.2. El frame de vuelta

Los segmentos etiquetados con la unidad semantica <vuelta> representan la demandapor parte del usuario de informacion correspondiente al regreso. La aparicion de este seg-mento hace que todos los segmentos posteriores y los frames o atributos derivados de ellos,en consecuencia, se consideren relativos a la vuelta. En principio no hay especıficamenteframes de vuelta simplemente a los frames que representan demanda de informacion delregreso se les anade a su nombre una “V” para indicar que se trata de un frame de vuelta.

Dentro de una misma intervencion de usuario puede haber juntos frames de ida yframes de vuelta. Si existen frames de vuelta estos apareceran despues de todos los de iday siguiendo el mismo orden indicado anteriormente.

Hay una serie de atributos que son compartidos entre los frames de ida y los de vuelta.Estos atributos representan, debido a su naturaleza, caracterısticas o limitaciones al viajeindependientemente del sentido. Estos atributos son:

TIPO-TRENCLASE-BILLETEPRECIO


TIEMPO-RECORRIDOSERVICIOS

4.3.3. Unidades semanticas no utilizadas en la traduccion

Existe una serie de unidades semanticas del lenguaje intermedio que, dada su natu-raleza de marcadores, no son utilizadas en el proceso de elaboracion de los frames. Estossegmentos simplemente son ignorados por el traductor. Se trata de segmentos utilizadoscomo marcadores o que representan explıcitamente partes de la frase carentes de infor-macion relevante o mal reconocidas. Estas unidades son:

nada<cortesia><consulta>m origenm destinom salidam llegada

4.3.4. Unidades semanticas que generan frames

Otra serie de unidades semanticas del lenguaje intermedio hacen que el traductorgenere un frame. Estas unidades son:

<hora s><hora a><fecha s><fecha a><precio><estacion origen><estacion destino><tiempo recorrido><para en><tipo tren><servicios>

Por ejemplo:

Lenguaje semantico intermedio:

querrıa saber : <consulta> (ignorado)el precio : <precio> (genera el frame)

Traduccion a frame:

(PRECIO)

4.3.5. Unidades semanticas que generan atributos

El traductor a frame genera tambien los atributos de los frames basandose en lasunidades semanticas. La relacion entre las unidades semanticas del lenguaje intermedio y


atributos puede ser de distinta cardinalidad:

1 a 1. Una unidad semantica genera un atributo:

Lenguaje semantico intermedio:querrıa saber : <consulta> (ignorado)los horarios : <hora s> (genera el frame)

a : m destino (ignorado)Barcelona : ciudad destino (genera atributo)

Traduccion a frame:(HORA-SALIDA)

CIUDAD-DESTINO : Barcelona

muchos a 1. Varias unidades semanticas generan un unico atributo:

Lenguaje semantico intermedio:querrıa : <consulta> (ignorado)

horarios : <hora s> (genera el frame)a partir de : intervalo hora s (genera atributo)las cuatro : hora s (genera atributo)


INTERVALO-HORA-SALIDA: >= 16.00

muchos a muchos. Varias unidades semanticas generan varios atributos. Normal-mente se produce cuando una misma unidad afecta a varios atributos:

Lenguaje semantico intermedio:querrıa : <consulta> (ignorado)

horarios : <hora s> (genera el frame)a partir de : intervalo hora s (genera atributo)las cuatro : hora s (genera atributo)

o las cinco : hora s (genera atributo)


INTERVALO-HORA-SALIDA: >= 16.00 >=17.00

4.3.6. Atributos sin frame

Existen algunas intervenciones del usuario en las cuales no se demanda mas infor-macion, sino que se aportan nuevas restricciones sobre la consulta ya realizada. Se tratade refinamientos a las consultas formuladas en intervenciones anteriores. Este tipo de in-tervenciones se caracteriza por la ausencia de unidades semanticas que generen frames ysı por otras unidades que generan atributos.

Cuando una intervencion del usuario solo genera atributos estos se incluyen dentro deun frame incompleto denotado como “()” que indica que se trata de una intervencion derefinamiento, es decir de ampliacion de las restricciones.


Lenguaje semantico intermedio:el ocho : dia mes s (genera atributo)

de enero : mes s (genera atributo)a partir de : intervalo hora s (genera atributo)las cuatro : hora s (genera atributo)

Traduccion a frame:() (frame incompleto)FECHA-SALIDA: 08/01/??INTERVALO-HORA-SALIDA: >= 16.00 >=17.00


Capıtulo 5

Aproximaciones Gramaticales

Como se ha senalado en el capıtulo 2, el formalismo de los N-gramas es el mas emplea-do en la modelizacion tanto de los modelos de lenguaje para el reconocimiento como parala comprension. Sin embargo, estos presentan el inconveniente de no reflejar adecuada-mente la estructura completa de la frase, lo cual redunda en una deficiente modelizacionde las relaciones de larga distancia entre terminos. Ademas existen diferentes clases deerrores que se pueden dar al emplear estos formalismos, como son la concordancia entresujeto y verbo y ambiguedades entre terminos etc., y que se pueden evitar utilizandoaproximaciones gramaticales (Derouault y Merialdo, 1986).

En este capıtulo se propone la utilizacion de tecnicas de inferencia gramatical (Fu yBooth, 1975), para abordar el problema de la representacion del lenguaje hablado desdeun formalismo gramatical (en concreto gramaticas regulares) que incorpora el aprendizajebasado en los datos. Desde este punto de vista se pretende aglutinar las principales ven-tajas de dos aproximaciones clasicas a la modelizacion del lenguaje que se han senaladoanteriormente. De forma resumida estas son las siguientes:

Aprendizaje a partir de un conjunto de datos, al igual que los N-gramas.

Flexibilidad, es decir, tolerancia a las construcciones linguısticas no estrictamentecorrectas, pero aceptables, caracterıstica de los modelos basados en N-gramas.

Representacion natural de las restricciones del lenguaje, es decir de sus estructuraglobal, caracterıstica de los modelos basados en gramaticas.

Las tecnicas que aquı se presentan se van a aplicar a la construccion del modulo decomprension del sistema de dialogo BASURDE.

5.1. Algoritmo ECGI

El algoritmo de inferencia gramatical basado en Analisis Corrector de Errores (EC-GI) (Rulot, 1992) es un heurıstico que construye una gramatica regular (o el equivalenteautomata de estado finitos) de una forma incremental a partir de un conjunto de muestraspositivas, consideradas una detras de otra. Como tal heurıstico, incorpora directamente

83

84 Capıtulo 5. Aproximaciones Gramaticales

cierto conocimiento sobre el dominio de la aplicacion en el proceso de inferencia. Enparticular, este proceso incide especialmente en la consecucion de cierta capacidad deabstraccion para capturar la variabilidad relevante que presentan las subestructuras loca-les de la muestra de aprendizaje en funcion de sus posiciones en las mismas, sus duracionesy sus concatenaciones.

El algoritmo de inferencia tiene un mecanismo de construccion que genera gramaticasregulares que tienen la propiedad de que todas las reglas que tienen un mismo sımbolono terminal en su parte derecha, tambien tienen el mismo sımbolo terminal. Sea G =(N,V, P, S) la gramatica, entonces:

Si (B → aC) ∧ (A → bC) ⇒ a = b ;∀A,B,C ∈ N,∀a, b ∈ V

Inicialmente se construye un automata (o gramatica regular) trivial que solo reconoce(genera) la primera cadena del conjunto de muestras. A continuacion, para cada nuevacadena de la muestra que no pertenece al lenguaje reconocido por el automata obtenidohasta ese momento, se actualiza dicho automata anadiendo aquellos estados y transicionesque sean necesarios para que la nueva cadena sea aceptada por el automata. Con el finde determinar dichos estados y transiciones, se incorpora un esquema de correccion deerrores estandar (insercion, sustitucion y borrado) y se utiliza un procedimiento basadoen Programacion Dinamica, similar al algoritmo de Viterbi (Forney, 1973), para encontrarel mejor alineamiento entre la cadena de entrada y la cadena mas proxima en el lenguajereconocido por el automata actual. El resultado de esta fase de analisis sintactico concorreccion de errores se utiliza para modificar el automata aprovechando al maximo laestructura actual; ası pues, solo las transiciones de error (o secuencias de transicionesde error), conducen a la adicion de nuevos estados y transiciones. Este mecanismo deconstruccion incremental es tal que conduce a la obtencion de automatas sin ciclos, enlos que cada estado tiene asignada una etiqueta (terminal). De esta forma, los lengua-jes reconocidos por ellos suponen una “generalizacion conservadora” de la muestra deaprendizaje.

En la Figura 5.1 se muestra un ejemplo del proceso de construccion de un automataECGI. A partir de la primera muestra de aprendizaje R+ = {aabb, acbb, aaabb, abb} (San-chis, 1994). En la Figura 5.1 (a) se representa la gramatica canonica que se genera con laprimera muestra de aprendizaje. En la Figura 5.1 (b) se muestra la gramatica obtenidacon la segunda muestra acbb; los estados y transiciones dibujados con la lıneas mas finascorresponden a la gramatica generada anteriormente; la transicion en lınea discontinuaetiquetada con c es una transicion de error utilizada en la derivacion de correccion deerrores. El procedimiento de construccion no genera esta transicion, sino que que generaun nuevo camino anadiendo un nuevo estado y dos nuevas transiciones (en negrita). Deesta forma, se sigue cumpliendo que cada estado tiene asociado una unica etiqueta. LaFigura 5.1 (c) representa la gramatica generada con la tercera muestra aaabb. La transi-cion de insercion del primer estado, etiquetada con a, representa una transicion de errorutilizada en la mejor derivacion de correccion de errores. El algoritmo no crea esta tran-sicion sino que genera un nuevo camino (en negrita), anadiendo un nuevo estado y dosnueva transiciones. De esta forma se evita el construir un ciclo. La Figura 5.1 representa lagramatica obtenida con la cuarta muestra abb. La transicion de borrado etiquetada con erepresenta la transicion de error utilizada en la mejor derivacion de correccion de errores.

5.1. Algoritmo ECGI 85

a a b b

(a) Gramatica inicial obtenida con la muestra aabb

aa b b

bc

c

(b) Gramatica obtenida con acbb

aa

a b ba

a c b

(c) Gramatica obtenida con aaabb

b b

bc

a

a a

a

ae

(d) Gramatica obtenida con abb

Figura 5.1: Automata de estados finitos A inferido con el algoritmo ECGI a partir de lamuestra S = {aabb, acbb, aaabb, abb}

El mecanismo de construccion genera un nuevo arco (en negrita). Como puede observarseal lenguaje inferido pertenecen no solo las muestras de aprendizaje, sino tambien otrascadenas de similares caracterısticas (en este caso solo una cadena, aacbb).


5.1.1. Descripcion y Propiedades del Algoritmo ECGI

El algoritmo ECGI se describe formalmente en la Figura 5.2 (Sanchis, 1994). El nucleoprincipal del mismo es un proceso iterativo sobre el conjunto de datos R+ constituido pordos acciones fundamentales:

Analisis: proceso de analisis sintactico con correccion de errores de la cadena. Laderivacion obtenida incluye reglas de error y de no error, por lo que cada a

′

i sera, oun sımbolo de la cadena, o bien el sımbolo nulo.

Construccion: actualizacion del automata a partir de la informacion obtenida en lafase anterior.

Algoritmo ECGI

Datos: R+ = {α0, α1, . . . , αm};

Inicializacion: Gn = (S, V, Nn, Pn);

N0 = {A0, A1, . . . , Am}S = A0; F = Am;

P0 = {A0 → a1A1, A0 → a2A2, . . . , Am−1 → amAm};

Iteracion

∀k = 1 . . . n hacer /* αk = a1, a2, . . . , aT */

ANALISIS: /*Obtener una derivacion optima con correccion de errores de αk*/

d∗(αk|G) ≡ (C0 → a′

1C1), (C1 → a′

2C2), . . . , (CT−1 → a′

T CT )

CONSTRUCCION:

∀ subsequencia

(Ci−1 → a′

iCi), (Ci → a′

i+1Ci+1), . . . , (Cj−1 → a′

jCj), (Cj → a′

j+1Cj+1)

de reglas de error (en negrita), comprendidas entre las dos de no error

(Ci−1 → a′

iCi), (Cj → a′

j+1Cj+1)

Sea w = b1b2, . . . , bl la secuencia a′

i+1a′

i+2, . . . , a′

j sin sımbolos nulos e.Anadir:

si w = λ entonces /* si es cadena vacıa */

Pk = Pk−1 ∪ {(Ci → a′

j+1Cj+1)} /*Anadir una transicion (regla)*/sino /*Anadir nuevos estados (no terminales) y transiciones (reglas)*/

Nk = Nk−1 ∪ {C′

1, C′

2, . . . , C′

l}

Pk = Pk−1 ∪ {(Ci → b1C′

1), (C′

1 → b2C′

2), .., (Cl−1 → blC′

l ), (Cl → bj+1C′

j+1)finsi

finparafinparafin ECGI

Figura 5.2: Algoritmo ECGI

Las gramaticas obtenidas por el algoritmo ECGI constituyen descripciones estructu-rales de la muestra de aprendizaje, generalmente muy adecuadas, y de hecho pueden serutilizadas como modelo de lenguaje de las mismas. Ademas, estas gramaticas puedenser ampliadas con informacion estadıstica. Las propiedades de las gramaticas inferidas

5.1. Algoritmo ECGI 87

con este metodo se estudian en profundidad en (Rulot, 1992). A continuacion citaremosalgunas de las mas relevantes:

Son no deterministas y generalmente ambiguas.

Dadas las caracterısticas del metodo de construccion, es obvio que los lenguajesgenerados por estas gramaticas contienen a la muestra de aprendizaje R+, carac-terıstica coherente con la propiedad de consistencia de los metodos constructivos deinferencia.

Las gramaticas no presentan ciclos, por lo que los lenguajes que se generan sonfinitos. Esta propiedad proviene del propio mecanismo de construccion. Observeseque no se generan bucles en los estados, ya que los errores de insercion suponen lacreacion de nuevos estados. Ademas, el modelo de error utilizado hace que la deri-vacion de correccion de errores corresponda a un camino en la gramatica extendidaque utiliza los estados correspondientes a un solo camino de la gramatica generadahasta el momento (aunque utilice reglas de error), y por lo tanto, las nuevas reglasanadidas (secuencias de estados y transiciones) comienzan y terminan en estados deeste unico camino, lo que impide que se generen bucles. Por otra parte, se observaque en aplicaciones de Reconocimiento Sintactico de Formas (Rulot, Prieto, y Vidal,1989), aunque la talla del lenguaje que se obtiene tiende a crecer exponencialmentecon el tamano del conjunto de entrada, lo que indica que se produce una generaliza-cion, el numero de reglas y no terminales (estados) tiende a mantenerse constantea partir de un determinado numero de muestras. Esto se debe a que la gramaticaconsigue capturar la variabilidad de las cadenas de entrada, de modo que cuandose han utilizado suficiente numero de muestras, el extralenguaje generado contiene,ademas de las cadenas de aprendizaje, un gran numero de cadenas de similares ca-racterısticas. Por tanto las nuevas cadenas que se van observando, o ya pertenecenal lenguaje inferido, o solo requieren de un pequeno numero de reglas de error paraser generadas.

En general, las gramaticas resultantes de la aplicacion de este algoritmo, dependendel criterio de presentacion de la muestra de aprendizaje; es decir, del orden depresentacion. No obstante, se observa que los efectos de esta dependencia son menossignificativas si el numero de muestras de aprendizaje es suficientemente elevado(Prieto, 1995).

A la vista de estas propiedades y del metodo constructivo puede destacarse que lasgramaticas obtenidas son capaces de describir las diferentes longitudes de las subestruc-turas que forman los objetos, ası como su variabilidad estructural, caracterısticas queaparecen reflejadas en los extralenguajes que se generan. Tambien se puede observar quelas gramaticas representan la variabilidad estructural de las subestructuras en funcion desu posicion relativa en la muestra, de forma que aunque aparezca la misma subestructurarepetida en las cadena, estas generan secuencias de estados y transiciones en la posi-cion en que aparecen, sin utilizar subsecuencias analogas ya existentes pero en posicionesdistintas.

Las gramaticas ECGI pueden ser ampliadas con informacion estadıstica referente a lasprobabilidades de utilizacion de sus reglas. En concreto, las probabilidades de las reglas


de error y de no error pueden ser aproximadas a partir de su frecuencia de utilizaciondurante la fase de analisis del conjunto de muestras de aprendizaje. Ver detalles en (Rulot,Vidal, y Prieto, 1988), (Rulot, 1992) y (Prieto, 1995).

Las principales dificultades que plantea el aprendizaje de las probabilidades de lasreglas de error, es el gran numero de estas que hay que estimar, lo que exigirıa un numeroprohibitivo de muestras. Para evitar estos problemas, se establece una “ligadura” entrelas reglas de error, de modo que sus probabilidades no dependan de los no terminalesasociados a ellas (es decir, que no dependan de la posicion del error en la cadena), sino solodel tipo de error (sustitucion, insercion, borrado). Ademas, la probabilidad de insercionde un sımbolo se considera independiente del sımbolo que vaya a continuacion. De estemodo, el numero de probabilidades a estimar se reduce considerablemente.

Una simplificacion que tambien suele introducirse en el modelo de error consiste endefinir una gramatica expandida solo con errores de sustitucion. Esto facilita la estima-cion de las probabilidades, y mejora la complejidad computacional de los algoritmos dereconocimiento, dado que el numero de reglas es menor. A pesar de esta simplificacion,el uso de los errores de sustitucion como mecanismo de suavizado, no es suficiente paragarantizar una adecuada cobertura del lenguaje y se deben combinar con otras funcionesde distribucion de probabilidad. Un ejemplo se puede encontrar en (Prieto, 1995) donde secombina, mediante interpolacion lineal, la matriz de errores de sustitucion con la funcionde distancia lexicografica entre cadenas.

5.1.2. Aplicacion del algoritmo ECGI como modelo de lenguaje para lacomprension de BASURDE

En el apartado anterior se exponıan algunas de las razones para proponer el metodoECGI como metodo de aprendizaje de modelos de lenguaje para la comprension, la prin-cipal es que permite realizar aprendizaje automatico del modelo a partir de un conjuntode frases representativas del lenguaje, ademas, los modelos inferidos de esta forma repre-sentan de forma natural la estructura del lenguaje y permiten el uso de construccioneslinguısticas no estrictamente correctas.

Ademas de esto, el que la longitud de las frases sea pequena es beneficioso puesto elmodelo construido con ECGI no contiene ciclos y ello implica que no se puede modelizarcontextos grandes. Para resolver la falta de muestras se ha optado por emplear tecnicasbien estudiadas como son las tecnicas de suavizado para N-gramas descritas anteriormenteen el apartado 2.3.2. Al final de este capıtulo se explica como se ha llevado a cabo elsuavizado de los diferentes modelos de comprension de automatas finitos estudiados enesta tesis.

A la hora de aplicar este metodo para el aprendizaje del modulo de comprension deBASURDE se ha tenido en cuenta que la gramatica resultante al aplicar el ECGI a unamuestra positiva, depende del orden con el que se presentan las muestras de aprendizaje(Prieto y Vidal, 1992) y (Prieto, 1995). Por ello se ha empleado como metodo de ordena-cion de las muestras el Longest Commun Substring (LCS) descrito en (Cormen, Leiseron,y Rivest, 1989), que calcula la suma de las tallas de los LCS entre cada una de las cade-nas y todas las demas y se ordenan de modo decreciente segun este valor. Ası las cadenasmas “parecidas” (mas elementos en comun) se analizan una a continuacion de la otra.

5.2. Algoritmo para la inferencia de lenguajes k-TTSS 89

Este criterio conduce a modelos mas compactos y que permiten una mayor cobertura dellenguaje como se demuestra en la tesis de (Prieto, 1995).

Se ha aplicado el ECGI para el aprendizaje del modelo de lenguaje de las secuenciasde etiquetas semanticas (modelo superior), ası como a las secuencias de palabras que hansido etiquetadas con la misma etiqueta semantica (modelo inferior).

A continuacion vamos a mostrar la aplicacion del ECGI sobre un conjunto de mues-tras de aprendizaje de la etiqueta semantica consulta ordenadas segun el criterio LCS,{me podrıa decir cual es, me gustarıa saber cual es, mire me gustarıa saber, me podrıaconfirmar, me podrıa informar, podrıa saber}

En la Figura 5.3 se muestran los seis automatas generados a partir de las muestrasde entrenamiento de la etiqueta consulta. Como puede observarse en la Figura 5.3 (c)en vez de crearse un bucle sobre el estado “0” con la etiqueta “mire”, se genera un nuevocamino anadiendo un nuevo estado “1” y dos nuevas transiciones, lo que permitira lageneralizacion y que el modelo pueda llegar a reconocer hasta 14 frases, es decir 8 nue-vas frases que no pertenecıan al lenguaje que son: {mire me podrıa decir cual es, mireme gustarıa saber cual es, me gustarıa saber,mire me podrıa confirmar, mire me podrıainformar, podrıa confirmar, podrıa informar, podrıa decir cual es}

5.2. Algoritmo para la inferencia de lenguajes k-TTSS

Este algoritmo de inferencia infiere lenguajes k-Explorables en sentido estricto conumbral (k-TTSS) a partir de una muestra. Dado que los lenguajes k-TTSS son una ex-tension de la familia de los lenguajes k-explorables en sentido estricto k-TSS (Garcia yVidal, 1990), pasaremos a describir estos primero.

5.2.1. Lenguajes k-explorables en sentido estricto

La pertenencia de una cadena a un lenguaje k-TSS esta determinada por el conjuntode segmentos de un tamano k que pueden aparecer en ella y por los prefijos y sufijos delongitudes menores que k. El numero de ocurrencias de los segmentos o el orden en loscuales aparezca no es relevante.

Las cadenas de un lenguaje k-TSS L (dado un valor de k >= 1) estan definidas a travesde tres conjuntos finitos: un conjunto A de prefijos de longitud < k, un conjunto B desufijos de longitud < k, y un conjunto C de segmentos de longitud k que no esta permitidoque aparezcan en las cadenas. La pertenencia de una cadena a un lenguaje k-TSS para unk dado, puede ser determinada explorando la cadena a traves de una ventana deslizantede longitud k y comprobando si sus prefijos pertenecen a A, sus sufijos a B y tambien sino contiene ningun segmento de C.

Aparte de su interes teorico, los lenguajes k-TSS presentan la particularidad de quesu extension estocastica es equivalente a los N-gramas (Segarra, 1993), que como ya se hacomentado son ampliamente empleados en reconocimiento del habla y en decodificacionacustico fonetica (Garcia y Vidal, 1990).


0 1me

52podría

3decir

4cuál es

(a) Gramatica inicial obtenida con la muestra “me podrıa decir cual es”

0 1me

7

2podría

4

gustaría

3decir

5saber

6

cuáles

cuál

(b) Gramatica obtenida con “me gustarıa saber cual es”

0

1mire

2me

6

7cuál 8

me 3podría

5

gustaría

4decir

saber

cuáles

(c) Gramatica obtenida con “mire me gustarıa saber”

0

1mire

2me

6

7cuál

8

me 3podría

5

gustaría

confirmar

4decir

saber

cuáles

(d) Gramatica obtenida con “me podrıa confirmar”

0

1mire

2me

6

7cuál

8

me3podría

5

gustaría

confirmar

informar

4

decir

saber

cuáles

(e) Gramatica obtenida con “me podrıa informar”


0 1mire

2me

3podría

6

7cuál

8

me

podría

5

gustaría

confirmar

informar

saber

4

decir

saber

cuáles

(f) Gramatica obtenida con “podrıa saber”

Figura 5.3: Automatas inferidos con el algoritmo ECGI para la unidad semanticaconsulta a partir de las muestras {me podrıa decir cual es, me gustarıa saber cual es,mire me gustarıa saber, me podrıa confirmar, me podrıa informar, podrıa saber}

5.2.2. Lenguajes k-explorables en sentido estricto con umbral

Una extension de la familia de los k-TSS son los k-explorables en sentido estricto conumbral (k,r)-TTSS (Ruiz, Espana, y Garcıa, 1998). Los lenguajes (k,r)-TTSS se describende forma similar a los k-TSS. La diferencia es que en los lenguajes (k,r)-TTSS, la frecuenciade segmentos de longitud ≤ k es controlada hasta un lımite r ≥ 1 (los lenguajes k-TSS sonuna instancia especıfica de los lenguajes (k,r)-TTSS, para el caso r = 1). Si una palabrax pertenece a un lenguaje (k,r)-TTSS para unos valores dados de k y r, cualquier palabray puede a su vez pertenecer a L si y solo si cumple los siguientes tres requerimientos:

Que comience y termine por los mismos segmentos de longitud k − 1 que x.

Que la frecuencia de cada segmento de longitud menor o igual que k en y sea lamisma que en x si esta frecuencia es menor que r.

Si la frecuencia de un segmento de longitud menor o igual que k en x es mayor oigual que r entonces la frecuencia de ese segmento en y tambien es mayor o igualque r.

Se definen los lenguajes k-TTSS mediante dos conjuntos, de prefijos y sufijos de longi-tud menor que un cierto k y por un conjunto de segmentos restringidos de longitud menoro igual que k. Cada segmento en el conjunto de segmentos restringidos lleva asociado unnivel de restriccion menor que un cierto umbral r. Si este nivel es cero el segmento esprohibido.

El lenguaje definido de esta forma contiene aquellas palabras que comienzan y ter-minan en los conjuntos indicados y tales que ningun segmento restringido puede ocurriren ellas por encima de su nivel de restriccion. Para cada valor de k, el valor r = 1 secorresponde con la familia de los lenguajes k-explorables en sentido estricto.


5.2.3. Inferencia de (k,r)-TTSS

En (Ruiz, Espana, y Garcıa, 1998) se presenta un algoritmo de agrupamiento deestados eficiente capaz de identificar la familia de lenguajes (k,r)-TTSS.

Este algoritmo (k,r)-TTSSI se muestra en la Figura 5.4, donde S es una muestrade aprendizaje, Σ es el alfabeto sobre el que esta definida la muestra, AFD son lassiglas de automata finito determinista, Tk,r(S) representa el conjunto de segmentos delongitud menor o igual que k cuyo numero de ocurrencias en las palabras de la muestraesta por debajo de un umbral r, PTA son las siglas de arbol aceptor de prefijos, Pr(S)es el conjunto de prefijos del conjunto de cadenas S, fk−1(x) : x ∈ S es el conjunto desegmentos finales de longitud k − 1 y ∼ es la congruencia definida en la figura. Estosconceptos aparecen ampliamente explicados en (Ruiz, Espana, y Garcıa, 1998).

Algoritmo (k, r) − TTSSI

Entrada: S ⊆ Σ∗, k ≥ 1, r ≥ 1

Salida: AFD Ak,r compatible con S(S ⊆ L(Ak,r)

Metodo: Obtener Tk,r(S)

A0 = (Q,Σ, δ, q0, F ) el PTA(S)

A′

0 = (Q,Σ, δ, q0, F′) con

F′= {u ∈ Pr(S) : ∃x ∈ S, fk−1(u) = fk−1(x)}

Computar ∼, la relacion de equivalencia en Q = Pr(S),

definida como:

∀u, v ∈ Pr(S), u ∼ v ⇐⇒ fk−1(u) = fk−1(v)∧

∀w ∈ Σk1(w ∈ Tk,r(S) ⇒ |u|w = |v|w)

Ak,r := A′

0/ ∼

Fin Algoritmo

Figura 5.4: Algoritmo (k,r)-TTSSI para la inferencia de la familia de lenguajes (k,r)-TTSS

En cuanto a su aplicacion al Reconocimiento de Formas, la variacion de los parametrosk y r permite un doble control del grado de generalizacion de la muestra que se obtiene,lo que resulta interesante a esos efectos. Es facil ver que para cualquier valor de k y r secumple:

L(Ak+1,r) ⊆ L(Ak,r)

L(Ak,r+1) ⊆ L(Ak,r)

Por otra parte, el algoritmo puede ser implementado de modo que trabaje de maneraincremental, es decir, que si un nuevo dato es considerado, la nueva hipotesis puedeobtenerse solo a partir de este nuevo dato y de la hipotesis en curso.


Ejemplo de funcionamiento del (k,r)-TTSSI

Sean k = 2, r = 2 y S = {aababa, abaaba}. Por lo tanto, T2,2(S) = {aa, bb}, convaa ≤ 1 y vbb = 0.

La Figura 5.5 muestra el automata A0 = PTA(S) correspondiente a la muestra S.

a aa

aa

a a

b

b b

b1 2

3 5 6 7

8 9 11 12

4

10

Figura 5.5: Arbol aceptor de prefijos obtenido con la muestra S = aababa, abaaba

En la siguiente tabla se resumen los valores [fk−1(Pr(S)), v] de los estados de A0 paraformar sucesivamente A

′

0 y A′

0/ ∼.

Estado 1 2 3 4 5 6 7 8 9 10 11 12

fk−1(Pr(S)) λ a a b a b a b a a b a

|v|aa 0 0 1 1 1 1 1 0 0 1 1 1

|v|bb 0 0 0 0 0 0 0 0 0 0 0 0

En las Figuras 5.6, 5.7 y 5.8 se muestra los sucesivos pasos para crear A′

0 y el automatacociente A

′

0/ ∼, asimismo se construye el automata cociente para la muestra S con el valorde r = 1.

a aa

aa

a a

b

b b

b1 2

3 5 6 7

8 9 11 12

4

10

Figura 5.6: Automata A′

0 obtenido a partir de la muestra anterior

5.2.4. Aplicacion del algoritmo (k,r)-TTSSI como modelo de compren-sion BASURDE

Los lenguajes (k,r)-TSSI se definen por medio de los conjuntos de los prefijos y sufijosde longitud < k y por el conjunto de segmentos restringidos de tamano <= k. Cadasegmento en el conjunto de segmentos restringidos es asociado a un nivel de restriccion,que es menor que un umbral dado r. El lenguaje definido de esta manera contiene las


aa

b

1 b

a

a

8

{3,5,7,10,12} {4,6,11}

{2,9}

Figura 5.7: Automata cociente A′

0/ ∼ obtenido a partir de A′

0

a

a

b

a

Figura 5.8: Automata cociente A′

0/ ∼ obtenido a partir de la muestra S para el valorr = 1

palabras que empiezan y terminan con elementos de los conjuntos antes mencionados detal manera que ninguno de los segmentos restringidos aparezcan un numero de veces masalla del nivel de restriccion. En (Ruiz, Espana, y Garcıa, 1998) se muestra la aplicaciondel algoritmo (k,r)-TSSI para el reconocimiento de dıgitos manuscritos y se muestra laevolucion del proceso de aprendizaje conforme varıan r y k.

Para aplicaciones de comprension del lenguaje el alfabeto de la tarea consiste en unconjunto de palabras, y un elemento de las muestras de entrenamiento consiste en unafrase en lenguaje natural. Para este tipo de tareas, los lenguajes (k,r)-TTSS son de interesporque son capaces de representar las concatenaciones permitidas de las secuencias de kpalabras, y al mismo tiempo asegurar que la frecuencia de estas secuencias es mayor queun cierto umbral r.

En la Figura 5.9 se muestra el automata obtenido a partir del conjunto de muestraspositivas de secuencias de palabras {me podrıa decir cual es, me gustarıa saber cual es,mire me gustarıa saber, me podrıa confirmar, me podrıa informar}, etiquetadas con laetiqueta semantica “consulta”.

Como se puede observar en la Figura 5.9 (a) el automata obtenido con los valores der = 2 y k = 2 corresponde al arbol aceptor de prefijos, en la Figura 5.9 (b) se muestrael resultado para los valores de r = 1 y k = 2, este automata es equivalente al automataque se obtiene utilizando un modelo de bigramas. Este automata en comparacion conel obtenido con el ECGI permite reconocer una nueva frase que no se encontraba en ellenguaje: “podrıa saber cual es”.

5.3. Suavizado de modelos de lenguaje 95

0

1me

10mire

16

podría

2

podría

6gustaría

11me

17saber

3decir

14confirmar

15

informar

7saber

12gustaría

4cuál

8cuál

5es

9es

13saber

a) Automata obtenido con las muestras de la etiqueta consulta para r = 2 y k = 2

0

2me

3mire

8podría

4

6cuál

11

podría

5

gustaría

me

saber

confirmar

informar

7decir

saber

escuál

b) Automata obtenido con las muestras de la etiqueta consulta para r = 1 y k = 2

Figura 5.9: Automatas obtenidos a partir de la muestras {me podrıa decir cual es, megustarıa saber cual es, mire me gustarıa saber, me podrıa confirmar, me podrıa informar,podrıa saber} de la etiqueta semantica consulta para diferentes valores de r y k

5.3. Suavizado de modelos de lenguaje

Dada una muestra, un algoritmo de inferencia gramatical obtiene un automata deestados finitos que acepta un lenguaje regular que, no solo contiene la muestra dada, sinoque es una generalizacion de ella. Sin embargo, en muchos casos la generalizacion obtenidano es suficiente para tener una apropiada cobertura de la tarea. Esto es particularmentegrave en aplicaciones de Modelos de Lenguaje que sistematicamente sufren de una carenciade datos de entrenamiento. Por ello, especialmente para este tipo de aplicaciones, a lahora de conseguir una cobertura total de la tarea es necesario generalizar los modelos yainferidos. Para ello, los modelos son suavizados empleando tecnicas bien conocidas comoson la interpolacion y el Back-Off (Bahl, Jelinek, y Mercer, 1983) (Katz, 1987) (Ney,Essen, y Kneser, 1994) (Jelinek, 1997).


5.3.1. Suavizado de aproximaciones gramaticales con el SLMtk

Desafortunadamente, a la hora de aplicar suavizado a tareas de Reconocimiento deFormas en general (i.e. Modelos de Lenguaje), cualquier tecnica de inferencia gramaticalpropuesta en la literatura emplea su propia (ad hoc) tecnica de suavizado. A continua-cion se describe una aproximacion usando el Stochastic Language Model toolkit (SLMtk)(CMU, 1997) para la estimacion de probabilidades y suavizado de los lenguajes regularesinferidos. En particular se introduce un procedimiento basado en un esquema de reeti-quetado de muestras que permite el uso del SLMtk como herramienta de estimacion ysuavizado de los modelos. Esta aproximacion ha sido propuesta en (Segarra et al., 2003).En esta tesis hemos aplicado este procedimiento a los Modelos de Lenguaje inferidos em-pleando el Error Correcting Grammatical Inference algorithm (ECGI) (Rulot y Vidal,1987) y al algoritmo de inferencia para los lenguajes k-explorables en sentido estrictocon umbral (k,r)-TTSSI (Ruiz, Espana, y Garcıa, 1998). Los modelos inferidos a partirde estas dos tecnicas, y suavizados con el SLMtk, son incorporados al componente decomprension del sistema de dialogo de BASURDE.

5.3.2. La estrategia de suavizado

Para poder utilizar el SLMtk y obtener una version probabilıstica suavizada del modeloregular, que ha sido previamente inferida a partir de una muestra, necesitamos una funcionde reetiquetado que convierta la muestra original en una nueva muestra. El proceso semuestras a continuacion:

Sea Σ el alfabeto de la tarea, sea S ⊆ Σ∗ la muestra de entrenamiento, y sea x ∈ Suna palabra de la muestra S tal que x = a1a2 · · · a|x| donde ai ∈ Σ, i = 1, · · · |x|.

Sea A = (Q,Σ, δ, 1, F ) el automata finito inferido a partir de S a traves de un ciertoalgoritmo de inferencia gramatical, tal que S ⊂ L(A). Sea Q = {1, 2, · · · , |Q|} el conjuntode estados del automata A.

Debido al hecho de que x ∈ L(A), existe al menos un camino que acepta x enel automata A, empezando en el estado inicial 1 y acabando en un estado final. Sea1, i1, i2, . . . , i|x| la secuencia de estados que corresponden a este camino en A dondei|x| ∈ F .

Sea Σ′

un nuevo alfabeto cuyos sımbolos son parejas (a,m) donde a ∈ Σ y m ∈ Q.Se define una funcion f : S → Σ′∗ tal que f(x) = x′ donde x = a1a2 · · · a|x| ∈ S yx′ = (a1, i1)(a2, i2) · · · (a|x|, i|x|) ∈ Σ′∗.

Esto es, la funcion f consiste en una anotacion de cada sımbolo aj de la palabra xcon el estado ij con el que transita el automata A cuando analiza el sımbolo aj.

Ejemplo:

Sea el alfabeto Σ = {a, b, c}.

Sea la muestra de entrenamiento S = {aabb, acbb, aaabb, abb}.

El automata de estados finitos A inferido a partir de S empleando el algoritmo ECGIse muestra en la figura 5.10.


1

2a

3a

7a

a

6c

4b

a b

5b

Figura 5.10: Automata de estados finitos A inferido con el algoritmo ECGI a partir de lamuestra S = {aabb, acbb, aaabb, abb}

En este caso, el resultado de la aplicacion de la funcion f a S es:

f(aabb) = (a, 2)(a, 3)(b, 4)(b, 5)f(acbb) = (a, 2)(c, 6)(b, 4)(b, 5)f(aaabb) = (a, 7)(a, 2)(a, 3)(b, 4)(b, 5)f(abb) = (a, 3)(b, 4)(b, 5)

Definimos una muestra anotada S′= {f(aabb), f(acbb), f(aaabb), f(abb)}. A partir de

esta nueva muestra, aplicamos el algoritmo de inferencia para los lenguajes 2-TSS (Garciay Vidal, 1990), obteniendo el automata finito A

′que se muestra en la figura 5.11.

1

a,2(a,2)

a,3(a,3)

a,7(a,7)

(a,3)

c,6(c,6)

b,4(b,4)

(a,2) (b,4)

b,5(b,5)

Figura 5.11: Automata de estados finitos A′inferido con el algoritmo 2-TSS a partir de

la muestra anotada S′= {f(aabb), f(acbb), f(aaabb), f(abb)}

Debido al hecho de que cuando el automata A analiza la muestra S todo camino A esvisitado, la nueva muestra S

′se convierte en una codificacion de la funcion de transicion

δ del automata A. La tabla de transiciones correspondiente a δ se muestra en la Tabla5.1.

A partir de esta codificacion S′el algoritmo de inferencia para los lenguajes 2-TSS es

capaz de inferir el automata A′. Ahora, si renombramos el alfabeto Σ

′del automata A

′

empleando el primer componente de sus sımbolos, esto es, el par (a,m) se convierte en elsımbolo a, obtenemos la tabla de transicion de la Tabla 5.2.

Por ultimo, si renombramos los estados del automata A′empleando el segundo compo-

nente del estado, la tabla de transiciones Tabla 5.2 se convierte en la tabla de transicionesTabla 5.1 y el automata A y A

′son los mismos.


Q/Σ a b c

1 {2,3,7} - -2 {3} - {6}3 - {4} -4 - {5} -5 - - -6 - {4} -7 {2} - -

Tabla 5.1: Tabla de transicion del automata A

Q′/Σ

′a b c

1 {(a,2),(a,3),(a,7)} - -(a,2) {(a,3)} - {(c,6)}(a,3) - {(b,4)} -(b,4) - {(b,5)} -(b,5) - - -(c,6) - {(b,4)} -(a,7) {(a,2)} - -

Tabla 5.2: Tabla de transicion del automata A′

Por otro lado, el SLMtk nos permite obtener modelos de lenguaje a partir de la muestradada, proporcionandonos modelos estocasticos suavizados.

Por lo tanto, proponemos el siguiente proceso:

1. Inferimos el automata finito A a partir de la muestra S empleando un cierto algo-ritmo de inferencia de lenguajes regulares (i.e. el algoritmo ECGI o el algoritmo deinferencia de lenguajes k-TTSS)

2. Aplicamos la funcion f a la muestra S para obtener la nueva muestra S′, teniendo

en cuenta el automata A.

3. A partir de la muestra S′aplicamos el SLMtk con N=2 para obtener un modelo de

lenguaje 2-TSS suavizado (o bigrama), que acepta el mismo lenguaje que el automa-ta inferido anteriormente A. Este modelo de lenguaje es un modelo estocastico ysuavizado.

En conclusion, obtenemos un modelo de lenguaje suavizado para el lenguaje inferidoa traves de un cierto metodo de IG para lenguajes regulares.

5.3.3. Aplicacion del suavizado en BASURDE

Se han inferido modelos de secuencias de unidades semanticas y modelos de secuenciasde palabras asociadas a cada una de las unidades semanticas empleando el ECGI y el (k,r)-TTSSI para el nivel superior y el inferior del modelo de dos niveles a partir de una muestra


(conjunto de frases de entrenamiento) segmentada y etiquetada en terminos de unidadessemanticas. Una vez inferidos estos modelos se ha procedido a etiquetar las muestras deentrenamiento, para ello se busca un camino en el automata de estados finitos que acabeen un estado final y que corresponda a la frase de entrada. El numero asociado a cada unode los estados del camino se asocia a las palabras (o unidades semanticas) de la frase deentrenamiento. Posteriormente se emplea el SLMtk para inferir modelos estocasticos debigramas suavizados con back-off a partir de la muestra de entrenamiento etiquetada conel numero de los estados, obteniendo ası un modelo de lenguaje suavizado para los modelosinferidos con cada uno de los dos algoritmos de inferencia gramatical antes nombrados.A estos modelos estocasticos superior e inferior se les aplica la aproximacion de 2 nivelespara obtener el modelo integrado que se empleara en el alineamiento por Viterbi con lafrase de entrada.

El unico problema de estos modelos, suavizados para evitar problemas de cobertura,es su gran tamano, haciendo costoso el analisis de la frase de entrada al componente decomprension.


Capıtulo 6

Experimentacion

En este capıtulo se describe la experimentacion que se ha llevado a cabo en esta tesisen el ambito de la comprension del lenguaje aplicando las siguientes aproximaciones:modelos de bigramas, modelos de bigramas con etiquetado lexico, modelos inferidos conel algoritmo ECGI y modelos inferidos con el algoritmo de inferencia de los lenguajes(k,r)-TTSSI.

En primer lugar se describe el corpus utilizado. A partir del corpus adquirido deBASURDE se han llevado a cabo dos procesos: un analisis lexico donde se plantea el usode lemas en vez de palabras y un analisis conceptual para agrupar el lexico en categorıas.Posteriormente se muestran los resultados y conclusiones obtenidos en la experimentacionllevada a cabo con dicho corpus tanto con texto como con voz (salida del reconocedor).

6.1. Corpus

A partir del analisis de los 227 dialogos adquiridos con la tecnica del Mago de Oz quecomponen el corpus de BASURDE, se clasificaron los dialogos en base a un criterio deusabilidad, creando con ello tres grupos denominados: completos, incompletos y elimina-dos. Se consideraron 12 dialogos para el grupo de eliminados por alguna de las siguientesrazones: encontrarse fuera de la tarea, por un exceso de longitud en los turnos de usuario,por un exceso de turnos de usuario, o simplemente porque la actuacion del Mago se en-cuentra fuera de la estrategia establecida, estos dialogos se desecharon por completo. Delos restantes, a 21 de ellos se les elimino alguno de sus turnos por las mismas razones deantes, sin embargo, el resto de turnos de ese dialogo se considero aprovechable, pasandoa la categorıa de dialogos incompletos. Quedando pues solo 194 dialogos como dialogoscompletos. Los grupos de dialogos completos e incompletos pasaran a formar parte delcorpus de experimentacion de BASURDE, esta distincion entre dialogos completos e in-completos se tendra en cuenta en aquellos experimentos en los que se tenga en cuenta lasecuencia (estructura) de los turnos dentro de un dialogo.

El corpus de experimentacion de comprension de BASURDE consta de 215 dialogos(completos + incompletos) de los cuales se han eliminado las intervenciones vacıas que-dando un total de 1.440 turnos de usuario con un total de 14.902 palabras, de ellas hay637 palabras distintas, la longitud media de los turnos es de 10,5 palabras, el numero de

101

102 Capıtulo 6. Experimentacion

unidades semanticas distintas del lenguaje semantico intermedio es de 53. Para aprove-char mejor el corpus se ha llevado a cabo un procedimiento de validacion cruzada, con loque se ha dividido el conjunto experimental en 5 conjuntos diferentes de aproximadamen-te 290 turnos cada uno, que se han empleado para test, empleando el resto 1.150 paraentrenamiento, dando lugar a 5 diferentes instancias en cada experimento (entrenamientoy test) de los que se promediaran los resultados obtenidos. En la tabla 6.1 se aprecianlas caracterısticas de los conjuntos definidos junto con el calculo de la perplejidad de losmodelos de bigramas de palabras estimados a partir de las muestras de entrenamiento decada uno de ellos. Para el calculo de la perplejidad se ha empleado el SLMtk.

Conjuntos de entrenamiento 1 2 3 4 5Num. total de intervenciones 1.150 1.153 1.155 1.152 1.150Num. palabras distintas 596 584 585 594 580Num. total de palabras 11.962 11.794 12.098 11.786 11.968

Conjuntos de test 1 2 3 4 5Num. total de intervenciones 290 287 285 288 290Num. palabras distintas 337 339 340 334 353Num. total de palabras 2.940 3.108 2.804 3.116 2.934Perplejidad (modelo de bigramas) 27,40 26,95 23,36 25,01 31,12

Tabla 6.1: Caracterısticas de los conjuntos de entrenamiento y test

En la Tabla 6.2 se muestra cuales son las caracterısticas de los conjuntos de entrena-miento y test en base a las secuencias de unidades semanticas definidas para el corpusetiquetado de BASURDE.

Conjuntos de entrenamiento 1 2 3 4 5Num. unidades semanticas 52 53 52 51 53Num. total de unidades semanticas 5.894 5.859 5.954 5.828 5.881

Conjuntos de test 1 2 3 4 5Num. total unidades semanticas 1.458 1.502 1.398 1.523 1.470Perplejidad (modelo de bigramas) 7,79 9,05 7,21 8,13 7,35

Tabla 6.2: Caracterısticas de los conjuntos de entrenamiento y test del modelo superior desecuencias de unidades semanticas y perplejidad para un modelo de bigramas de unidadessemanticas

6.1.1. Categorizacion y lematizacion del corpus

En el analisis semantico de las frases de entrada, que el modulo de comprension realiza,podemos distinguir varias fases (Figura 6.1). Como se puede observar anadimos una fasea las descritas en el capıtulo 4. En esta fase previa anadida, con el fin de incrementar lacapacidad de generalizacion de los modelos, reducir el numero de parametros y la talla delvocabulario, y antes de aplicar metodos de estimacion, se realiza un preproceso automaticodel lexico de las frases de entrada. En este preproceso se realizan dos tipos de analisis, unanalisis conceptual como puede ser la agrupacion de categorıas del lexico (p.e. nombres de

6.1. Corpus 103

ciudad, nombres de aeropuerto, etc. . . ) y un analisis lexico, en el que se plantea el uso delemas en vez de palabras, o sinonimos relacionados semanticamente. Estos analisis mejoranla estimacion de los modelos estocasticos, sin embargo, son delicados y completamentedependientes de la tarea.

Figura 6.1: Esquema de analisis semantico

Dado que el numero de instancias de algunos atributos en el corpus de BASURDEpuede ser bastante pequeno, dando lugar a problemas de cobertura y de falta de muestrasa la hora de aprender modelos estocasticos, se ha optado por la reduccion del numero depalabras del lexico empleando lemas y agrupando algunas de las palabras del corpus enuna serie de unidades semanticas definidas para la tarea.

Se procedio a lematizar el corpus cambiando las formas verbales en infinitivos, usandosolo formas singulares, ası como, la sustitucion de ciertas palabras poco frecuentes en elcorpus por su sinonimo. A continuacion se muestran algunos ejemplos de estos cambios.

Debido a la compleja conjugacion de los verbos espanoles frente a otros idiomascomo el ingles, se han sustituido las formas verbales por su infinitivo.

informaran:informar

informaras:informar

informases:informar

Algunas instancias en plural se han pasado a formas en singular.

ellas:ella

ellos:el

Palabras poco frecuentes pero significativas para la tarea se han convertido a susinonimo que aparece mayor numero de veces:

en torno a:alrededor de

Al proceso de sustitucion de ciertas palabras del corpus con identico significado semanti-co por una etiqueta semantica que representa una unidad semantica de la tarea se ledenomina categorizacion. Los conjuntos de palabras susceptibles de ser sustituidos porlas etiquetas semanticas, junto con algunos ejemplos se describen a continuacion:


Se ha sustituido cualquier instancia del nombre de una ciudad o estacion por la eti-queta semantica nombre ciudad, reduciendo con ello el lexico de BASURDE de 637a 370 palabras diferentes y tambien los nombres de estacion para aquellas ciudadescon mas de una estacion:

albacete:nombre ciudad

...

barcelona sants:nombre estacion

Dıas de la semana:

lunes:diasem

...

viernes:diasem

Los numeros ordinales:

cinco:numero u

...

treinta:decena

...

novecientas:centena

...

Las fechas senaladas, como las fiestas y las estaciones del ano:

nochebuena:nom fiesta

...

primavera:est anyo

Un ejemplo de una de las frases del usuario lematizada y categorizada, se muestra acontinuacion:

Frase original“querıa saber los horarios de los trenes de zaragoza a santander el viernesa partir de las siete de la tarde”

Frase categorizada y lematizada“querer saber los horarios de los trenes de nom ciudad a nom ciudad eldiasem a partir de las numero u de la tarde”

La enumeracion de todas las instancias que se han sustituido por categorıas semanticas,sinonimos, infinitivos o formas singulares se puede contemplar en el apendice B. En laTabla 6.3 se muestra las nuevas caracterısticas del corpus de experimentacion una vezlematizado y categorizado, como se puede apreciar la perplejidad para un modelo debigramas disminuye aproximadamente un 31 % con respecto a los conjuntos originales.

6.2. Experimentos con texto 105

Conjuntos de entrenamiento 1 2 3 4 5Num. palabras distintas 363 358 352 360 356Num. total de palabras 11.962 11.794 12.098 11.786 11.968

Conjuntos de test 1 2 3 4 5Num. palabras distintas 213 221 221 213 222Num. total de palabras 2.940 3.108 2.804 3.116 2.934Perplejidad (modelo de bigramas) 15,02 16,12 12,67 14,78 16,10

Tabla 6.3: Caracterısticas de los conjuntos de entrenamiento y de test una vez lematizadosy categorizados

6.2. Experimentos con texto

Con el fin de comparar las diferentes aproximaciones seguidas a lo largo de esta tesisse especifican cuatro medidas de la adecuacion de los modelos tanto a nivel de lenguajeintermedio (primera fase del modulo de comprension) como a nivel de frame (segundafase del modulo de comprension), estas medidas son una extension sencilla de las medidasempleadas mas frecuentemente en el ambito del reconocimiento del habla y coinciden conlas medidas de evaluacion propuestas por (Minker, 1999b). Las cuatro medidas se definena continuacion:

porcentaje de secuencias semanticas correctas ( %ssc).

%ssc =num. de secuencias de unidades semanticas correctas

num. total de secuencias de unidades semanticas∗ 100

porcentaje de unidades semanticas correctas ( %usc).

%usc =

(1 −

num. inserciones + num. sustituciones + num. borrados

num. sustituciones + num. borrados + num. correctas

)∗ 100

porcentaje de frames correctos ( %fc); es decir el porcentaje de frames que sonexactamente iguales que el frame de referencia.

%fc =num. frames correctos

num. total de frames∗ 100

porcentaje de nombres de frame y de atributos correctos, le llamaremos porcentajede unidades de frame correctas (%ufc).

%ufc =

(1 −

num. inserciones + num. sustituciones + num. borrados

num. sustituciones + num. borrados + num. correctos

)∗ 100

Bigramas

En la Tabla 6.4 se muestran las caracterısticas de los modelos de bigramas sin suavizar(BIG-BIG SinSuavizar) de las secuencias de unidades semanticas As y para del modelofinal At obtenido a partir de la sustitucion regular de los modelos Avi

inferidos para cada


BIG-BIG SinSuavizar 1 2 3 4 5 MediaNum. categorıas 52 53 52 51 53 52,2Num. estados As 52 53 52 51 53 52,2Num. de transiciones As 662 643 667 656 678 661Factor Ramificacion 12,26 11,69 12,13 12,38 12,33 12,15Num. estados At 1.086 1.087 1.104 1.090 1.086 1.091Num. de transiciones At 2.957 2.921 3.003 2.935 2.924 2.948Factor Ramificacion 2,72 2,69 2,72 2,69 2,69 2,7

Tabla 6.4: Caracterısticas de los modelos de bigramas sin suavizar indeferidos en los nivelessuperior e inferior para cada particion del corpus y la media

unidad semantica vi a partir de los segmentos de palabras ui obtenidos de la muestra deentrenamiento asociada a dicha unidad semantica.

En la Tabla 6.5 se muestran los resultados obtenidos por la tecnica de dos niveles paramodelos de bigramas sin suavizar. Como se puede observar los resultados son bajos, locual era de esperar, debido a que los modelos son sin suavizar. Estos resultados sirven dereferencia para analizar las mejoras que puede introducir el suavizado.

BIG-BIG SinSuavizar 1 2 3 4 5 Media%ssc 45,86 46,34 56,84 54,51 47,9 50,3%usc 49,61 48,85 57,65 54,4 48,46 51,8%fc 56,21 54,7 63,51 66,67 57,93 59,8%ufc 65,19 60,95 68,61 68,67 64,61 65,6

Tabla 6.5: Resultados al aplicar modelos de bigramas sin suavizar en los niveles superiore inferior para cada particion del corpus y la media

A partir de los modelos bigramas y empleando el SLMtoolkit se aplico la tecnicade suavizado de Back-Off con la funcion de descuento Good Turing (Seccion 2.3.2). Losresultados al aplicar los modelos de bigramas suavizados se muestran en la Tabla 6.6,como se puede observar se incrementa en un 17,8 % las ssc, un 35,7 % las usc un 21 % losfc y un 21,9 % las ufc. Evidentemente han mejorado los resultados. Este aumento ademases muy alto, ya que los modelos sin suavizar estan aprendidos con pocas muestras, debidoa que el corpus es pequeno. Se puede observar ademas que los resultados a nivel de framecorrecto ( % fc) y de unidades de frame correctas ( % ufc) mejoran claramente los dellenguaje intermedio ( % ssc y% usc), ello es debido a que muchos errores del lenguajeintermedio estan relacionados con segmentos de palabras que no tienen relevancia a lahora de construir el frame.

Bigramas con etiquetado lexico

A continuacion se muestran los resultados obtenidos empleando el etiquetador lexico(Tabla 6.7), aplicando tres aproximaciones: empleando modelos de bigramas de etiquetasde categorıas lexicas POS (BIG-BIG), modelos de bigramas de etiquetas POS lexicalizan-do las palabras mas frecuentes (BIG-BIG-words) y empleando modelos de bigramas deetiquetas POS lexicalizando los lemas mas frecuentes (BIG-BIG-lemas). Donde ademas


BIG-BIG Back-Off 1 2 3 4 5 Media%ssc 64,14 65,5 71,93 72,22 66,55 68,1%usc 87,21 86,29 89,7 87,92 86,39 87,5%fc 80,69 77,7 84,21 82,64 78,97 80,8%ufc 87,95 85,3 89,34 86,32 87,93 87,4

Tabla 6.6: Resultados de aplicar modelos de bigramas suavizados por Back-Off para cadaparticion del corpus y la media

de las medidas anteriormente comentadas, se emplean unas nuevas medidas para evaluarla eficiencia de los modelos provenientes del estudio de los etiquetadores lexicos:

La precision (%P), esto es, el ratio entre el numero de unidades semanticas pro-puestas correctas y el numero de unidades semanticas propuestas.

El recall (%R), esto es, el ratio entre el numero de unidades semanticas propuestasy el numero de unidades semanticas propuestas en la referencia.

El score Fβ=1 = 2×P×RP+R , que combina las dos medidas anteriores ( %P y%R).

Modelos % ssc % fc % P % R Fβ=1

BIG-BIG 32,3 41,0 55,9 51,0 53,3BIG-BIG-word 58,7 67,3 78,9 79,2 79,0BIG-BIG-lema 59,9 72,5 79,6 81,0 80,3

Tabla 6.7: Resultados experimentales empleando etiquetas POS

Como se puede observar los resultados para el % ssc y% fc empleando etiquetadolexico son inferiores a los obtenidos con los modelos de BIG-BIG suavizados. El interes deesta aproximacion se basa en la mayor capacidad de generalizacion que proporciona lascategorıas lexicas, y por tanto el mejor aprovechamiento de las muestras de entrenamiento.Sin embargo no alcanza los resultados previos. Las razones deben de estar en el exceso degeneralizacion para esta tarea, donde parece mas adecuado la consideracion de categorıassemanticas que las morfologicas.

ECGI

En la Tabla 6.8 se muestran las caracterısticas de los modelos inferidos con el algoritmoECGI (ECGI-ECGI) para las secuencias de unidades semanticas As y para del modelofinal At

Los modelos inferidos son suavizados con la tecnica de Back-Off y la funcion de des-cuento Good Turing tal como se explico en el apartado 5.3 de suavizado de modelos delenguaje. En la Tabla 6.9 se muestran los resultados obtenidos.

Como se puede observar en la Tabla 6.9 los resultados son ligeramente inferiores a losBIG-BIG suavizados, alrededor de entre un 7-8 % para las usc y las ufc y 10-11 % para losfc y las ssc. Es decir el porcentaje por debajo de los Bigramas es mayor en la segmentaciony generacion completa de los frames.


ECGI-ECGI 1 2 3 4 5 MediaNum. categorıas 52 53 52 51 53 52,2Num. estados As 378 386 411 394 401 394Num. transiciones As 1.407 1.364 1.455 1.406 1.432 1.413Factor Ramificacion 3,72 3,53 3,54 3,57 3,57 3,59Num. estados At 15.749 16.506 17.588 16.735 16.268 16.569Num. transiciones At 63.202 66.173 70.704 67.294 65.154 66.505Factor Ramificacion 4,01 4,01 4,02 4,02 4,01 4,01

Tabla 6.8: Caracterısticas de los modelos inferidos con el algoritmo ECGI para cadaparticion del corpus y la media

ECGI-ECGI 1 2 3 4 5 Media%ssc 49,66 54,36 61,75 60,42 55,17 56,3%usc 78,38 77,25 83,48 80,04 79,05 79,6%fc 67,93 65,85 73,68 71,53 71,03 70,0%ufc 81,34 74,93 82,97 79,83 80,91 80,0

Tabla 6.9: Resultados obtenidos con el algoritmo ECGI para cada particion del corpus yla media

Se hizo un nuevo experimento en el que se empleo como modelo superior un modelode Bigramas, lo cual hace que el numero de estados y transiciones del modelo integradosea bastante mas pequeno que utilizando un modelo superior inferido con el ECGI (Tabla6.10). Como se puede observar en la Tabla 6.11 se obtienen mejores resultados empleandocomo modelo superior un modelo de Bigramas.

BIG-ECGI 1 2 3 4 5 MediaNum. categorıas 52 53 52 51 53 52,2Num. estados As 52 53 52 51 53 52,2Num. transiciones As 662 643 667 656 678 661Factor Ramificacion 12,26 11,69 12,13 12,38 12,33 12,15Num. estados At 1.373 1.381 1.401 1.375 1.361 1.378,2Num. transiciones At 5.744 5.730 5.857 5.737 5.677 5.749Factor Ramificacion 4,18 4,15 4,18 4,17 4,17 4,17

Tabla 6.10: Caracterısticas de los modelos empleando un modelo de Bigramas como mode-lo superior y un modelo inferido con el ECGI como el modelo inferior para cada particiondel corpus y la media

BIG-ECGI 1 2 3 4 5 Media%ssc 65,86 66,55 71,58 72,22 63,44 67,9%usc 87,74 85,87 89,63 88,24 85,37 87,4%fc 80 76 83,86 82,29 77,93 80,0%ufc 88,1 83 89,8 87,83 88,65 87,5

Tabla 6.11: Resultados obtenidos con el algoritmo ECGI en el modelo inferior y Bigramasen el modelo superior para cada particion del corpus y la media


Como podemos observar en la Tabla 6.11 aplicando en el modelo superior Bigramasy en el inferior un modelo inferido con el ECGI se obtienen resultados similares a losobtenidos con modelos de Bigramas en ambos niveles. Esto significa que, teniendo encuenta que el ECGI proporciona una representacion mas estricta de la gramatica, es masimportante la restriccion a nivel de secuencia de palabras que a nivel de secuencia deunidades semanticas.

(r,k)-TTSSI

El automata inferido para los valores r = 1 y k = 2 es por completo equivalente alobtenido al aplicar bigramas. Para comparar con los bigramas, se ha incrementado elvalor del umbral r a 2 manteniendo el valor de k a 2. Los resultados y caracterısticas delos modelos inferidos se muestran a continuacion:

(r=2,k=2)-TTSSI 1 2 3 4 5 MediaNum. categorıas 52 53 52 51 53 52,2Num. estados As 2.610 2.643 2.707 2.537 2.709 2.641Num. transiciones As 2.712 2.731 2.820 2.643 2.809 2.743Factor Ramificacion 1,04 1,03 1,04 1,04 1,04 1,04Num. estados At 237.598 233.783 253.598 217.498 229.906 234.477Num. transiciones At 353.418 346.923 377.513 323.562 342.460 348.775Factor Ramificacion 1,49 1,48 1,49 1,49 1,49 1,49

Tabla 6.12: Caracterısticas modelos obtenidos con el algoritmo (r=2,k=2)-TTSSI paracada particion del corpus y la media

Como se puede apreciar en la Tabla 6.12 el factor de ramificacion del modelo deunidades semanticas es casi uno, eso indica que el automata inferido es muy cercano alaceptor de prefijos, siendo su capacidad de generalizacion casi nula. Dado que el numerode estados y transiciones es demasiado grande para ser bien estimado a partir de los datosdisponibles se empleo como modelo superior un automata inferido con los valores r = 1 yk = 2, equivalente a un modelo de bigramas.

Los modelos inferidos con este algoritmo (superior e inferior) son suavizados con latecnica de Back-Off y la funcion de descuento Good Turing tal como se explico en la Sec-cion 5.3 de suavizado de modelos de lenguaje. En la Tabla 6.13 se muestran los resultadosobtenidos.

(r=1,k=2)-TTSSI 1 2 3 4 5 Media(r=2,k=2)-TTSSI%ssc 60,7 60,63 67,02 66,32 61,03 63,1%usc 85,71 83,71 88,09 85,65 82,83 85,2%fc 77,6 74,6 82,11 78,1 74,8 77,4%ufc 85,6 80,8 88 85,3 85,1 85,0

Tabla 6.13: Resultados obtenidos aplicando el algoritmo (r=1,k=2)-TTSSI para inferirel modelo superior de la tecnica de 2 niveles y (r=2,k=2)-TTSSI para inferir el modeloinferior, para cada particion del corpus y la media


Como se puede apreciar en la Tabla 6.13 los resultados son inferiores a los obtenidoscon modelos de Bigramas suavizados, sobre un 2% en las ufc y las usc, sobre 3 % en losfc y de un 5 % en las ssc.

6.3. Experimentos con voz

Las universidades del Paıs Vasco y de Zaragoza han desarrollado reconocedores devoz para el proyecto BASURDE. Las grabaciones originales del corpus BASURDE hansido pasadas por estos reconocedores obteniendo un Word Accuracy del 81,1 % y del84,4 % respectivamente y dos conjuntos de frases reconocidas que se van a emplear comoconjuntos de test en los experimentos. Se ha realizado experimentos empleando estas frasesreconocidas con modelos de bigramas, los resultados para los dos conjuntos reconocidos(Rec.1), (Rec.2), junto con los resultados utilizando las transcripciones manuales (Texto)aparecen en las Figuras 6.14, 6.15, 6.16).

BIG-BIG Texto Rec. 1 Rec. 2%ssc 68,1 42,4 44,3%usc 87,5 71,1 74,7%fc 80,8 52,5 56,3%ufc 87,4 68,2 73,8

Tabla 6.14: Resultados de aplicar modelos de bigramas suavizados por Back-Off sobrepronunciaciones transcritas manualmente y sobre reconocimiento

BIG-ECGI Texto Rec. 1 Rec. 2%ssc 67,9 39,0 41,6%usc 87,4 70,0 70,9%fc 80,0 49,5 53,5%ufc 87,5 67,3 72,9

Tabla 6.15: Resultados de aplicar el modelo BIG-ECGI sobre pronunciaciones transcritasmanualmente y sobre reconocimiento

(r=1,k=2)-TTSSI Texto Rec. 1 Rec. 2(r=2,k=2)-TTSSI%ssc 63,1 40,3 42,9%usc 85,2 70,1 73,7%fc 77,4 50,8 55,1%ufc 85,0 66,4 72,2

Tabla 6.16: Resultados de aplicar modelos de (r=1,k=2)-TTSSI para el modelos superior y(r=2,k=2)-TTSSI para el modelo inferior sobre pronunciaciones transcritas manualmentey sobre reconocimiento

Como se puede apreciar los modelos de Bigramas (BIG-BIG) superan a los modelosBIG-ECGI y de (r,k)-TTSSI en las frases reconocidas por ambos reconocedores al igual

6.4. Conclusiones 111

que las frases transcritas manualmente. Los resultados son mejores para el reconocedorde Zaragoza que para el de la universidad del Paıs Vasco, cosa que era de esperar pueseste ultimo tiene un valor mas bajo de Word Accuracy.

Se debe destacar la dificultad de obtener buenos porcentajes de reconocimiento enframes completos ( % fc). Este problema queda paliado por el hecho de que los porcentajesde acierto a nivel de tipo de frame y atributo ( % ufc) es bastante bueno 70 % -75 % . Esde esperar que con informacion anadida, tal como valores de confianza de reconocimientosuministrados por el reconocedor y valores de confianza asociados a la identificacion delframe y de los atributos de este suministrados por el modulo de comprension, el gestorde dialogo sea capaz de diferenciar aquellas partes de la informacion suministrada que nohan sido bien entendidas o reconocidas por el sistema y le permita generar subdialogosclarificadores en los que se confirme aquellas informaciones con un bajo nivel de confianza.

6.4. Conclusiones

En este capıtulo de experimentos hemos visto que las tecnicas propuestas propor-cionan resultados razonables al problema de comprension del habla en el marco de unsistema de dialogo. Pese a la escasez de muestras de entrenamiento, los modelos estocasti-cos son capaces de calcular las relaciones entre las unidades que componen el habla, tantoa nivel lexico-sintactico, como semantico. Pese al esfuerzo en obtener modelos mas ricosestructuralmente, como los proporcionados por el ECGI o los (r,k)-TTSSI, la aproxima-cion basada en bigramas es la que mejor resultados da. Podemos apuntar como posiblesexplicaciones, que para este tipo de tarea no es necesaria una exhaustiva representacionde la estructura, y que las tecnicas conocidas de suavizado son mas adecuadas para losmodelos de bigramas, siendo el metodo de suavizado una de las claves para que funcioneneste tipo de modelos estocasticos.

Esperamos que los resultados obtenidos puedan mejorar con el uso de otras aproxi-maciones gramaticales como el MGGI, metodologıa de inferencia gramatical basada enel reetiquetado de muestras, para la generacion de modelos estocasticos de uno y dosniveles para la primera fase del modelo de comprension propuesto. En esta aproximacion,a partir del corpus, se busca un etiquetado de las muestras ad-hoc capaz de mejorar losresultados. Cabe esperar que el uso de medidas de confianza tanto las proporcionadas porel reconocedor como las extraidas de la primera fase del modulo de comprension (Garcıaet al., 2003b) mejoren las prestaciones del sistema de dialogo en global. Por otra parte,hay que profundizar en el estudio del etiquetado y los ficheros empleados para categorizary lematizar, de los cuales se esta empleando una version basica.


Capıtulo 7

Aplicacion del sistema decomprension al corpus ARISE

En este capıtulo se evalua la tecnica de 2 niveles aplicada al componente de compren-sion de un sistema de dialogo desarrollado por el grupo de investigacion frances Traitementdu Langage Parle (TLP) del Laboratoire dÍnformatique pour la Mecanique et les Sciencesde lÍngenieur (LIMSI) dentro del proyecto ARISE1.

El proyecto europeo ARISE (Automatic Railway Information Systems for Europe)(Lamel et al., 2000) tiene el proposito de desarrollar un servicio de informacion telefonicapara la red de ferrocarriles en varios paıses Europeos. En colaboracion con la companıaVECSYS y la SNCF (Ferrocarriles de Francia), se ha desarrollado un prototipo de serviciotelefonico capaz de proveer informacion sobre horarios, reservas, precios e informacionsobre los descuentos y servicios ofrecidos para la mayor parte de las conexiones entreciudades de Francia.

Este sistema de dialogo se basa en el desarrollado anteriormente para el proyectoRAILTEL dentro del programa Multi-Lingual Action Plan (MLAP) (Bennacef et al.,1996) (Lamel et al., 1997) y el proyecto ESPRIT MASK (Gauvain et al., 1997). La ar-quitectura del sistema es modular y los programas han sido desarrollados para ejecutarsesobre una estacion de trabajo UNIX equipada de una interfaz telefonica. Comparandocon su predecesor RAILTEL los principales avances que ofrece este sistema son: el controldel dialogo, el uso de medidas de confianza y la inclusion de un modo opcional de deletreopara los nombres de ciudades/estaciones, ademas de permitir interrupciones al sistemacomo una forma de interaccion mas natural entre el usuario y la maquina.

7.1. Descripcion del sistema

Existen seis modulos en el sistema de dialogo (Figura 7.1) (Lamel et al., 2000). Unreconocedor de habla continua independiente del locutor, que en tiempo real, transforma

1Este trabajo fue desarrollado durante una estancia de investigacion del autor de esta tesis a finalesdel ano 2001 y principios del 2002 de cinco meses, financiada por la Universidad Politecnica de Valencia,en este centro de investigacion sito en Orsay cerca de Parıs, dirigida por los doctores Helene Maynard yFabrice Lefevre y supervisada por el lider del grupo de investigacion Jean-Luc Gauvain

113

114 Capıtulo 7. Aplicacion del sistema de comprension al corpus ARISE

la senal vocal en la secuencia de palabras mas probable. El vocabulario de reconocimien-to contiene 1.800 palabras, incluyendo 500 nombres de estaciones. La independencia dellocutor se lleva a cabo empleando modelos acusticos que han sido entrenados a partir delocuciones de un gran numero de hablantes representativos, cubriendo un amplio rango deacentos y calidades vocales. El reconocedor emplea modelos ocultos de Markov HMM con-tinuos, con una mezcla de distribuciones guassianas para los modelos acusticos y modelosde N-gramas suavizados con Back-Off para los modelos de lenguaje. Para los modelosacusticos se emplearon modelos telefonicos independientes del contexto para la variacionalofonica observada en los diferentes entornos contextuales.

SpeechRecognizer

LiteralUnderstanding

SpeechSynthesizer

DialogManager

DatabaseAccess

ResponseGenerator Rules

x

AcousticModels

LanguageModels

probable

wordsequence

most

DBMS

SQL Query

ModelUnderstanding Knowledge

Sources

UnitDictionary

text

CUsemantic

frame

DB Info

constrained dialog

vocal response

LUsemantic

frame

Figura 7.1: Modulos del sistema de dialogo ARISE

El reconocedor asocia un valor de confianza a cada una de las hipotesis sobre unapalabra pronunciada. Si este valor esta por debajo de un lımite obtenido empıricamente,la hipotesis es marcada como incierta. La deteccion de estas palabras inciertas permiteal controlador de dialogo llevar a cabo subdialogos clarificadores. En la actual implemen-tacion la salida del reconocedor de voz es la mejor secuencia de palabras junto con suscorrespondientes valores de confianza, sin embargo, el reconocedor ha sido implementadopara ser capaz de suministrar un grafo de palabras.

La cadena de texto proveniente del reconocedor es pasada al componente de compren-sion de lenguaje natural. Este componente primero realiza una Comprension Literal de lasalida del reconocedor, y despues reinterpreta la consulta en el contexto del dialogo quese esta llevando a cabo. En la Comprension Literal se aplica una representacion de case-frames para determinar el significado de la frase y construir una adecuada representacionsemantica. Se emplea la tecnica de deteccion de palabras clave para elegir una estructurade frame adecuada para la frase sin tener que llevar a cabo un analisis sintactico completo.La mayor parte del trabajo en el diseno de este componente consiste en definir cuales sonlos conceptos significativos para la tarea y las palabras clave adecuadas. Los conceptosque aparecen en la tarea ARISE tienen que ver con los horarios de los trenes, conexiones,precios y reservas (incluyendo descuentos y otras restricciones).

7.2. Comprension del lenguaje en ARISE 115

CVRReconocimiento

Secuencia depalabras

Voz

Secuencia deconceptos

Comprensión

literal

Normalización

de los valores

Figura 7.2: Esquema de Comprension ARISE

Tras la Comprension Literal se lleva a cabo la comprension contextual que consisteen reinterpretar la pronunciacion en el contexto del dialogo actual, teniendo en cuentael sentido comun y el conocimiento de la tarea. Los frames que resultan de la Compren-sion Literal son reinterpretados empleando valores establecidos en reglas predefinidas ylos valores cualitativos son transformados en valores cuantitativos a esta fase se le llamaNormalizacion de los Valores (Figura 7.2). Los frames semanticos son ademas comple-tados empleando la historia del dialogo para poder tener en cuenta la informacion dadapreviamente por el usuario, ası como las cuestiones que el sistema plantea.

El controlador del dialogo interroga al usuario para completar la informacion de losframes, cuando esta es suficiente para hacer una consulta, genera una peticion en unlenguaje similar al SQL al sistema de gestion de bases de datos. Para poder realizar unaconsulta son necesarias al menos cuatro informaciones: la estacion de salida, la estacionde llegada, la fecha y la hora aproximada del viaje. El controlador del dialogo vela porevitar contradicciones, bien volviendo a anteriores estados del dialogo, o bien interrogandoal usuario para pedir una aclaracion. El sistema de gestion de la base de datos (DBMS)emplea una base de datos de informacion de la SNCF denominada Riho.

El componente de generacion de respuesta convierte el frame semantico generado porel controlador de dialogo en una frase en lenguaje natural, que es reproducida por elsintetizador de voz a traves de la concatenacion de unidades de voz, variables en tamano,almacenadas en forma de diccionario.

La capacidad de este sistema de ser interrumpido por el usuario (barge-in capabi-lity) se considera importante a la hora de conseguir un interfaz mas natural. Al anadiresta capacidad algunos modulos deben ser modificados. En primer lugar, la grabacion yreconocimiento de voz deben estar activas en todo momento, incluido cuando se esta sin-tetizando una respuesta. Si se detecta voz entrante, la sıntesis se para, aunque existenciertas situaciones en que el barge-in se deshabilita para asegurar que el usuario escuchela respuesta.

7.2. Comprension del lenguaje en ARISE

En la primera fase del componente de comprension del sistema de dialogo (Figura7.2) se han llevado a cabo dos aproximaciones con exito, una basada en reglas (Lamelet al., 2000) y otra basada en una aproximacion estocastica (Minker, 1998) (Minker,1999b) (Bonneau-Maynard y Lefevre, 2001) utilizando modelos ocultos de Markov, ambasemplean como formalismo la representacion semantica de los caseframes (Fillmore, 1968).

La segunda fase de normalizacion de los valores asociados a los conceptos (Figura7.2) se lleva a cabo de forma automatica por sustitucion por los valores prefijados en el


diccionario de conceptos.

7.2.1. Representacion semantica en el dominio del ARISE

El componente de comprension del sistema ARISE emplea una representacion especıfi-ca denominada concepto/valor (CVR) (Bonneau-Maynard y Devillers, 2000), donde untotal de 64 conceptos, representativos de la tarea, han sido extraıdos de un diccionariode conceptos, y para cada concepto la lista de valores que le podrıan ser asociados. Unejemplo de representacion CVR aparece al final de la Tabla 7.1. Los valores son numeros,nombres propios o clases semanticas que agrupan unidades lexicas sinonimas para estatarea. Por ejemplo para el concepto “range-dep” (intervalo temporal), las expresiones“dans la matinee”, “le matin” o “avant midi” estan normalizadas en un forma unica“matin”.

Una informacion modal (afirmativa o negativa) es asignada a cada par concepto/valorconvirtiendo esta representacion en un triplete. La Tabla 7.1 ilustra el uso de la informa-cion modal. La secuencia “cést pas Croisic” (no es Croisic) esta representada en CVRcon el concepto “place” que tiene asignado un modo negativo “(-/place:Croisic)”. Porultimo, un concepto “null” es asociado a aquellas palabras dentro de la pronunciacionque no contienen informacion semantica (p.e. “et” en la Tabla 7.1).

Para la aproximacion estocastica, el conjunto inicial de conceptos es ampliado con 40marcadores modales (p.e. “-/m:mode” para la palabra “pas” en la Tabla 7.1). Ası pues, sedefinieron para la version estocastica un total de 170 etiquetas (conceptos con informacionmodal, marcadores de modo y la etiqueta null en su modo positivo y negativo).

EntradaUsuario

dans la matinee et cést pas Croisic cést Roissy

Frase Re-conocida

dans la matinee et pas Croisic Roissy

SecuenciaConceptos

(+/range-dep) (+/null) (-/m:mode) (-/place) (+/place)

ValoresNormaliza-dos

matin Croisic Roissy

CVR (+/range-dep) matin

(-/place) Croisic

(+/place) Roissy

Tabla 7.1: Ejemplo de decodificacion semantica para la version estocastica del ARISE

7.2.2. Comprension del lenguaje basada en reglas en el ARISE

En el actual componente de comprension del ARISE se realiza un analisis de caseframesbasado en reglas para determinar el significado de la consulta. Se emplean palabras clavepara seleccionar la estructura del caso apropiada. Los marcadores de caso se empleanpara proporcionar restricciones sintacticas. En “de Paris a Marseille”, por ejemplo, lapreposicion “de” designa “Paris” como ciudad de salida y “a” designa “marseille” como


ciudad de llegada. Pre- y Post- marcadores del caso, que no tienen porque aparecer cercadel caso, proporcionan el contexto del caso. Se realiza un analisis basado en palabrasclave, para determinar en un primer momento el caseframe y entonces se construye unframe semantico del significado de la sentencia instanciando sus atributos.

Para evaluar la representacion semantica obtenida frente a la transcrita manualmentese emplea una herramienta de evaluacion en terminos de inserciones, sustituciones y bo-rrados. La evaluacion se lleva a cabo en todo el triplete CVR tanto del modo como delnombre de concepto semantico ası como del valor asignado al concepto (Bonneau-Maynardy Devillers, 2000).

7.2.3. Adaptacion de la anotacion semantica

La anotacion del corpus en el sistema ARISE esta basada en conceptos esto es, solo laspalabras que tienen informacion semantica relevante son anotadas con su correspondienteetiqueta. Algunas palabras (preposiciones, afijos,. . . ) que son capaces de determinar elconcepto son tambien anotadas. A estas ultimas se les denomina marcadores “markers”(Fillmore, 1968), y son anotados manualmente con el prefijo “p:” y el nombre del conceptoal que determina. Las demas palabras en la frase son consideradas como no significativasy son etiquetadas con la palabra “null”, como se muestra en la Tabla 7.2.

je (+/null)

voudrais (+/null)

aller (+/null)

a (+/p:place-to)

Paris (+/place-to)

Tabla 7.2: Ejemplo de anotacion semantica basada en conceptos

La aproximacion de decodificacion semantica de 2 niveles que se propone en esta te-sis, trata de encontrar la estructura sintactica de las palabras asociadas a cada conceptosemantico de la ocurrencia, segmentando y etiquetando todas las palabras de la frase deentrada. Para aprovechar esta caracterıstica y mejorar los resultados de esta aproximacion,la anotacion del corpus ARISE fue modificada enriqueciendo la anotacion de los conceptoscon las palabras adyacentes dentro de la ocurrencia. Para incorporar las palabras adya-centes (solo aquellas etiquetadas con “null”) dentro del concepto semantico y estimarsi estas son utiles para determinarlo, se implementa un algoritmo que automaticamenteincorpora una secuencia maxima de palabras alrededor de cada concepto anotado (estemaximo esta delimitado por el numero de palabras adyacentes etiquetadas como “null”),y podadas de izquierda a derecha buscando las secuencias de palabras adyacentes signi-ficativas para cada concepto en la pronunciacion. En la parte izquierda se incorporan alconcepto todas las palabras consecutivas anotadas como “null” para despues podarlas.En la parte derecha solo se considera una unica palabra, debido a una experiencia previarealizada por el grupo TLP del LIMSI que indica que longitudes mas largas son inuti-les. Antes de aplicar esta tecnica los marcadores manuales “p:” son reetiquetados conla etiqueta “null” para posteriormente proceder a la incorporacion de palabras por laizquierda de la frase. En la Tabla 7.3 se muestra un ejemplo de esta transformacion delcorpus.


Secuencia de Palabras Anotacion Original Sin Marcadores Palabras Adyacentes

je (+/null) (+/null) (+/place-to)

voudrais (+/null) (+/null) (+/place-to)

aller (+/null) (+/null) (+/place-to)

a (+/p:place-to) (+/null) (+/place-to)

Paris (+/place-to) (+/place-to) (+/place-to)

Tabla 7.3: Ejemplo de la anotacion de conceptos con palabras adyacentes

Las palabras consecutivas asociadas a un mismo concepto se agrupan en un unicosegmento (ui, vi):

u1=je voudrais aller a Paris v1=(+/place-to)

El algoritmo que incorpora las palabras adyacentes a los conceptos tiene dos partesque se describen a continuacion:

1. Extraccion de la secuencia maxima de palabras: En esta parte extraemos lasecuencia mas larga de palabras adyacentes al conjunto de palabras asociadas conun concepto en la frase a partir del corpus de entrenamiento. En la parte derechasolo se considera una palabra. Solo las palabras adyacentes anotadas con el conceptonull pueden ser concatenadas. Sea (u, v) = (u1, v1) . . . (un, vn) el conjunto de paresasociados a la frase w donde v es la secuencia de conceptos pertenecientes a V yu es la secuencia de segmentos de palabras en w. En la Figura 7.3 se muestra elalgoritmo seguido para la implementacion de la extraccion de la secuencia maximade palabras.

Para cada frase w en el corpus de entrenamiento

Para cada (ui, vi) de la frase w, ui = wi1 . . . wi|ui|

Si vi+1=null entonces

mover la primera palabra de ui+1 al final de ui

Si |ui+1| = 0 entonces

borrar (ui+1, vi+1) de (u, v)FinSi

FinSi

Si vi−1=null entonces

mover ui−1 al principio de ui

borrar (ui−1, vi−1) de (u, v)FinSi

FinPara

FinPara

Figura 7.3: Algoritmo para la extraccion de la secuencia maxima de palabras

2. Fase de Poda: En esta etapa solo se guardan aquellas secuencias de palabras aso-ciadas a los conceptos mas significativas de las que se extrajeron en la primera partedel algoritmo. Previamente a la ejecucion de esta segunda fase del algoritmo se orde-nan las secuencias de palabras asociadas a cada concepto por longitud decreciente.


Sea ui=wi1 , wi2 , ...wi|ui|wik ∈ W la secuencia de palabras asociada al concepto

vi ∈ V , y cutoff la funcion que compara el numero de ocurrencias de una secuen-cia de palabras asociada a un concepto particular con un numero predeterminado(funcion de la longitud de la secuencia), si el numero de ocurrencias es menor queel esperado la funcion devuelve true y borra la primera palabra por la izquierda dela secuencia para volver a mirar el numero de ocurrencias de esta nueva secuencia,cada palabra borrada crea un nuevo segmento etiquetado con null, hasta que lafuncion cutoff sea cierta o el segmento ui no contenga ya palabras. Cada palabraborrada crea un nuevo segmento etiquetado con null. Si el segmento ui se quedasin palabras, se elimina vi de el conjunto de parea (u, v) asociado a la frase. En laFigura 7.4 se muestra el algoritmo para llevar a cabo esta fase de poda.

Para cada vi ∈ V en el corpus de entrenamiento

Para cada ui ordenado por longitud decreciente asociado a vi en el

corpus de entrenamiento

Mientras cutoff(ui)=true entonces

borrar la primera palabra de ui

crear un nuevo segmento con esta palabra etiquetado a null

EndMientras

EndPara

Si |ui| = 0 entonces

borrar vi de (u, v)EndSi

EndPara

Figura 7.4: Algoritmo de la fase de poda

Esta tecnica permite encontrar de forma automatica el contexto de palabras para cadaconcepto anotado en el corpus de entrenamiento sin la necesidad de supervision de unapersona experta.

7.2.4. Normalizacion

Las secuencias de palabras anotadas semanticamente de la sentencia reconocida debenser traducidas dentro del sistema de dialogo a su correspondiente frame, los valores en elframe deben ser normalizados de acuerdo con la lista de valores para los conceptos delCVR. Un ejemplo de normalizacion del sistema ARISE se muestra en la Tabla 7.4, losmarcadores de concepto desaparecen.

Valor etiquetado(+/range-dep) dans la matinee

Valor etiquetado normalizado(+/range-dep) matin

Tabla 7.4: Ejemplo de la normalizacion de valores


La expansion de la anotacion de los conceptos en el corpus de entrenamiento conlas palabras adyacentes hace que el programa que realiza la normalizacion de valores enARISE no pueda emplearse (vease 7.5 donde la expansion de la anotacion ha incluidoel verbo “partir” dentro del concepto “range-dep”, el programa de normalizacion da unerror (Error!) pues no espera encontrar ningun verbo en este concepto). Ası pues, parapoder emplear este programa de normalizacion, se hace necesaria la extraccion de aquellaspalabras que fueron anteriormente introducidas y que causan errores en el programa denormalizacion, por ello se desarrollo un programa que automaticamente extrae esas pala-bras. Este programa funciona extrayendo sistematicamente de la anotacion del conceptolas palabras de un diccionario para ese concepto, creado a partir del vocabulario obtenidoen la fase de extraccion del numero optimo de palabras adyacentes relacionadas con elconcepto. Esta tecnica nos permitira hacer uso del programa que implementa las reglasde normalizacion que se definieron en el ARISE (Tabla 7.6).

Valores con Palabras Adyacentes(+/range-dep) partir dans la matinee

Valores normalizados(+/range-dep) Error!

Tabla 7.5: Ejemplo de la anotacion con Palabras Adyacentes en la normalizacion de valorespara el Frame sin extraccion de palabras

Valores con Palabras Adyacentes(+/range-dep) partir dans la matinee

Busqueda en el vocabulario de palabras adyacentes del valor(+/m:range-dep) partir(+/range-dep) dans la matinee

Nuevo valor obtenido para el valor(+/range-dep) dans la matinee

Valor normalizado(+/range-dep) matin

Tabla 7.6: Ejemplo de la anotacion con Palabras Adyacentes en la normalizacion de valorespara el frame aplicando el programa de extraccion de palabras

7.3. Experimentos

7.3.1. Descripcion del Corpus

El conjunto de entrenamiento contiene 14.582 frases. Estas frases han sido extraidasdel corpus ARISE del LIMSI, el cual contiene sobre 10k dialogos hombre-maquina. Estecorpus ha sido semi-manualmente etiquetado en terminos de conceptos. El numero medio

7.3. Experimentos 121

de palabras por pronunciacion es de 5. El numero total de conceptos en el corpus deentrenamiento es de 44.812, con una media de 3 CVR por pronunciacion.

Se ha empleado un corpus de tuning de 440 sentencias para ajustar el metodo de 2niveles a la tarea ARISE CVR. La evaluacion se realiza con un conjunto de test de 496pronunciaciones seleccionadas al azar entre el resto del corpus ARISE. Las caracteristicasdel los corpus de entrenamiento, tuning y test se muestran en la Tabla 7.7.

Entrenamiento Tun. Test#Utt. 14.582 400 400#Words 72.380 2.261 2.261#Concepts (in CVR) 44812 708 708Word Error Rate - 13,4% 14,3%

Tabla 7.7: Descripcion de los corpus de entrenamiento, tuning y test. Numero de pronun-ciaciones (#Utt.), palabras (#Words) y conceptos CVR (#Concepts) de los conjuntosde entrenamiento, tuning y test. Se muestra el Word Error Rate de las pronunciacionesreconocidas para los conjuntos de tuning y de test

7.3.2. Resultados

Se compara el modelo basado en reglas del LIMSI con dos tecnicas estocasticas dife-rentes, la primera han sido desarrollada por el grupo TLP del LIMSI (1 nivel) (Bonneau-Maynard y Lefevre, 2001) y consiste en una red de secuencias de conceptos semanticosasociados a cada frase etiquetada del corpus de entrenamiento. Cada estado en la red escapaz de emitir cualquier palabra que haya sido vista en el corpus de entrenamiento estan-do todos los estados conectados entre sı (HMM ergodicos). La segunda es la tecnica de 2niveles descrita en el capıtulo 4. Los resultados de la comparacion se muestran en la Tabla7.8. La medida que se muestra es el ratio de error de comprension (REC) de la instanciay su etiqueta CVR correspondiente como se describe en el apartado 7.2.1. Se emplea unatranscripcion manual (Manual) y la salida de un reconocedor de voz (Automatica) de laspronunciaciones tanto para el conjunto de tuning (Tun.) como el conjunto de test (Test).El reconocedor tiene un Word Accuracy aproximado del 87 %, siendo 2,6 puntos mejorque el reconocedor del la Universidad de Zaragoza para BASURDE.

Manual AutomaticaTun. Test Tun. Test

Basada en reglas 2,1 9,2 13,2 19,81 nivel LIMSI 7,8 9,4 16,6 19,12 niveles 7,8 10,6 17,1 20,4

Tabla 7.8: Ratios de error para comprension (%REC) para la aproximacion basada enreglas, el modelo estocastico 1 nivel del LIMSI y el modelo estocastico de 2 niveles para lastranscripciones Manuales y salida del reconocedor (Automatica) tanto para el conjuntode Tuning como para el de Test

Como se puede observar en la Tabla 7.8 los resultados de la aproximacion de 2 ni-veles son similares a la de un solo nivel. Para el conjunto de tuning no existe diferencia


significativa en la transcripcion manual y solo una pequena diferencia de 0,5 % apareceen la transcripcion Automatica. Para el conjunto de test el modelo de 2 niveles pareceir ligeramente peor, en la transcripcion Manual aparece una diferencia de 1,2 % con elmodelo de un nivel y 1,4 % con el basado en reglas, en la transcripcion Automatica ladiferencia es de un 1,3 % con el modelo de 1 nivel y de 0,6 % con el basado en reglas.

Se llevo a cabo un experimento para estudiar la influencia de las palabras adyacentesen la anotacion de los conceptos semanticos empleando el modelo de 2 niveles. Se definie-ron marcadores automaticos, postmarkers (+) hacia la izquierda y premarkers (-) hacia laderecha con diferentes longitudes. La posibilidad de union de las palabras pre/postmarkersde un concepto tambien fue considerada. Tambien se estudio la posibilidad, para algu-nas categorıas semanticas (p.e. hour, minute) de etiquetar como una unica categorıa lassecuencias de palabras de salidas (departure-hour) y llegadas (arrival-hour) para unmismo concepto, creando ası un unico modelo de lenguaje para las dos categorıas im-plicadas. Los resultados se muestran en la Tabla 7.9. Como se puede observar la mejorcombinacion de las palabras adjacentes es el uso de (+1) (una palabra) en el lado derecho(right) y tan lejos como sea posible (-∞) en el lado izquierdo (left), agrupadas en unasecuencia las palabras del lado derecho de cada categorıa semantica y uniendo las salidasy llegadas (depart-arriv) para las categorıas semanticas elegidas.

Marcadores Automaticos

left grouped right depart-arriv REC-0 no +0 no 12,6%-1 no +0 no 12,4%-2 no +0 no 11,6%-2 yes +0 no 9,1%-3 yes +1 no 9,1%-2 yes +1 no 8,8%-2 yes +1 yes 8,3%-∞ yes +0 no 8,7%-∞ yes +1 no 8,4%-∞ yes +0 yes 8,1%-∞ yes +1 yes 7,8%

Tabla 7.9: Comparativa de los ratios de comprension (%REC) de las diferentes combi-naciones de premarkers y postmarkers ası como su agrupamiento para el conjunto detuning

Se llevaron a cabo otros experimentos con el algoritmo descrito en la seccion 7.2.3 quetrata de encontrar el optimo numero de palabras adyacentes en el corpus de entrenamientopara incorporarlas en el proceso de expansion del etiquetado de las categorıas semanticas.Los resultados se muestran en la Tabla 7.10 para los conjuntos de tuning y test. Las pre-y post- palabras adyacentes extraıdas de cada categorıa semantica y el concepto fueronprocesados por separado (Individual) y agrupados (Agrupado) para determinar cual es lainfluencia del programa que extrae las palabras adyacentes antes de aplicar el programasde normalizacion de los valores. Los resultados para los experimentos individuales sonlos mismos mostrados previamente en la Tabla 7.8 para 2 niveles. En todos los casospara los experimentos existe en el combinado una diferencia significativa con respecto alindividual, que es menor en el test automatico, ello es debido a la influencia del programa

7.4. Conclusiones 123

de extraccion de palabras adyacentes.

2 niveles con palabras adjacentesManual Automatico

Tun. Test Tun. TestIndividual 7,8 10,6 17,1 20,4Agrupado 10,71 12,96 19,05 21,56

Tabla 7.10: Ratios de error para la compresion ( %REC) de la expansion de la anotacionde los conceptos con el numero optimo de palabras adjacentes combinado e individualpara el conjunto de tuning (Tun.) y el de test (Test)

7.4. Conclusiones

Como se puede observar en los experimentos, la aproximacion de 2 niveles consigueunos resultados similares a los de otras aproximaciones estocasticas para otro etiquetadoy corpus construyendo un modelo sintactico de las secuencias de palabras asociadas acada concepto en el corpus de entrenamiento. El algoritmo del apartado 7.2.3 pretendemejorar los resultados de la aproximacion de dos niveles, buscando automaticamente laspalabras adyacentes a los conceptos anotados en el corpus de entrenamiento para anotarlasjunto a estos. Esta expansion de la anotacion ayuda a localizar conceptos en la frase deentrada. Desafortunadamente el proceso posterior de extraccion de las palabras adyacentesincluidas en el concepto, que es necesario para emplear las reglas de normalizacion parapasar a frame definidas en ARISE, no da buenos resultados. Por ello se hace necesario eldefinir nuevas normas de normalizacion o una tecnica que permita el evaluar la capacidadde esta nueva anotacion extendida de los conceptos encontrados en el ARISE.


Capıtulo 8

Modulo de Dialogo

Este modulo es el encargado de proporcionar un interfaz natural entre el usuario yel ordenador, debiendo aportar el conocimiento pragmatico del dominio de la tarea parafacilitar la comprension del mensaje, mantener una historia del dialogo para resolver losproblemas de elipsis y anaforas, detectar cuando no es completo el requerimiento delusuario y activar el generador de respuestas para interaccionar con el usuario pidiendonueva informacion o verificando la informacion ya suministrada. A este tipo de estrategiade dialogo se le conoce con el nombre de iniciativa mixta.

En un sistema de consulta basado en frames, una vez completado el frame semanticaeste se convierte en una plantilla capaz de realizar una consulta en un lenguaje estandar deinterrogacion a una base de datos. La informacion obtenida de esta consulta sera analizadapor el controlador de dialogo para comprobar que responde a la pregunta del usuario yconstruira una respuesta (no demasiado larga, pues se supone que el sistema es hablado)en base a una plantilla que enviara al generador de respuestas para que conteste al usuariodel sistema.

8.1. La estructura del dialogo

Los desarrolladores de sistemas de lenguaje natural hombre-maquina a menudo coin-ciden en que uno de los mayores problemas en este campo es encontrar una estructura quepueda adaptarse a diferentes aplicaciones. En los ultimos anos se han realizado trabajospara aprender de forma automatica la estructura del dialogo a partir de muestras de dialo-gos (corpora obtenidos por tecnicas de Mago de Oz (Fraser y Gilbert, 1991)) etiquetadasen unidades de dialogo.

Un dialogo se puede ver como un conjunto de intervenciones, donde una intervenciones uno de los turnos de los participantes del dialogo, cada una de estas intervencionesse puede descomponer en varios segmentos. Dependiendo de la funcion de cada uno deestos segmentos se le asocia un acto de dialogo (speech acts (Bennacef, Neel, y Bonneau-Maynard, 1995) (Allen y Core, 1996)). Un segmento puede ser una frase completa, unconjunto de estas o un simple conjunto de palabras. Esta segmentacion en actos de dialogose emplea en numerosos proyectos de consulta a servicios de informacion como son elAMICA (Pieraccini, Levin, y Eckert, 1997), el sistema RAILTEL o ARISE de LIMSI

125

126 Capıtulo 8. Modulo de Dialogo

(Lamel et al., 1997) (Lamel et al., 2000) o BASURDE (Martinez y Casacuberta, 2000).

A partir de las muestras etiquetadas se puede formalizar la estructura del dialogo, bienmediante un conjunto de reglas como en ocurre en (Bennacef, Neel, y Bonneau-Maynard,1995) o de forma automatica, empleando aprendizaje a partir de muestras. Estos ultimosmodelos de lenguaje para actos de dialogo pueden predecir cual es el siguiente acto dedialogo mas probable que se va a producir en la conversacion, pudiendo ası especializarla comprension del siguiente turno de dialogo y evitar acciones no deseables por parte delsistema.

8.2. La estrategia del dialogo

En sistemas de consulta hablada se emplea una estrategia de iniciativa mixta, dondeel usuario puede hacer cualquier pregunta en el instante que desee. Para ayudar a lacomprension entre usuario y sistema, este ultimo debe ser capaz de preguntar al usuariosobre cualquier informacion necesaria para completar el acceso de la base de datos. Larelajacion de las restricciones del sistema a la hora de responder a una pregunta permitenconseguir una herramienta mas natural para el usuario.

A estas normas de actuacion del sistema, se les denomina estrategia del dialogo yson empleadas para la obtencion de corpora de dialogo que se adapten a una estrategiapredeterminada por los disenadores del Mago de Oz como ocurre en proyectos comoBASURDE (Sesma et al., 1999) o MASK (Life y Salter, 1997).

8.3. La historia del dialogo

Uno de los problemas a la hora de disenar un sistema de consulta hablado es que paracompletar una peticion de consulta a la base de datos se pueden necesitar varias inter-venciones entre usuario y el sistema. Este ultimo demanda al usuario informacion paracompletar las consultas, ademas intenta comprobar mediante confirmaciones la informa-cion que ha ido recibiendo, pudiendo haber en este proceso de comunicacion rectificacio-nes, incorporacion de nueva informacion, referencias a informacion que ya ha aparecido(anaforas), etc.

En este proceso la informacion debe ser almacenada y gestionada a lo largo de lasintervenciones. Normalmente un conjunto de reglas determina que restricciones especifi-cadas previamente por el usuario se recogen y cuales deben ser olvidadas y cuando. Paraello en algunos sistemas como RAILTEL (Lamel et al., 1997) cada restriccion tiene aso-ciada un conjunto de restricciones con las que mantiene una dependencia funcional paraque si es modificada, las otras restricciones asociadas a la primera desaparezcan.

8.4. El etiquetado de dialogo

La gestion del dialogo en muchos de estos sistemas se basa en las reglas obtenidasdel conocimiento sobre el comportamiento general de los dialogos y de la observacion de

8.4. El etiquetado de dialogo 127

algunos dialogos de entrenamiento. Sin embargo, en anos recientes la aproximacion pormodelizacion estocastica a los sistemas de dialogo ha ganado interes (Levin, Pieraccini, yEckert, 2000) (Stolcke et al., 2000).

A pesar de que las caracterısticas especıficas de la estructura y las estrategias deldialogo parecen hacer difıcil el uso solo de los modelos estocasticos, pueden ser utilesen alguna parte de la gestion del dialogo. Para obtener modelos estocasticos (N-gramas,HMM), estos se deben estimar a partir de un conjunto de dialogos anotados, para ello sedefinen un conjunto de etiquetas del acto de dialogo. Los modelos aprendidos se puedenutilizar para clasificar los actos del dialogo que se asocian a cada turno del usuario, paradar una prediccion del acto del dialogo del usuario esperado y generar los turnos delsistema.

Un paso importante en el desarrollo de modelos estocasticos es la definicion del con-junto de etiquetas para anotar dialogos (Allen y Core, 1996) (Klein, 1999). Para definirun buen conjunto de etiquetas se ha de considerar su numero (el numero debe ser lo bas-tante grande para demostrar las diversas intenciones de los turnos y para obtener buenasestimaciones de los modelos estocasticos). Tambien se tiene que considerar que el sistemade etiquetas debe ser lo bastante general para poder ser utilizado en cualquier tarea yademas ser lo bastante exacto para ocuparse de una tarea especıfica.

En el proyecto BASURDE se propone un conjunto de etiquetas de actos de dialogodividida en tres diferentes niveles (Martinez et al., 2002). Una descripcion detallada deestas etiquetas y como se ha llevado a cabo el etiquetado, se muestra en el Apendice C.

8.4.1. El etiquetado a tres niveles

La definicion de los actos de dialogo permite la representacion de los sucesivos estadosdel dialogo. Las etiquetas escogidas deben ser lo suficientemente especıficas para mostrarlas diferentes intenciones de los turnos y cubrir todas las situaciones y deben ser lo su-ficientemente generales para adaptarse a diferentes tareas. Si el numero de etiquetas esdemasiado grande, los modelos pueden ser mal estimados debido a la falta de muestras ya la dispersion de las muestras de entrenamiento. Por otro lado, si se define un conjuntopequeno de etiquetas, solo se conseguira modelar propositos generales. La principal ven-taja del modelo de etiquetado propuesto es la division en tres niveles basada en la ideapresentada por (Fukada et al., 1998).

El primer nivel llamado acto de dialogo, es generico para cualquier tarea. El segundoy tercero, llamados respectivamente frames y cases, son especıficos de la tarea con la quese trabaja y nos proporciona una representacion semantica (Fillmore, 1968) y el nexode union con el modulo de comprension. Con esta estructura, el etiquetado es a la vezgenerico para ser aplicado a otras tareas y especıfico para cubrir todas las situacionesposibles en el dialogo.

Una etiqueta es asociada a un segmento. Un segmento es una unidad basica de cono-cimiento dentro de un turno (un segmento tiene en si mismo informacion significativa anivel de dialogo). Ası pues, un turno contiene uno o mas segmentos y cada etiqueta da elsignificado del segmento al que esta asociado.

A continuacion se muestra un ejemplo de etiquetado a tres niveles de un turno de


dialogo de usuario. En el primer nivel, se etiqueta esta intervencion como una Preguntaal sistema, en el segundo nivel se muestra que el objetivo de la consulta es obtener laHora salida, como tercer nivel aparece aquellas restricciones a la consulta como son elDestino la Hora salida u intervalo de hora en que se desea partir y por ultimo el Origen.El etiquetado de un segmento tanto en el segundo como en el tercer nivel es susceptible decontener mas de una etiqueta en el mismo nivel, para luego poder agrupar segmentos conigual etiquetado se decidio ordenar dentro de un mismo nivel las etiquetas alfabeticamentey no en el orden de aparicion de la instancia de esa etiqueta en el segmento.

“querrıa saber horarios de trenes de zaragoza a ciudad real para el proximo viernespor la tarde o sabado por la manana” .

(U:Pregunta:Hora salida:Destino,Dia,Hora salida,Origen)

8.5. Sistemas de dialogo dirigidos por la semantica

En el desarrollo de los sistemas de dialogo, tienen que ser consideradas diferentesfuentes de conocimiento. Las caracterısticas especıficas de cada fuente de conocimientocrea la necesidad de emplear diferentes tipos de modelos y arquitecturas. Es ampliamenteaceptado el hecho de que los modelos estocasticos son una buena representacion paraalgunas de estas fuentes de conocimiento. Algunos trabajos se han realizado en esta lıneapara representar la semantica de las sentencias y la estructura del dialogo (Pieraccini,Levin, y Eckert, 1997) (Baggia et al., 1999) (Lamel et al., 2000) (Martinez y Casacuberta,2000) (Segarra et al., 2001).

Presentamos una aproximacion en la que la estructura de dialogo se representa poruna red estocastica de actos de dialogo. Una ventaja de este tipo de red es que puede seraprendida a partir de muestras anotadas. Ademas de ello, nos proporciona una predicciondel siguiente acto de dialogo esperado del usuario ası como alguna informacion sobre losposibles actos de dialogo que pueden ser generados por el sistema. La identificacion delacto de dialogo es dada a partir de la representacion semantica de la sentencia. Estainterpretacion semantica, no solo proporciona el correspondiente acto de dialogo, sinoademas nos facilita la informacion dada sobre las restricciones de la consulta, como son:“Fecha, Ciudad origen, etc”. . .

Para poder facilitar la informacion solicitada por el usuario, el sistema tiene quemanejar los valores proporcionados por el usuario durante la conversacion (historia deldialogo). Esto se realiza por medio de un “registro de valores actuales” que es actualizadodespues de cada turno de usuario y que se emplea para generar las consultas a la base dedatos y tambien para participar en la generacion de turnos de dialogo del sistema.

8.5.1. El modelo de dialogo

El modelo de dialogo que se propone (Sanchis et al., 2001) es una red estocasticaque se aprende a partir de un conjunto de dialogos etiquetados obtenidos en el casode BASURDE a traves de la tecnica del Mago de Oz. Una muestra de dialogo es unaconcatenacion de actos de dialogo que representan la traduccion de una pronunciacion del

8.5. Sistemas de dialogo dirigidos por la semantica 129

usuario en una sentencia de un lenguaje de actos de dialogo.

Una decision importante en este punto es la definicion del conjunto de actos de dialogoasociado a la aplicacion. Si establecemos un numero bajo de actos de dialogo independien-tes de la tarea, podemos esperar una buena modelizacion de la estructura del dialogo yuna facil identificacion de los actos de dialogo generados por el usuario; con ello se puedeademas cambiar de aplicacion sin tener que realizar demasiados cambios en el modelo dedialogo. Sin embargo se requiere mas informacion sobre el contenido de las frases paraconseguir que el sistema genere su turno de dialogo.

Si incrementamos el numero de actos de dialogo de forma que el significado especıficode cada acto de dialogo aumente, la variabilidad de las decisiones (o acciones) asociadas acada estado de la red se reducen. En otras palabras, un acto de dialogo tiene una intencionespecıfica, pero se necesita una gran cantidad de dialogos etiquetados para aprender elmodelo. Por ejemplo, si el acto es Pregunta la cantidad de tipos de preguntas que puedenrealizarse es muy grande, pero si el acto es Pregunta:Hora salida la pregunta se restringea la hora de salida.

Como antes se comentaba el primer nivel de la etiqueta de cada acto de dialogomuestra la intencion de la frase en el dialogo. Las etiquetas que se definen para este primernivel son genericas para cualquier tarea. El segundo nivel esta ligado a la representacionsemantica de la frase y es especıfica para la tarea. En el modelo de dialogo propuesto enesta aproximacion solo los dos primeros niveles estan presentes.

Las siguientes etiquetas se definieron para el primer nivel:

Apertura, Cierre, No definida, No entendido, Espera, Afirmacion, Rechazo, Pre-gunta, Confirmacion, Respuesta.

Las etiquetas para el segundo nivel son:

Hora salida, Vuelta, Hora salida vuelta, Hora llegada, Hora llagada vuelta, Pre-cio, Ciudad origen, Ciudad destino, Tiempo recorrido, Para en, Fecha salida,Fecha llegada, Tipo tren, Servicios.

Por ejemplo, un turno de dialogo puede ser etiquetado como:

“¿ me puede decir el horario de los trenes a valencia el proximo lunes ?”

(U:Pregunta: Hora salida)

La red estocastica que representa el modelo de dialogo se obtiene a partir del conjuntode dialogos de entrenamiento etiquetados en terminos de secuencias de actos de dialogo.Un ejemplo de esta red para un solo nivel se muestra en la Figura 8.1.

Los actos de dialogo se emplean para:

Predecir el acto de dialogo siguiente del usuario; ayudando a los procesos de reco-nocimiento y comprension.

130C

apıtu

lo8.

Mod

ulo

de

Dialogo

0

10

M:Apertura

12

M:Nueva_consulta

3

5M:Cierre

M:Nueva_consulta

1

M:Respuesta

9

M:Pregunta

16

U:Pregunta

2

M:No_entendido

4

U:Indefinida

11

U:Afirmacion

14

U:Respuesta

15

U:Negacion

6

U:No_entendido

8

M:Espera

M:Respuesta

18M:Indefinida

13

M:Cierre

U:Pregunta

U:Indefinida

17

U:Apertura

U:Cierre

M:Respuesta

U:Pregunta

M:No_entendido

U:Indefinida

7

U:Confirmacion

U:Afirmacion

U:Respuesta

U:Negacion

U:No_entendido

U:Cierre

M:Nueva_consulta

M:Pregunta

U:Pregunta

U:Cierre

M:Nueva_consulta

U:Pregunta

U:Indefinida

U:Afirmacion

U:Respuesta

U:Negacion

U:No_entendido

M:Confirmacion

U:Cierre

M:Nueva_consulta

M:Respuesta

M:Pregunta

U:Pregunta

M:No_entendido

U:Indefinida

U:Afirmacion

M:Espera

M:Confirmacion

M:Nueva_consulta

M:Pregunta

U:Pregunta

U:Indefinida

U:Confirmacion

U:Afirmacion

U:Respuesta

U:Negacion

M:Confirmacion

M:Apertura

M:Nueva_consulta

M:Respuesta

M:Pregunta

U:Pregunta

M:No_entendido

U:Negacion

M:Espera

M:Confirmacion

M:Respuesta

M:Pregunta

M:No_entendido

M:Confirmacion

M:Nueva_consulta

M:Respuesta

M:Pregunta

U:Pregunta

M:No_entendido

U:Indefinida

U:Confirmacion

U:Respuesta

U:Negacion

M:Espera

M:Confirmacion

M:Cierre

U:Cierre

M:Respuesta

M:Pregunta

U:Pregunta

M:No_entendido

U:Indefinida

M:Espera

M:Confirmacion

M:Nueva_consulta

M:Respuesta

M:Pregunta

U:Pregunta

U:Indefinida

U:Confirmacion

U:Respuesta

M:Confirmacion

M:Respuesta

M:Pregunta

U:Pregunta

U:Respuesta

M:Confirmacion

M:Respuesta

M:Pregunta

U:Pregunta

U:Indefinida

U:Afirmacion

U:Respuesta

U:Negacion

U:No_entendido

M:Espera

U:Indefinida

U:Pregunta

U:Indefinida

U:Confirmacion

Figu

ra8.1:

Red

obten

ida

apartir

del

prim

ernivel

de

etiquetad

ode

dialogo

8.5. Sistemas de dialogo dirigidos por la semantica 131

Para decidir cual es la siguiente accion del sistema. Como el numero de muestrasno es suficiente para aprender un modelo preciso, esta decision se dirige a traves dela comprension.

La descripcion de como trabaja el controlador de dialogo se explica a continuacion.Tiene dos componentes principales: la red de dialogo y el registro de valores actuales.La entrada de este modulo la proporciona el modulo de comprension. Esta entrada esun Frame, la cual es una representacion semantica de la informacion obtenida del turnode usuario. Se puede extraer el correspondiente acto de dialogo y las restricciones sobrela consulta dadas por el usuario. El controlador de dialogo emplea esta informacion dedos formas: determina cual es la siguiente transicion en el modelo de dialogo y actualizael registro de valores actuales a partir de las restricciones de la consulta. La salida delcontrolador de dialogo, que es una representacion del frame, se envıa al generador desalida y al sintetizador de voz. La Figura 8.2 muestra el funcionamiento del controladorde dialogo.

...

U:Apertura:Nil M:Nueva_pregunta:Nil

M:Cierre:Nil

U:Cierre:Nil

RESPUESTAS GENERADOR DE

U:Pregunta:Hora _salida

M:Apertura:Nil

M:Respuesta:Hora_Salida

Registro de Valores Actuales Base de Datos (BD)

Respuesta BD

Consulta a la BD

(HORA−SALIDA)CIUDAD_ORIGEN:ValenciaCIUDAD_DESTINO:BarcelonaFECHA_SALIDA: 23/06/2001

Figura 8.2: Esquema de funcionamiento del controlador de dialogo

La dinamica de este proceso se muestra en el algoritmo para el controlador de dialogode la Figura 8.3, donde el controlador de dialogo acepta el frame obtenido a partir delturno del usuario. En primer lugar modifica el registro de valores actuales si es necesario.Si existe suficiente informacion para realizar una consulta a la base de datos, se hace, segenera un frame de respuesta, y se transita en la red de dialogo. Por otra parte el registro devalores actuales se emplea para determinar que transiciones de la red de dialogo deben serpodadas, que seran, aquellas que no son compatibles con la informacion actualizada. Estasituacion se da porque el modelo se aprende a partir de un numero limitado de muestrasy ademas el modelo es un bigrama que solo tiene historia de la etiqueta anterior, por ello,restricciones dadas en los turnos anteriores, no se pueden tener en cuenta.

Por ejemplo, una de las transiciones de la red podrıa llevar a preguntar al usuariosobre la ciudad de salida y que esta informacion hubiera sido ya dada en un turno previo.En este caso las transiciones deben ser prohibidas. Una vez el conjunto de transicionespermitidas es determinado, una de ellas es elegida y se genera el correspondiente frame.El proceso finaliza cuando se encuentra una etiqueta de Cierre.


/*Inicializacion*/Hacer Estado=AperturaIniciar(Registro de Valores Actuales) /*Iniciar(RVA)*/Repetir

Sentencia=obtener sentencia del turno de usuarioFrame=extraer significado(Sentencia)Estado=Transicion a(Estado,Frame)RVA=Actualizar(Frame)/* acciones del controlador */si Consulta completa(RVA)

entonces

Enviar Consulta Base de DatosEstado=Elegir transicion

sino

seleccionar las transiciones permitidas por el RVAEstado=Elegir una de las transiciones seleccionadas

Generar el frame de de salidahasta Estado=Cierre

Figura 8.3: Algoritmo del controlador de dialogo

8.5.2. Experimentos

A partir de los conjuntos de entrenamiento del corpus de experimentacion de BA-SURDE anotados utilizando solamente los dos primeros niveles del etiquetado de dialogose aprendio un modelo de bigramas como modelo de dialogo, este modelo consta de 158estados de los que 57 corresponde a etiquetas de turnos de sistema y 101 a etiquetas deturnos de usuario, el numero de transiciones en el modelo es de 666 transiciones eso haceun factor de ramificacion de 4,22. A partir de este modelo suavizado con “Back-off” seintento predecir cual es el siguiente acto de dialogo del usuario de los conjuntos de testobteniendo una media de acierto del 87 % en la identificacion del siguiente acto de dialogode usuario.

8.6. Modelos de comprension especıficos de Dialogo

En esta seccion se presenta una aproximacion a la estimacion del componente decomprension del sistema de dialogo BASURDE, teniendo en cuenta el estado del dialogoen que nos encontramos dentro del dialogo con el fin de mejorar el comportamiento de lacomprension (Sanchis et al., 2002) (Garcıa et al., 2003a).

En el sistema de dialogo BASURDE, la representacion de la estructura de dialogose realiza por medio de una red estocastica de actos de dialogo. Una de las ventajasde esta estructura es que es capaz de dar una prediccion de cual va a ser el siguienteacto de dialogo de usuario esperado. Esta informacion se puede emplear en el procesode comprension, en particular, se pueden emplear diferentes modelos de comprension enfuncion del tipo de acto de dialogo anterior del sistema (Xu y Rudnicky, 2000a) (Hacioglu

8.6. Modelos de comprension especıficos de Dialogo 133

y Ward, 2001).

Nos centraremos en el primer nivel de etiquetado de dialogo, que corresponde al com-portamiento del dialogo independiente de la tarea. Este primer nivel presenta las siguientesetiquetas de dialogo: Apertura, Cierre, Indefinida, Espera, Nueva consulta, No entendido,Afirmacion, Confirmacion, Pregunta y Respuesta. Un ejemplo de anotacion a un nivel semuestra en la Figura 8.4.

S1: Bienvenido al sistema automatico de informacion de trenes regio-nales y de largo recorrido, que desea? (S:Apertura)

U1: Puede decirme a que hora salen los trenes de Valencia a Barcelona?(U:Pregunta)

S2: De Valencia a Barcelona,(S:Confirmation) que dia quiere salir?(S:Confirmacion S:Pregunta)

U2: El proximo jueves (U:Respuesta)

Figura 8.4: Ejemplo de etiquetado de dialogo a un nivel

8.6.1. Modelizacion especıfica de la comprension

Para conseguir modelos especıficos se han clasificado las muestras en funcion del estadodel dialogo. Se dividieron las muestras de entrenamiento del usuario en 10 subconjuntos.Cada subconjunto es asociado con el primer nivel de etiquetas de dialogo, y contiene elturno de usuario que sigue a esta etiqueta. Por ejemplo, el conjunto Apertura contienetodos los turnos de usuario que se han pronunciado despues de haber generado el sistemael acto de dialogoApertura. Como ya se ha comentado en la introduccion, pensamos queesta clasificacion de las muestras permite una mejor modelizacion de los turnos de usuario.

Posteriormente despues de analizados los subconjuntos obtenidos se comprobo que solocuatro de los subconjuntos, los que corresponden a las etiquetas Apertura, Confirmacion,Nueva Consulta y Pregunta, contienen un numero de muestras suficiente para llevar acabo una estimacion aceptable del modelo estocastico.

La modelizacion especializada solo se ha aplicado en el nivel superior de la tecnica de 2niveles. Justificamos esta eleccion en el hecho de que este nivel representa la semantica dela entrada, mientras que el nivel inferior representa solo la instanciacion de esta semanticaen terminos de secuencias de palabras. Gracias a esta eleccion, para inferir los modelosde palabras de cada unidad semantica hemos aprovechado todas las muestras de dichaunidad en el corpus de entrenamiento.

En el proceso de decodificacion, el controlador de dialogo selecciona el modelo es-pecıfico adecuado (Figura 8.5), es decir, el que viene predeterminado por el ultimo actode dialogo generado por el sistema.

8.6.2. Experimentacion y Conclusiones

Para estudiar la conveniencia de los modelos especıficos de dialogo, se realizo unaexperimentacion sobre el corpus de BASURDE, comparando los resultados obtenidos con


Figura 8.5: Seleccion de los modelos especıficos

aquellos que fueron obtenidos empleando un modelo de lenguaje general. A partir de estacomparacion se presentan una serie de conclusiones.

Para cada subconjunto de muestras correspondiente a cada una de las cuatro etique-tas de dialogo escogidas Apertura, Confirmacion, Nueva consulta y Pregunta se crea unconjunto de entrenamiento del 75 % y uno de test del 25 %. El primer conjunto se empleaen el aprendizaje del modelo especıfico de esa etiqueta y el segundo se empleara comotest, tanto para el modelo especıfico como para el modelo general. El modelo general seaprende a partir de todo el conjunto de muestras que no es de test. Notese que el conjuntode aprendizaje para el modelo general es mucho mayor que el de los modelos especıficos.En particular hay etiquetas para las cuales el conjunto de aprendizaje para el modelogeneral, supera el 90 % de las muestras.

Sobre los conjuntos de test definidos anteriormente se han hecho tres experimentos decomprension: uno con la transcripcion manual de las pronunciaciones del usuario (Texto),y otros dos con la salida de dos reconocedores diferentes. El primero (Rec. 1) con un WordAccuracy del 81,1 % y el segundo (Rec. 2) con un Word Accuracy del 84,8 %.

Para estos experimentos se han utilizado las cuatro medidas de comprension a nivelde lenguaje intermedio y frame ya definidas en el capıtulo de dicado a la experimentacionporcentaje de secuencias semanticas correcta ( %ssc), porcentaje de unidades semanticascorrectas ( %usc), porcentaje de frames correctos ( %fc) y porcentaje de unidades correctasdel frame (%ufc)

Los resultados (%ssc, %usc,%fc y%ufc) obtenidos empleando modelos especıficos (esp.)y general (gen.) aparecen en la Tabla 8.1

Aunque el porcentaje de turnos completamente comprendidos (%fc) no es muy alto,en algunos conjuntos, el porcentaje de atributos y tipo de frame identificados (%ufc)sı que es suficientemente bueno, incluso cuando las frases son la salida del reconocedor.Esto permite que en sucesivos turnos de dialogo, el sistema pueda completar informacionessobre atributos y corregir errores.

En cuanto al comportamiento de los modelos especıficos, se puede observar que es me-jor en los conjuntos Apertura y Confirmacion, que corresponden a tipos de intervencionescon estructuras mas similares. En los otros casos no se consiguen mejoras, pero hay que

8.6. Modelos de comprension especıficos de Dialogo 135

AperturaTexto Rec. 1 Rec. 2

esp. gen. esp. gen. esp. gen.%ssc 50,9 50,2 22,4 22,9 23,4 21,5%usc 89,6 88,7 73,8 73,3 77,8 76,2%fc 76,7 71,2 39,5 36,1 32,7 30,3%ufc 91,6 89,4 72,2 67,8 73,9 72,5

ConfirmacionTexto Rec. 1 Rec. 2

esp. gen. esp. gen. esp. gen.%ssc 80,8 77,7 61,2 58,8 61,2 58,8%usc 89,7 88,7 71 70,8 74,9 75,9%fc 91,4 87,1 67,1 64,3 73,3 69,8%ufc 95,1 94,2 75,2 73,9 81,9 82,3

Nueva consultaTexto Rec. 1 Rec. 2

esp. gen. esp. gen. esp. gen.%cssu 68,3 68,8 40,5 39,6 43,9 44,2%csu 86,6 87,4 70,7 70,5 73 73,7%fc 76,9 78,3 50,7 50,6 55,3 56,2%ufc 83,5 84,8 64,9 65,7 70,8 72,1

PreguntaTexto Rec. 1 Rec. 2

esp. gen. esp. gen. esp. gen.%ssc 73,3 77,1 51,4 52,4 54,3 53,3%usc 82,6 87,1 67,5 70,2 67,2 69,3%fc 77,1 88,6 59,1 60,9 62,9 61,9%ufc 87,1 92,8 70,1 72,2 77,6 78,8

Tabla 8.1: Resultados de los experimentos sobre modelos especıficos y generales para lasetiquetas Apertura, Confirmacion, Nueva consulta y Pregunta.

tener en cuenta que el conjunto de muestras de aprendizaje es muy pequeno para los mo-delos especıficos. Es de esperar que con una futura ampliacion del corpus, se obtenga unamejora de resultados para estas clases y para otras clases que no han sido consideradas enestos experimentos. Ademas el uso de tecnicas de interpolacion puede servir para sacarmayor partido de ambos tipos de modelos (especıficos y general).


Capıtulo 9

Conclusiones y Trabajos Futuros

En este trabajo se ha desarrollado un sistema capaz de abordar de forma automaticaa partir de muestras la tarea de comprension de un sistema de dialogo hablado para unentorno semantico restringido. El sistema representa distintos niveles de conocimientodel lenguaje considerados como modelos de estados finitos que se aprenden de formaautomatica a partir de corpora anotados con informacion semantica.

Para ello se han empleado metodos estocasticos, aprendizaje automatico a partir dedatos y tecnicas de inferencia gramatical. Estos modelos emplean la tecnica de 2 nivelespara representar la informacion de las secuencias de unidades semanticas establecidas en elcorpus, ası como la informacion de las secuencias de palabras asociadas a cada una de estaunidades semanticas, permitiendo una segmentacion y etiquetado secuencial de la frasecompleta de entrada. Un sistema de reglas convierte este lenguaje semantico intermedioen un frame semantico, que es la representacion semantica elegida para esta tarea.

Se han inferido modelos de bigramas suavizados con tecnica estandar como es el “Backoff” para ambos niveles, empleando el SLM toolkit. Tambien se han inferido modelosempleando el algoritmo ECGI y el algoritmo (r,k)-TTSSI empleando la tecnica de ree-tiquetado de muestras para suavizar estos modelos. Estos modelos han sido evaluados ycontrastados experimentalmente sobre el corpus de BASURDE, tanto la version trans-crita manualmente como la version correspondiente a la salida de dos reconocedores devoz de las universidades del Paıs Vasco y de Zaragoza. Se ha constatado que los modelosde bigramas, aun siendo mas pequenos en tamano y teniendo en cuenta que solo mode-lan el contexto de la palabra anterior, dan buenos resultados, e incluso mejores que lasaproximaciones gramaticales.

Tambien se han inferido modelos de bigramas a dos niveles para la tarea de consulta dehorarios y precios de trenes ARISE obteniendo resultados similares al modelo estocasticode un nivel implementado por el LIMSI con modelos ergodicos de Markov. Ademas seha estudiado la manera de enriquecer automaticamente la anotacion del corpus ARISEanadiendo en la segmentacion de la frase las palabras adjacentes a los conceptos encon-trados. Para ello se crea un algoritmo que automaticamente selecciona las palabras. Losresultados obtenidos anadiendo el contexto muestran que es interesante ampliar la ano-tacion de los conceptos, aunque posteriormente un programa debe extraer las palabrasanadidas a la hora de emplear el programa de normalizacion de los valores del ARISE que

137

138 Capıtulo 9. Conclusiones y Trabajos Futuros

convierte los conceptos encontrados en un frame con valores normalizados.

Por ultimo se ha estudiado la posibilidad de crear un controlador de dialogo dirigidopor la semantica, donde un modelo de secuencias de actos de dialogo dirige el dialogo y escapaz de predecir cual es el siguiente estado de dialogo del sistema o del usuario. Graciasa esta prediccion se pueden emplear modelos especıficos de comprension en funcion delestado del dialogo en que se encuentre el sistema.

Los trabajos futuros que se derivan de este trabajo y que actualmente se estan inves-tigando se centran en varias direcciones:

- el uso de otras aproximaciones gramaticales, como por ejemplo el MGGI, metodo-logıa de inferencia gramatical basada en el reetiquetado de muestras, para crearmodelos de uno y dos niveles para la primera fase del modelo de comprension con elfin de mejorar las prestaciones del modulo de comprension, los experimentos preli-minares muestran que es difıcil mejorar las prestaciones del modulo de comprensionpartiendo de un corpus tan reducido,

- se intenta suministrar al controlador del dialogo el mayor numero de informacionesposibles para que pueda tomar decisiones, tal es el caso de las medidas de confianza,tanto de la fase de reconocimiento de la voz como las obtenidas de las probabili-dades de transicion de los modelos estocasticos de la primera fase del modelo decomprension. Ello permitira al controlador de dialogo conocer aquellas partes de lafrase de entrada que tiene un bajo nivel de confianza en el reconocedor o en la fasede comprension, pudiendo ası iniciar un dialogo clarificador con el fin de confirmarestas informaciones,

- dentro de un nuevo proyecto CICYT denominado DIHANA, que es la continuacionde BASURDE, se va a llevar a cabo una adquisicion de nuevos dialogos con lo quese ampliara el corpus disponible sobre la tarea; ello nos permitira la creacion deunos nuevos modelos mejor estimados, tanto en los modelos generales a dos niveles,como en los modelos especıficos de dialogo, que esperamos contribuyan a mejorarlas prestaciones del sistema de comprension.

Apendice A

Lexico de la tarea

Este documento contiene el lexico generado para la tarea del proyecto, que contiene1.799 formas (Arranz et al., 2000). Previo a su desarrollo, se ha llevado a cabo un es-tudio detallado del vocabulario utilizado en los dos corpora tambien desarrollados parael proyecto: el persona-persona (Bonafonte y Mayol, 1999) y el persona-maquina creadomediante la tecnica del Mago de Oz (Sesma et al., 1999). El lexico se ha generado con lasentradas seleccionadas de estos corpora junto con todas aquellas que se ha consideradomorfologica o semanticamente pertinente anadir. Los criterios de seleccion y ampliacionse han establecido en funcion del tipo de entrada lexica de la siguiente manera:

Lista de categorıas abiertas, excluyendo verbos: estas han sido organizadas en rela-cion a la funcion semantica del vocabulario, tal y como se muestra a continuacion:

- Nombres propios (de ciudades y estaciones): esta lista contiene todos los nom-bres propios relevantes para la tarea que se han extraıdo de los corpora y dela pagina web de Renfe (i.e., largo recorrido).

- Fechas e intervalos de fecha.

- Horas e intervalos de hora (tambien compartido con “tiempo de recorrido”).

- Tipo de dıa.

- Tipo de tren: este listado tambien ha sido ampliado con nombres de trenesextraıdos de la web de Renfe.

- Tipo de viaje.

- Clase de billete.

- Numero relativo de orden (diferente de los numerales cardinales que formanparte de la lista de “categorıas cerradas”).

- Precio.

- Tiempo de recorrido.

- Servicios.

- Otras entradas de la tarea: vocabulario relacionado con la tarea, pero que nose cine a ninguna de las clases anteriores.

139

140 Apendice A. Lexico de la tarea

- Generales: vocabulario de caracter general que se acepta para permitir al usua-rio una cierta flexibilidad de expresion durante los dialogos.

- Locuciones: expresiones unidas como unidades locutivas dado su caracter semanti-co de conjunto. Asimismo, el tratar estos elementos como bloques unicos facilitasu tarea de reconocimiento y tratamiento.

Lista de categorıas cerradas: contiene el siguiente conjunto de clases:

- Cardinales.

- Ordinales.

- Preposiciones y contracciones.

- Conjunciones.

- Pronombres interrogativos.

- Pronombres indefinidos.

- Pronombres personales.

- Pronombres demostrativos.

- Adverbios.

- Determinantes.

Lista de verbos: la seleccion de los verbos para la tarea tambien se ha llevado a caboen funcion de aquellos utilizados por los usuarios en los corpora de que disponemosy anadiendose algunos semanticamente relacionados (la Seccion A.3 muestra los 121verbos seleccionados en sus formas infinitivas). Sin embargo, dado que la generacionautomatica de todas las formas para estos 121 verbos nos proporcionaba una lista dealgo mas de 6.500 formas, se ha efectuado un filtrado de esta en base a los siguientescriterios:

1. De estas 6.500 formas se han seleccionado todas aquellas que corresponden atiempos o modos verbales pertinentes a la tarea, resultando una lista de 1.459formas. Los tiempos y modos verbales tratados se presentan en la Seccion A.4.

2. De estas 1.459 formas se ha efectuado una segunda fase de criba, donde se hanseleccionado manualmente las formas correspondientes a las personas y numeropertinentes para cada verbo, quedandonos ası con 854 formas diferentes quehan pasado a formar parte del lexico (Seccion A.5).

3. A estas 854 formas, se han de anadir las correspondientes a formas verbalescompuestas por clıticos (pronombres de complemento directo e indirecto), tantolas 44 extraıdas de los corpora (Seccion A.6) como las 46 que se han generadopara cubrir posibles necesidades por parte del usuario (Seccion A.7).

A continuacion se muestran los listados del vocabulario restringido que se ha generadopara el proyecto. Estos listados estan clasificados tal y como se ha explicado. En algunoscasos puede darse que una misma entrada ocurra bajo dos categorıas diferentes (ej.:consulta como sustantivo y verbo), pero estas repeticiones ya han sido eliminadas delfichero con el lexico completo.

A.1. Listado de Categorıas Abiertas (excluyendo verbos) 141

A.1. Listado de Categorıas Abiertas (excluyendo verbos)

Nombres propios (ciudades

y estaciones)

AbandoA CorunaAlacantAlacant TerminalAlbaceteAlcazar de San JuanAlgecirasAlicanteAlicante TerminoAlmerıaArc de TriomfAtochaAusterlitzAvilaBadajozBaezaBarcelonaBarcelona Arc de TriomfBarcelona Clot AragoBarcelona Estacio de FrancaBarcelona Passeig de GraciaBarcelona Placa CatalunyaBarcelona Sant Andreu ArenalBarcelona Sant Andreu ComtalBarcelona SantsBarcelona TerminoBernBernaBilbaoBilbao AbandoBilboBobadillaBurgosCaceresCadizCampo GrandeCartagenaCastelloCastello de la PlanaCastellonCastellon de la PlanaChamartınCiudad RealClot AragoCordobaCordoba CentralCorunaCuencaDonostia

Elda Preter

El Ferrol

El PortilloEstacio de FrancaFerrolFiguerasFigueresFrancaFribourgFriburgoGasteizGeneveGeronaGijonGijon JovellanosGinebraGironaGranadaGuadalajaraHuelvaHuelva TerminoHuescaIrunIrunaJaenJerez de la FronteraJovellanosLa CorunaLeonLeridaLinaresLinares BaezaLisboaLisboa Santa ApoloniaLleidaLogronoLorcaLorca SutullenaLugoMadridMadrid AtochaMadrid ChamartınMadrid MinisteriosMadrid NorteMadrid Principe PioMadrid Puerta de AtochaMadrid RecoletosMalagaMedina del CampoMeridaMilanoMinisterios

Miranda de Ebro

Monforte de Lemos

MontpellierMurciaMurcia del CarmenNavalmoral de la MataO PortoO Porto CampanhaOrenseOurenseOviedoPalenciaPamplonaParısParıs AusterlitzPasseig de GraciaPlaca CatalunyaPlaza CatalunaPonferradaPontevedraPortbouPortoPorto CampanhaPrincipe PioPuerta de AtochaPuerto de Santa MarıaPuertollanoRecoletosReusSahagunSalamancaSan SebastianSanta JustaSantanderSant Andreu ArenalSant Andreu ComtalSantiagoSantiago de CompostelaSantsSegoviaSevillaSevilla Santa JustaSoriaTarragonaTerminoTeruelToledoTorinoTudela de NavarraValenciaValladolidValladolid Campo Grande


VigoVillenaVitoriaZamoraZaragozaZaragoza El PortilloZurich

Fechas e intervalos

de fecha

abrilagostoanteayeranoanosano nuevoayerdiciembredomingodomingosdıadıasenerofebrerofechafechasfinfinesfin de semanafines de semanahoyinviernojuevesjuliojuniolunesmartesmarzomayomesmesesmiercolesnavidadnavidadesnochebuena

nochevieja

noviembreoctubreotonoprimaveraquincenareyessemana

semanasseptiembresabadosabadosveranoviernes

Horas e intervalos de hora(+tiempo de recorrido)

cuartohorahorasminutominutosmananamananasmadrugadamediamediodıamomentomomentosnochenochestardetardes

Tipo de dıa

festivofestivoslaborablelaborables

Tipo de tren

alarisalta velocidadantonio machadoarcoarcosaveavescatalunya exprescomodocomodos

costa brava

covadongadeltadirectodirectosdiurnodiurnoselectrotren

electrotrenesestrellaeuromedeuromedsexpresoexpresosexpresextremadurafinisterre

galiciaintercitiesintercitymiguel de unamunonocturnonocturnospablo picassopıo barojaregionalregional deltaregionalestalgotalgostren hoteltrenes hoteltriana

Tipo de viaje

idavuelta

Clase de billete

asientobutacacamacamasgran claseliteraliteraspreferentesentadosentadaturista

Numero relativo de orden (dife-

rente de numerales ordinales)

antepenultimaantepenultimasantepenultimoantepenultimosanterioranteriores

A.1. Listado de Categorıas Abiertas (excluyendo verbos) 143

penultimapenultimaspenultimopenultimosposteriorposterioressiguientesiguientesultimaultimasultimoultimos

Precio

baratabaratasbaratobaratosbilletebilletescaracarascarocaroscostedescuentodescuentoseconomicoeconomicosimportepreciopreciospesetastarifatarifas

Tiempo de recorrido

duracionlargorapidorapidosrecorridotiempoServiciosambientalautoexpresobarbar movilcafeterıa

Otras entradasde la tarea

almuerzoalmuerzoscabinacenacenasciudadciudadescomidacomidascompartimentocompartimentosconsultaconsultasdestinodireccionestacionfavorhorariohorariosinformacionllegadallegadasmaletamaletasmeriendameriendasnumeroorigenparadaparadaspreguntaproximaproximasproximoproximosregresosalidasalidastaquillataquillastipotipostransbordotransbordostrayectotrayectostrentrenesviajeviajesvıa

Generales

acuerdoadiosadultoadultosaeropuertoajaamablebuenasbuenobuenoscambiocaminocarnetcarnet de estudiantecarnet jovencasociertoclaroconcretocorrectocosadepartamentodiferenciadiferentediferentesdistintadistintasdistintodistintosdobleestudianteestudiantesestupendoexactaexactofallasfrecuenciagraciasgrupoholaigualinteresadaintermediaintermediasintermediointermediositinerariojubiladojubiladoslentolentoslocalidad

localidadesmaneramayormayoresmejornecesarionecesariosninoninosnombrenormalopcionopcionespasajeropasajerospascuapensionistaperdonperfectopersonapersonaspicoplazaplazasposibilidadposibilidadesposibleposiblesproblemaproblemaspuntoramosreducidaregularidadrelativarespuestaretornoreservarocıosanferminessantosegurosenorsenoritasolosuficientesuplementotarjeta doradavacacionesvalevayaverdadvez


Locuciones

acerca deademas dea eso dea mediodıaa partir dea la inversa

al cabo dealrededor deal revesantes deası comocerca deida y vueltade acuerdo

de manera quedentro dedentro delen direccion aen medio deen particularen principioen realidad

en torno aen vez dees decircon tal demas o menoso seapara quepor ejemplo

por favorpor supuestorespecto asiempre quetal vez

A.2. Listado de Categorıas Cerradas

Cardinales

cerounodostrescuatrocincoseissieteochonuevediezoncedocetrececatorcequincedieciseisdiecisietedieciochodiecinueveveinteveintiunoveintiunveintidosveintitresveinticuatroveinticincoveintiseisveintisieteveintiochoveintinuevetreintacuarentacincuentasesentasetentaochentanoventa

ciencientodoscientasdoscientostrescientastrescientoscuatrocientascuatrocientosquinientasquinientosseiscientasseiscientossetecientassetecientosochocientasochocientosnovecientasnovecientosmilOrdinalesprimeraprimerasprimerosprimeroprimersegundasegundassegundosegundostercerasterceratercerostercertercerocuartocuartacuartoscuartasquintaquinto

quintasquintos

Conjunciones

aunquecomocuandodondeenioperoporquepuesquesisinouy

Preposiciones ycontracciones

abajoconcontradedesdeduranteenentrehaciahastaparaporsegunsinsobre

trasaldel

Pronombresinterrogativos

comocualcualescuandocuantacuantascuantocuantosdondeque

Pronombresindefinidos

algoalguienalgunaalgunasalgunoalgunosnadanadieningunaningunoningunasningunos

Pronombrespersonales

yoelello

ellanosotrosnosotrasellosellasmeteselelonoslesusted

Pronombresdemostrativos

esteestaestosestaseseesaesosesasaquelaquellaaquellosaquellasestoesoaquello

Adverbios

acasoadelanteademasadondeadonde

A.3. Listado de Verbos para la Tarea (formas infinitivas) 145

ahıahoraallaallıanocheantesaparteaprisaaquıasıaunbiencasicercadelantedentrodespuesdetrasentoncesexceptofuerainclusiveinclusolejosluegomalmasmediomenosmientrasmuyno

nuncaprontoquizaquizassalvosiempresısolotambientampocotantempranotodavıayaconcretamenteefectivamenteexactamenteexcesivamentepreferiblementeproximamenterelativamenteseguramentesimplementesolamenteunicamenteaproximadamentedirectamente

Determinantes

algunambas

ambosaquelaquellaaquellasaquellosbastantebastantescadacualesquieracualquiercualquieracuyacuyascuyocuyosdemasiadademasiadasdemasiadodemasiadosdemaselesaesaseseesosestaestasesteestoslalaslos

mimıamıasmıomıosmismismamismasmismomismosmuchamuchasmuchısimasmuchomuchosningunnuestranuestrasnuestronuestrosotraotrasotrootrospocapocaspocopocossendassendossusus

suyasuyassuyosuyostaltalestantatantastantotantostodatodastodotodostutustuyatuyastuyotuyosununaunasunosvariasvariosvuestravuestrasvuestrovuestros

A.3. Listado de Verbos para la Tarea (formas infinitivas)

acabaracompanaradmitiradquiriragradecerahorraralmorzaraprovecharapuntaratenderaveriguarbuscarcalcularcambiarcenar

circularcogercomentarcomercompartircomprarconcretarconfirmarconocerconseguirconsultarconvencerconvenircostarcreer

dardeberdecidirdecirdependerdesayunardeseardisculpardisponerdormirdurarefectuarelegirenlazarentender

equivocarescucharesperarestarevitarexistirfacilitarfacturarfaltarfuncionargastargustarhaberhablarhacer

imaginarincluirindicarinformarintentarinteresarirllamarllegarllevarmarcharmerendarmetermirarmolestar


necesitarobteneroirpagarpararparecerpartirpasarpedirpensar

perderperdonarpermitirpoderpreferirpreguntarpreocuparquedarquererrealizar

recogerrecordarreducirreferirregresarrepetirreservarresidirsabersacar

salirseguirsentarsentirsersuponertardartenertomartrabajar

valervenirverviajarvivirvolver

A.4. Listado de Modos y Tiempos Verbales Seleccionados

acabar Inf, Pres-Ind, PPacompanar Inf, PP (+fem)admitir Inf, Pres-Indadquirir Inf, Pres-Ind, Condagradecer Inf, PP (+fem)ahorrar Infalmorzar Infaprovechar Infapuntar Inf, Pres-Ind, PPatender Inf, Pres-Indaveriguar Infbuscar Infcalcular Inf, Pres-Indcambiar (+clit) Inf, Pres-Ind, Pres-Sub, Impcenar Infcircular Inf, Pres-Ind, Pres-Subcoger (+clit) Inf, Pres-Ind, Pas-Imp, Fut-Imp, Cond, Imp-Sub, PP, Ger,

Impcomentar Inf(+clit:selo), Pres-Ind, PPcomer Infcompartir Inf, Ger, PPcomprar (+clit) Inf, Pres-Ind, Condconcretar Inf, Gerconfirmar (+clit) Inf, Pres-Sub, Imp-Subconocer Infconseguir Inf, Pres-Indconsultar (+clit) Inf, Pres-Indconvencer (+clit) Inf, Pres-Indconvenir (+clit) Inf, Imp-Ind, Condcostar (+clit) Inf, Pres-Ind, Fut-Imp, Condcreer Inf, Pres-Inddar (+clit) Inf, Pres-Ind, Imp-Ind, Pas-Ind, Fut-Imp, Pres-Sub, Imp-

Sub, Imp(+clit:melos), PPdeber Inf, Pres-Ind, Conddecidir Inf, Pres-Ind, Fut-Imp, Imp-Subdecir (+clit) Inf(+clit:melo), Pres-Ind, Imp-Ind, Pas-Imp, Fut-Imp,

Pres-Sub, Imp-Sub, Fut-Sub, Imp(+clit), PP, Gerdepender Inf, Pres-Ind

A.4. Listado de Modos y Tiempos Verbales Seleccionados 147

desayunar Infdesear Inf, Pres-Ind, Conddisculpar Inf, Impdisponer Inf, Pres-Inddormir Inf, PP (+fem)durar Inf, Pres-Indefectuar Inf, Pres-Indelegir Inf, Pres-Ind, Imp-Subenlazar Infentender (+clit) Inf, Pres-Ind, PPequivocar Inf, PPescuchar Inf, Pres-Ind, Impesperar Inf, Impestar Inf, Pres-Ind, Imp-Ind, Cond, Pres-Subevitar Inf, Gerexistir Inf, Pres-Indfacilitar Inffacturar Inffaltar Inf, Pres-Indfuncionar Inf, Pres-Indgastar Inf, Fut-Imp, Condgustar Inf, Condhaber Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, Imp-Sub,

PP, Auxhablar Inf, Pres-Ind, Ger, Imphacer (+clit) Inf, Pres-Ind, Pas-Ind, Fut-Imp, Cond, Pres-Sub, Imp(tb.

+clit), PP, Ger(tb. +clit)imaginar Inf, Pres-Indincluir Inf, PP, Gerindicar Infinformar (+clit) Inf, Imp-Subintentar Infinteresar (+clit) Inf, Pres-Ind, Imp-Ind, Cond, PPir (+clit) Inf, Pres-Ind, Imp-Ind, Pas-Ind, Fut-Imp, Cond, Pres-Sub,

Imp-Sub, PPllamar Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, PP, Gerllegar Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, PPllevar Inf, Pres-Ind, Imp-Ind, Pres-Sub, Imp-Submarchar Inf, Pres-Submerendar Infmeter Infmirar Inf, Imp, PPmolestar Inf, Pres-Sub (solo: moleste/molesten)necesitar Inf, Pres-Ind, Imp-Ind, Fut-Imp, Condobtener Infoir (+clit) Inf, Pres-Ind, Imp (oye/oiga/oigame)pagar (+clit) Inf, Condparar Inf, Pres-Ind, Pres-Sub, Cond, Imp-Subparecer Inf, Pres-Ind, PPpartir Inf, Pres-Ind, Pres-Subpasar Inf, Pres-Ind, Fut-Imp, Pres-Sub, PP, Gerpedir Inf, Pres-Ind, Imp-Ind, PP, Gerpensar Inf, Pres-Ind, Fut-Imp


perder Inf, Pres-Ind, Fut-Impperdonar (+clit) Inf, Imppermitir Inf, Pres-Ind, Pres-Sub, PPpoder Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, Imp-Sub,

PPpreferir Inf, Pres-Ind, Condpreguntar (+clit) Inf, PPpreocupar Inf, Pres-Ind, Cond, Pres-Subquedar (+clit) Infquerer Inf, Pres-Ind, Imp-Ind, Cond, Imp-Subrealizar (+clit) Inf, Pres-Indrecoger (+clit) Infrecordar Inf, Pres-Indreducir Inf, PPreferir Inf, Pres-Ind, Imp-Indregresar Inf, Pres-Ind, Gerrepetir (+clit) Inf, Pres-Ind, Impreservar (+clit) Inf, Impresidir Inf, Pres-Indsaber (+clit) Inf, Pres-Ind, Condsacar Inf, Pres-Indsalir Inf, Pres-Ind, Imp-Ind, Cond, Pres-Sub, Imp-Sub, Gerseguir Infsentar Inf, PPsentir Inf, Pres-Indser Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, Imp-Sub,

Ger, PPsuponer Inf, Pres-Indtardar Inf, Pres-Ind, Condtener Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, Imp-Subtomar Inf, Pres-Ind, Imp-Subtrabajar Inf, Pres-Indvaler Inf, Pres-Ind, Fut-Imp, Condvenir Inf, Pres-Ind, Pres-Subver Inf, Pres-Ind, Fut-Imp, PPviajar Inf, Pres-Indvivir Inf, Pres-Indvolver Inf, Pres-Ind, Fut-Imp, Cond, Pres-Sub, Ger

donde:

Inf: InfinitivoPres-Ind: Presente de IndicativoImp-Ind: Preterito Imperfecto de IndicativoPas-Ind: Preterito Indefinido de IndicativoFut-Imp: Futuro Imperfecto de IndicativoCond: CondicionalPres-Sub: Presente de SubjuntivoImp-Sub: Preterito Imperfecto de SubjuntivoFut-Sub: Futuro Imperfecto de SubjuntivoImp: ImperativoPP: ParticipioPP (+fem) Participio en forma femenina

A.5. Listado de Formas Verbales del Lexico 149

Ger: GerundioAux: Auxiliar (para las formas de haber como auxiliar)+clit: Forma con clıtico(s)

A.5. Listado de Formas Verbales del Lexico

acabaracompanaradmitiradquiriragradecerahorraralmorzaraprovecharapuntaratenderaveriguarbuscarcalcularcambiarcenarcircularcogercomentarcomercompartircomprarconcretarconfirmarconocerconseguirconsultarconvencerconvenircostarcreerdardeberdecidirdecirdependerdesayunardeseardisculpardisponerdormirdurarefectuarelegir

enlazarentenderequivocarescucharesperarestarevitarexistirfacilitarfacturarfaltarfuncionargastargustarhaberhablarhacerimaginarincluirindicarinformarintentarinteresarirllamarllegarllevarmarcharmerendarmetermirarmolestarnecesitarobteneroirpagarpararparecerpartirpasarpedirpensarperder

perdonarpermitirpoderpreferirpreguntarpreocuparquedarquererrealizarrecogerrecordarreducirreferirregresarrepetirreservarresidirsabersacarsalirseguirsentarsentirsersuponertardartenertomartrabajarvalervenirverviajarvivirvolveracabaacabadoacabamosacabanacabasacaboacompanadaacompanado

admiteadmitenadmitısadquieroadquirimosadquirirıaadquirirıamosagradecidaagradecidoapuntaapuntadoapuntamosapuntoatendemosatendeisatiendeatiendenatiendesatiendocalculacalculamoscalculancalculascalculocambiacambiadcambiamoscambiancambiascambiecambiencambiescambiocambiaiscirculacirculancirculecirculencogecogemoscogencogeremoscogere

cogerıacogerıamoscogidocogiendocogieracogierancogiesecogiesencogimoscogieramoscogiesemoscogiocogıcojacojamoscojocomentacomentadocomentamoscomentancomentocompartidacompartidocompartiendocompracompramoscomprancomprarıacomprarıamoscomproconcretandoconfirmaraconfirmaraisconfirmaranconfirmarasconfirmaseconfirmaseisconfirmasenconfirmasesconfirmeconfirmemosconfirmenconfirmaramos


confirmasemosconseguimosconsigoconsigueconsiguenconsultaconsultamosconsultanconsultoconvenceconvencemosconvendrıaconvenıaconvenıancostaracostarancostarıa20costarıancuestacuestancreecreemoscreescreodadabadabandaddadodaisdandaremosdaradarandasdendesdieradierandierondiesediesendiodedebedeberıadeberıandebodecidedecidendecidieradecidiesedecidimos

decidiremosdecidiradecidiredecidieramosdecidiesemosdecidodeciddecimosdecıadecıasdidicedicesdichodiciendodigadigamosdigandigasdigodijeradijerasdijeresdijerondijesedijesesdijistedijodijeramosdijesemosdirandiredependedependemosdependodeseamosdesearıadesearıamosdeseodisculpadisculpedisponedisponemosdisponendisponesdispongodisponeisdormidadormidoduraduranefectuamosefectuoelegimos

eligieraeligieseeligieramoseligiesemoselijamoselijoentendemosentendidoentiendeentiendoequivocadaequivocadoescuchaescucheescuchoesperaespereestabaestamosestarıaestarıamosestemosestoyestaestabamosestanesteevitandoexisteexistenfaltafaltanfuncionafuncionangastaremosgastaregastarıagastarıamosgustarıahehashahemoshabeishanhabıahabıashabıamoshabıaishabıanhabrehabrashabrahabremos

habreishabranhabrıahabrıamoshabrıaishabrıanhubierahubiesehubierashubieseshubieramoshubiesemoshubieraishubieseishubieranhubiesenhayahayashayamoshayaishayanhabidohablahablabahabladohablandohablehablemoshablohacehacedhacemoshacenhaciendohagahagamoshaganhagashagoharemosharaharanharashareharıaharıamosharıanharıashazhechahechohicehicieronhicimos

hizoibaibanidoiremosirairanireirıairıamosirıanvavamosvanvayavayamosvayanvoyıbamosfuifuefuimosfueronfuerafueranfuesefuesenfueramosfuesemosimaginoincluidaincluidoincluyendoinformarainformaraninformarasinformaseinformaseninformasesinteresainteresabainteresabaninteresadainteresadointeresaninteresarıainteresarıanllamaballamadallamadollamandollamaremosllamarellamarıa

A.5. Listado de Formas Verbales del Lexico 151

llamarıamosllamollamabamosllegallegaballegabanllegadallegadollegamoslleganllegaremosllegarallegaranllegarellegarıallegarıamosllegarıanllegolleguelleguemoslleguenllegabamosllevallevaballevamosllevanllevarallevaranllevasellevasenllevellevemosllevenllevollevaramosllevasemosmarchemarchemosmarchenmiramiradomiremolestemolestennecesitanecesitabanecesitabannecesitamosnecesitannecesitaremosnecesitaranecesitarannecesitarıanecesitarıamos

necesitarıannecesitonecesitabamosoigooyeoigapagarıapagarıamospagarıanparaparamosparanpararapararanpararıapararıamospararıanparaseparasenpareparemosparenparopararamosparasemospareceparecidopartapartamospartanpartepartenpartimospartopasapasadopasamospasanpasandopasaremospasarapasarepasepasemospasopedidopedimospedıapedıamospidiendopidopensamospensaremospensare

piensoperdemosperderemosperderepierdoperdonaperdonepermitapermitanpermitepermitenpermitidopermitaispermitıspodemospodidopodremospodrapodranpodraspodrepodreispodrıapodrıaispodrıamospodrıanpodrıaspodeispodıapodıamospodıanpodıaspudierapudieraispudieranpudieraspudiesepudieseispudiesenpudiesespudieramospudiesemospuedapuedepuedenpuedespuedopreferimospreferirıapreferirıamosprefieropreguntadopreocupapreocupan

preocuparıapreocuparıanpreocupepreocupespreocupoqueremosquerrıaquerrıamosquerıaquerıamosquierequierenquieroquisieraquisieranquisiesequisiesenquisieramosquisiesemosrealizarealizamosrealizanrealizorecordamosrecuerdarecuerdanrecuerdoreducidareducidoreferimosreferıareferıamosreferıanrefiererefierenrefieroregresaregresamosregresanregresandoregresorepitarepiterepitesreservareserveresidimosresidosabesabemossabensabessabrıasabrıamos

sabrıassesacasacamossacansacassacosaldrıasaldrıamossaldrıansalesalensalgasalgamossalgansalgosaliendosalierasalieransaliesesaliesensalimossalieramossaliesemossalıasalıansentadasentadassentadosentadossentimossientoseaseamosseanseremosseraseransereserıaserıamosserıanserıasseaissidosiendosomossonsoyeraeraneseramossupone


suponemossupongotardatardamostardantardarıatardarıamostardarıantardotendremostendratendrantendretendrıatendrıamostendrıastenemostengatengoteneis

tenıatenıaistenıamostenıantenıastienetienentienestuvieratuvieraistuvierantuvierastuviesetuvieseistuviesentuviesestuvieramostuviesemostomatomamos

tomantomaratomarantomasetomasentomotomaramostomasemostrabajatrabajamostrabajantrabajovaldravaldranvaldrıavaldrıanvalevalenvalidovenga

vengamosvenganvengasvengovenimosvienevienenvemosveoveremosveraveranverasverevistoviajaviajamosviajanviajoviajare

viajaremosvivevivenvivimosvivovolvamosvolvemosvolveremosvolveravolveranvolverevolverıavolverıamosvolverıanvolviendovuelvavuelvanvuelvevuelvenvuelvo

A.6. Formas Verbales con Clıticos Extraıdas de los Corpora

cambiarlocogerlocomentarlecomprarloconfirmarloconfirmarmedarmedecirledecirlodecirmedecırmelo

demedimedamelosdıgameentenderlehacerlahacerlashacerlehacerlohacermehacerte

haciendolohagameinformarleinformarmeinformarseinteresarmeirmemarcharmeoigamepagarlasperdoname

preguntarlepreguntartequedarmerealizarlorecogerlasrecogermerepetirmereservarloreservarmereservemesaberlo

A.7. Formas Verbales con Clıticos Anadidas

cambialocambielocambiamelocambiemelocambiarloscambiarmelocambiarmeloscogemecogerloscojamecomprarlosconfirmarlos

confirmarmeloconfirmarmelosconfirmarnosconsultarlecostarmecostarnosdamedanosdarnosdamelodarmelodarmelos

demelodemelosdenosdisculpemedisculpenosescuchameescuchemehazmeirnosirsemarcharnosoirle

pagarlopagarlospagarlaperdonemequedarnosrepetırmelorepıtamelorepıtemerepıtamereservarlos

Apendice B

Reduccion del Lexico de Basurde

A continuacion se muestra en contenido de los dos ficheros de diccionario que se hanempleado en los experimentos de comprension del proyecto BASURDE.

B.1. Fichero de lemas y sinonimos

En la siguiente lista se muestra la conversion a lemas realizada en la tarea BASURDE,donde se ha transformado las formas verbales a infinitivos y ademas palabras con el mismosignificado y poca cantidad de muestras se han tranformado en una unica forma (la palabramas frecuente) para poder ser mejor modelizadas.

acaba:acabaracabado:acabaracuerdo:recordaradmite:admitiramigos:amigoapunto:apuntarbaratos:baratobilletes:billetebutacas:butacacaros:carocapitales:capitalciudades:ciudadcogiendo:cogercogı:cogercomentado:comentarcompartida:compartircomunicaciones:comunicacionconcretamente:concretoconcretas:concretoconfortables:confortablecostarıa:costarcreo:creercubran:cubrircuesta:costarcuales:cual

dado:dardan:dardarme:dardecimos:decirdecirle:decirdecirme:decirdeis:dardeja:dejardescuentos:descuentodesearıa:deseardeseo:deseardicho:decirdiferentes:diferentediga:decirdigas:decirdijera:decirdijerais:decirdijeras:decirdirectos:directodisculpe:disculpardispone:disponerdispongo:disponerdistinta:distintodura:durardıgame:decir

efectivamente:efectivoelijo:elegirellas:ellaellos:elen torno a:alrededor deentendido:entenderequivocado:equivocarera:seres:serestaba:estarestamos:estarestarıa:estaresta:estarexactamente:exactoexcesivamente:excesivoexiste:existirfuese:serfuera:serfui:irfunciona:funcionargustarıa:gustarha:haberhablando:hablarhabrıa:haberhabıa:haber

153

154 Apendice B. Reduccion del Lexico de Basurde

hace:hacerhacen:hacerhacerlo:hacerhaga:hacerhas:haberhay:haberhaya:haberhe:haberhecho:hacerhice:hacerhubiera:haberibais:irimporta:importarincluyendo:incluirinformaras:informarinformarme:informarinformases:informarinteresa:interesarinteresada:interesarinteresado:interesarinteresarme:interesarinteresarıa:interesarinteresarıan:interesarirme:irirıa:irliteras:literallamaba:llamarllega:llegarllegaba:llegarllegado:llegarllegan:llegarllegare:llegarllegue:llegarlleguen:llegarlleva:llevarlleve:llevarlocalidades:localidadlos:elmira:mirarmire:mirarmuchısimas:muchasmıos:mıonecesitaba:necesitarnecesitarıa:necesitarnecesito:necesitarningun:ningunoninguna:ningunoopciones:opcionotras:otraotros:otroparadas:paradaparamos:pararparecido:parecerpasajeros:pasajero

pasamos:pasarpasan:pasarpasando:pasarpase:pasarpedıa:pedirperdone:perdonarpermita:permitirpermite:permitirpersonas:personaplazas:plazapodra:poderpodrıa:poderpodrıamos:poderpodrıas:poderpodıa:poderposee:poseerposibilidades:posibilidadposibiliten:posibilitarposibles:posibleprecios:preciopreferiblemente:preferirpreferirıa:preferirprefiero:preferirprontamente:prontopudiera:poderpueda:poderpuedan:poderpuede:poderpueden:poderpuedes:poderpuedo:poderquedado:quedarquedarme:quedarquerrıa:quererquerıa:quererquieren:quererquiero:quererquisiera:quererrealiza:realizarrealizan:realizarrealizarlo:realizarrecordado:recordarrecuerdo:recordarregionales:regionalregresa:regresarregreso:regresarrelativa:relativorelativamente:relativorepetirme:repetirrepita:repetirresido:residirreserveme:reservarsabe:sabersaldrıa:salir

sale:salirsalen:salirsalga:salirsalgan:salirsalgo:salirsaliendo:salirsaliera:salirsalı:salirsalıa:salirsalio:salirse:sabersea:sersean:serseguramente:segurosentados:sentadoseparado:separarsera:serserıa:sersido:sersiendo:sersimplemente:simplesolamente:solosomos:serson:sersupongo:suponersus:sutalgos:talgotarda:tardartarifas:tarifatendre:tenertendrıa:tenertenemos:tenertengo:tenerteniendo:tenerteneis:tenertenıa:tenertiene:tenertienen:tenertienes:tenertoma:tomarunicamente:unicova:irvalencianos:valencianovamos:irvan:irvayan:irvendran:venirvera:verviajare:viajarviajes:viajeviene:venirvienen:venirvivo:vivirvolvere:volver

B.2. Fichero de Categorıas 155

volviendo:volvervoy:irvuelva:volvervuelvan:volvervuelve:volvervuelvo:volversabados:sabadodomingos:domingonoches:nochearcos:arcoaves:ave

deltas:deltaelectrotrenes:electrotrenestrellas:estrellaeuromeds:euromedexpreso:expresexpresos:expresintercitys:intercityfestivos:festivolaborables:laborablecoches cama:coche camacamas:cama

coches:cochecomodos:comododurmiendo:dormirmotoexpresos:motoexpresoperiodicos:periodicorevistas:revistadebe:deberdeberıan:debertendra:tener

B.2. Fichero de Categorıas

En este fichero se han agrupado, por razones de cobertura, aquellas palabras quepertenecen a una determinada categorıa semantica, sustituyendo sus ocurrencias por unasecuencia de caracteres que no pertenezca al vocabulario de la tarea.

dıa semanalunes:diasem martes:diasem miercoles:diasemjueves:diasem viernes:diasem sabado:diasemdomingo:diasem

nombre de mesenero:nom mes febrero:nom mes marzo:nom mesabril:nom mes mayo:nom mes junio:nom mesjulio:nom mes agosto:nom mes septiembre:nom mesoctubre:nom mes noviembre:nom mes diciembre:nom mes

numeros ordinalescero:numero u una:numero u uno:numero udos:numero u tres:numero u cuatro:numero ucinco:numero u seis:numero u siete:numero uocho:numero u nueve:numero u diez:numero uonce:numero u doce:numero u trece:numero ucatorce:numero u quince:numero u dieciseis:numero udiecisiete:numero u dieciocho:numero u diecinueve:numero uveinte:numero u veintiuna:numero u veintiuno:numero uveintidos:numero u veintitres:numero u veinticuatro:numero uveinticinco:numero u veintiseis:numero u veintisiete:numero uveintiocho:numero u veintinueve:numero u treinta:decenascuarenta:decenas cincuenta:decenas sesenta:decenassetenta:decenas ochenta:decenas noventa:decenasciento:centenas cien:centenas doscientas:centenastrescientas:centenas cuatrocientas:centenas quinientas:centenasseiscientas:centenas setecientas:centenas ochocientas:centenasnovecientas:centenas novecientos:centenas mil:miles


fiestassemana santa:nom fiestasfallas:nom fiestasnavidad:nom fiestasnochebuena:nom fiestasanonuevo:nom fiestaspurısima:nom fiestasconstitucion:nom fiestas

las 4 estacionesprimavera:est anyoverano:est anyootono:est anyoinvierno:est anyo

ciudadesa coruna:nom ciudad la coruna:nom ciudadcoruna:nom ciudad albacete:nom ciudadalicante:nom ciudad almerıa:nom ciudadarcos de jalon:nom ciudad asturias:nom ciudadbadajoz:nom ciudad barcelona:nom ciudadbenicarlo:nom ciudad benicassim:nom ciudadbilbao:nom ciudad las borges blanques:nom ciudadles borges blanques:nom ciudad borges blanques:nom ciudadburgos:nom ciudad calatayud:nom ciudadcambrils:nom ciudad cartagena:nom ciudadcastello de la plana:nom ciudad castellon:nom ciudadcercedilla:nom ciudad ciudad real:nom ciudadcoruna:nom ciudad cuenca:nom ciudadcaceres:nom ciudad cadiz:nom ciudadcordoba:nom ciudad espana:nom ciudadflasa:nom ciudad gerona:nom ciudadgijon:nom ciudad girona:nom ciudadgranada:nom ciudad guadalajara:nom ciudadhuesca:nom ciudad irun:nom ciudadjaca:nom ciudad la coruna:nom ciudadla tour de querol:nom ciudad las borges blanques:nom ciudadleon:nom ciudad llanes:nom ciudadlleida:nom ciudad logrono:nom ciudadloja:nom ciudad lora del rıo:nom ciudadlorca:nom ciudad lugo:nom ciudadlerida:nom ciudad madrid:nom ciudadmiranda de ebro:nom ciudad mojacar:nom ciudadmonzon:nom ciudad monzon rıo cinca:nom ciudadmurcia:nom ciudad malaga:nom ciudadnuria:nom ciudad orense:nom ciudadoviedo:nom ciudad palencia:nom ciudadpamplona:nom ciudad parıs:nom ciudadpobla de segur:nom ciudad pontevedra:nom ciudadreus:nom ciudad ribes:nom ciudadribes de freser:nom ciudad sabadell:nom ciudad

B.2. Fichero de Categorıas 157

salamanca:nom ciudad salou:nom ciudadsan sebastian:nom ciudad san vicente de calders:nom ciudadsantander:nom ciudad santiago:nom ciudadsantiago de compostela:nom ciudad sevilla:nom ciudadsitges:nom ciudad soria:nom ciudadtarragona:nom ciudad teruel:nom ciudadtoledo:nom ciudad valencia:nom ciudadvalladolid:nom ciudad valls:nom ciudadvigo:nom ciudad vilanova y la geltru:nom ciudadvinaroz:nom ciudad vitoria:nom ciudadzamora:nom ciudad zaragoza:nom ciudadalora:nom ciudad

nombre de estacionbarcelona sants:nom estacion benicarlo penıscola:nom estacionbilbao abando:nom estacion ciudad real central:nom estacioncordoba central:nom estacion madrid atocha:nom estacionmadrid chamartın:nom estacion murcia del carmen:nom estacionmalaga termino:nom estacion plaza cataluna:nom estacionport aventura:nom estacion sants:nom estacionsevilla santa justa:nom estacion zaragoza el portillo:nom estacion


Apendice C

Normas de etiquetado de losdialogos del proyecto Basurde

C.1. Introduccion

El objetivo del presente apartado es mostrar el etiquetado adoptado para etiquetarlos dialogos del proyecto BASURDE. Un dialogo se compone de un conjunto de turnosde interaccion entre el usuario y la maquina o Mago de Oz (WOZ) que la simula. Cadaturno de dialogo se compone asimismo de varios segmentos, cada uno de los cuales tieneuna finalidad especıfica. El objetivo del etiquetado es dar un identificador o etiquetapara cada uno de estos segmentos que represente esa finalidad y todos los atributos deldominio implicados en el segmento. La finalidad vendra expresada por un primer nivel deetiquetado; el deposito de atributos (frame que esta en proceso de cumplimentacion) porun segundo nivel; los atributos aportados (cases) por un tercer nivel.

Este etiquetado se puede usar para diversas tareas: generacion de dialogos, determi-nacion de la estrategia del dialogo por metodos inductivos, estudio de nuevos paradigmasde dialogo, etc.

C.2. Primer nivel

El primer nivel es reducido y simple y denota la mision principal del segmento dedialogo. Las subdividiremos en dos conjuntos, Metadialogo e Informativas:

- Metadialogo: todas aquellas cuyo contenido semantica es nulo o tan escaso que notienen una finalidad informativa completa. Se subdividen en:

- Apertura: segmentos que indican los saludos del comienzo del dialogo; en elcaso de segmentos semejantes en medio del dialogo, que se dan generalmentepor parte del WOZ o la maquina, seran segmentos de Nueva-consulta. En todoslos casos, segundo y tercer nivel a Nil. Cierre: segmentos que indican las frasesde fin del dialogo; se restringe a que sean turnos completos y siempre consegundo y tercer nivel a Nil.

159

160 Apendice C. Normas de etiquetado de los dialogos del proyecto Basurde

- Indefinida: segmento con palabras de relleno o funciones faticas; nunca inte-rrumpiran segmentos con otro etiquetado de primer nivel (es decir, las palabrasde relleno y vacilaciones que haya en medio de otro segmento con otra inten-cionalidad, se quedan incluidas dentro del etiquetado de ese segmento, y nose etiquetan como Indefinida); preferentemente, debera etiquetar turnos com-pletos, aunque se puede usar en segmentos parciales cuando se vea inviablecualquier otro tipo de etiquetado. Segundo y tercer nivel siempre a Nil.

- No-entendido: segmento que indica una falta de comprension del turno pre-vio o una solicitud de repeticion de los datos aportados en ese turno previo.Generalmente, se referira solo el turno previo, aunque quizas podrıa extendersea turnos mas anteriores. Siempre tiene segundo y tercer nivel a Nil.

- Espera: segmento que indica la peticion de tiempo extra para poder responder;generalmente corresponde al sistema o WOZ mientras hace la consulta a la basede datos. Segundo y tercer nivel a Nil.

- Nueva-consulta: segmento muy habitual en el WOZ tras dar una informa-cion; suele asociarse a preguntas del tipo ”¿Desea algo mas?.o ”¿Desea masinformacion?”. Segundo y tercer nivel a Nil.

- Afirmacion: segmento que denota la afirmacion de un dato previo (general-mente, sigue a una etiqueta Confirmacion dada por el WOZ); se particularizaen segundo y tercer nivel de esta manera:

◦ Si no se especifica mas que la afirmacion, se etiqueta el segundo nivel conla frame que se esta confirmando, y el tercer nivel queda a Nil.

◦ Si ademas de la afirmacion se repite el dato dado por el WOZ, el segundonivel se etiqueta con la frame que se confirma y el tercero se etiqueta conel case que se da.

◦ El unico sı que se incorpora al segmento posterior (si es que existe estesegmento) es aquel que va tras una Nueva-consulta del WOZ. Si no haysegmento posterior, queda etiquetado con segundo y tercer nivel a Nil. Laafirmacion que se suele dar tras un Nueva-consulta siempre se incorporaal segmento posterior.

- Negacion: segmento que niega la validez de un dato previo, generalmente dadopor el WOZ en una etiqueta Confimacion; posteriormente, vendra una etiquetaRespuesta para dar el dato valido, pero esta negacion se separara siempre deesta respuesta. El segundo nivel incluira la frame sobre la,que se esta negandosi se conoce con seguridad (en otro caso, se deja a Nil). El tercer nivel quedaa Nil.

- Informativas: todas aquellas que poseen contenido semantica. Se subdividen en:

- Pregunta: todas aquellas interrogaciones (o equivalentes) que preguntan poralgo no dado previamente; como heurıstica para el sistema/WOZ, entre el tercernivel no debe estar incluıda ninguna etiqueta que este en segundo nivel, puesen este caso suele ser Confirmacion. Para el usuario este heurıstica no suele servalido debido a que pregunta por datos mas exactos (p.ej.: cuando preguntapor una hora de salida pero dando un intervalo de hora de salida como ”por latarde”), o por la validacion de una hipotesis.

C.3. Segundo nivel 161

- Confirmacion: todas las interrogaciones (o equivalentes) que buscan confir-mar un dato previo o ya obtenido por el sistema (incluye datos por defecto);el heurıstica a seguir es que en tercer nivel se dice algo que tambien se incluyeen el segundo nivel. Para el caso de usuario, es cuando confirma un dato dadoexplıcitamente por el sistema/WOZ en turnos previos.

- Respuesta: cualquier respuesta a una pregunta previa que no sea Afirmaciono Negacion; preferentemente, cubrira turnos completos (sobre todo en el casodel WOZ). Una respuesta clasica del WOZ suele incluir el numero de trenes quecumplen las condiciones; estas respuestas se incluyen en el frame Hora-salida.

C.3. Segundo nivel

Este segundo nivel indica la frame que, se esta buscando rellenar para dar la respuesta.La lista de frames definidas en el modulo de comprension son:

Nil

Hora-salida

Hora-salida-v (para el viaje de vuelta)

Hora-llegada

Hora-llegada-v (para el viaje de vuelta)

Precio

Origen

Destino

Tiempo-recorrido

Para-en

Dia-salida

Dia-llegada

Tipo-tren

Tipo-viaje

Servicio

Por defecto, se supone que las preguntas del usuario estan enfocadas a obtener unahora de salida (frame Hora-salida). Es posible que esta lista quede ampliada en un futuroa medida que se encuentren situaciones no abordables.


C.4. Tercer nivel

El tercer nivel indica los datos que se aportan dentro de¡ segmento; por tanto, indicalos cases que se estan rellenando o se han rellenado en el frame en curso. Los cases, luegoetiquetas de tercer nivel, son:

Nil

Origen

Estacion-origen

Destino

Estacion-destino

Dia

Hora-salida

Hora llegada

Precio (incluyendo terminos como barato, caro, economico, . . . )

Parada-en

Tipo-tren (Talgo, lntercity, Expreso, . . . )

Tipo-viaje (ida, ida y vuelta, vuelta)

Tipo-dia (laborable, festivo . . . )

Numero-relativo-orden (primero, segundo, tercero, ultimo, . . . )

Tiempo-recorrido (incluyendo terminos como rapido, lento, . . . )

Numero-trenes

Servicio (primera clase, segunda clase, camas, literas, bar, autoexpreso, . . . )

Esta lista tambien es susceptible de ampliacion a medida que se encuentren situacionesno encontradas en los dialogos tratados hasta ahora.

A continuacion se muestra un ejemplo de uno de los dialogos anotado con el etiquetadoa tres niveles. Los turnos de usuario aparecen con una “U” mayuscula delante y los delmago con una “M”. La primera lınea que empieza con un “#” especifica la fecha deetiquetado, las iniciales del etiquetador y la version del etiquetador empleado.

#Thu Mar 16 20:57:51 2000—PAA——Version 5M0: bienvenido al sistema automatico de informacion de trenes regionales y de largo recorrido. ¿ que desea ?bienvenido al sistema automatico de informacion de trenes regionales y de largo recorrido .¿ que desea ?(M:Apertura:Nil:Nil) pal:1-18

C.4. Tercer nivel 163

U0: querrıa saber horarios de trenes de Zaragoza a Ciudad Real para el proximo viernes porla tarde o sabado por la manana .querrıa saber horarios de trenes de Zaragoza a Ciudad Real para el proximo viernes por latarde o sabado por la manana .(U:Pregunta:Hora salida:Destino,Dia,Hora salida,Origen) pal:1-25

M1: lo siento , pero creo que no le he entendido bien . de Zaragoza a Ciudad Real . el viernesveintinueve de octubre . ¿ que mas ha dicho , por favor ?lo siento , pero creo que no le he entendido bien .(M:No entendido:Nil:Nil) pal:1-12de Zaragoza a Ciudad Real . el viernes veintinueve de octubre .(M:Confirmacion:Destino,Dia salida,Origen:Destino,Dia,Origen) pal:13-23¿ que mas ha dicho , por favor ?(M:No entendido:Nil:Nil) pal:24-32

U1: sabado treinta de octubre .sabado treinta de octubre .(U:Respuesta:Dia salida:Dia) pal:1-6

M2: le consulto horarios de Zaragoza a Ciudad Real , el sabado treinta de octubre . unmomento , por favor .le consulto horarios de Zaragoza a Ciudad Real , el sabado treinta de octubre .(M:Confirmacion:Hora salida:Destino,Dia,Origen) pal:1-14un momento , por favor .(M:Espera:Nil:Nil) pal:15-20

U2:

M3: ese dıa hay seis trenes . el primero sale a las ocho horas de la manana , y el ultimo alas diecisiete horas y treinta minutos . ¿ algo mas ?ese dıa hay seis trenes . el primero sale a las ocho horas de la manana , y el ultimo a lasdiecisiete horas y treinta minutos .(M:Respuesta:Hora salida:Dia,Hora salida,Numero relativo orden,Numero trenes) pal:1-28¿ algo mas ?(M:Nueva consulta:Nil:Nil) pal:29-32

U3: hora de llegada del tren de las ocho de la manana .hora de llegada del tren de las ocho de la manana .(U:Pregunta:Hora llegada:Hora salida) pal:1-13

M4: ese tren sale a las ocho horas de la manana , y llega a las trece horas y treinta y cuatrominutos . ¿ desea algo mas ?ese tren sale a las ocho horas de la manana , y llega a las trece horas y treinta y cuatrominutos .(M:Respuesta:Hora llegada:Hora llegada,Hora salida) pal:1-23¿ desea algo mas ?(M:Nueva consulta:Nil:Nil) pal:24-28

U4: sı . el siguiente tren , ¿ a que hora llega ?sı . el siguiente tren , ¿ a que hora llega ?(U:Pregunta:Hora llegada:Numero relativo orden) pal:1-13

M5: un momento por favor .un momento por favor .(M:Espera:Nil:Nil) pal:1-5

U5:


M6: el siguiente sale a las diez horas de la manana , y llega a las dieciseis horas y diecinueveminutos . ¿ desea algo mas ?el siguiente sale a las diez horas de la manana , y llega a las dieciseis horas y diecinueveminutos .(M:Respuesta:Hora llegada:Hora llegada,Hora salida) pal:1-21¿ desea algo mas ?(M:Nueva consulta:Nil:Nil) pal:22-26

U6: nada mas gracias .nada mas gracias .(U:Cierre:Nil:Nil) pal:1-5

M7: gracias por utilizar este servicio .gracias por utilizar este servicio .(M:Cierre:Nil:Nil) pal:1-6

Apendice D

Descripcion de los escenarios de latarea

Para cada tipo de escenario se han definido 10 objetivos concretos (que se numerandel 0 al 9) y para cada uno de estos se han establecido 5 variantes (numeradas del 1 al5). De este modo se obtiene un total de 150 escenarios distintos. A cada escenario se leasigna un codigo en funcion del tipo, el objetivo y la variante, segun el siguiente patron:

X.n.m

donde:

X indica el tipo de escenario: A, B o C (vease el apartado 3).

n indica el objetivo del escenario (del 0 al 9).

m indica la variante (del 1 al 5).

El codigo de los escenarios tipo D es:

D.i

donde i es el numero de orden (o codigo) asignado al informante.

Es importante mencionar aquı que las variantes 1 y 5 se han destinado a los informantesde Zaragoza y las variantes 2, 3 y 4 a los informantes de Barcelona. Esta circunstancia hasido tenido en cuenta a la hora de formular los escenarios. A continuacion se muestran lavariante 1 y 5 (en esta ultima se debe escoger alguno de los valores) de los 10 objetivospracticados para los tipos A, B y C.

165

166 Apendice D. Descripcion de los escenarios de la tarea

D.1. Escenarios tipo A

Objetivo 0

Codigo: A.0.1

Objetivo: Horarios de los trenes hacia destino el proximo viernes por la tarde o sabado por lamanana.

Situacion: Unos parientes suyos celebran las bodas de plata en Ciudad Real el proximo sabadopor la noche. Prefiere viajar en tren el sabado por la manana. Si ası no llega a tiempo, tendra quesalir el viernes por la tarde.

Codigo: A.0.5

Objetivo: Horarios de los trenes hacia destino el proximo viernes por la tarde o sabado por lamanana.

Situacion: El proximo fin de semana le apetece visitar a unos amigos que viven a unos 300 Kms dedistancia. Escoja la estacion de tren mas proxima a donde ellos viven y su dıa de salida (vierneso sabado) e informese.

Objetivo 1

Codigo: A.1.1

Objetivo: Horario de trenes a destino.

Situacion: Unos amigos suyos que viven en Lleida acaban de tener un hijo y le gustarıa hacer unaescapada en tren para visitarles y conocer al recien nacido.

Codigo: A.1.5

Objetivo: Horario de trenes a destino.

Situacion: En estos ultimos anos, son muchas las ciudades del paıs que estan renovandose ymejorando su aspecto. Usted y unos amigos han decido aprovechar este verano para ir a visitaruna de estas ciudades. Escoja una ciudad, capital de provincia, e informese para organizar suviaje.

Objetivo 2

Codigo: A.2.1

Objetivo: Horario de los trenes a destino el fin de semana.

Situacion: Usted tiene unos amigos en Alicante que constantemente le invitan a pasar un fin desemana en su casa de la playa y por fin ha aceptado. Le han comentado que el medio de transportemas confortable es el tren.

D.1. Escenarios tipo A 167

Codigo: A.2.5

Objetivo: Horario de los trenes a destino el fin de semana.

Situacion: Con la llegada de la primavera, son muchas las ciudades del paıs que organizan festivalesal aire libre. Usted esta muy interesado en asistir a una de estas ciudades un fin de semana. Escojaun fin de semana concreto y una ciudad (capital de provincia o de similar importancia).

Objetivo 3

Codigo: A.3.1

Objetivo: Horario de los trenes a destino en una fecha determinada.

Situacion: Usted quiere ir a los San Fermines el dıa 7 de julio. Quiere estar en Pamplona el dıaanterior para poder asistir al primer encierro.

Codigo: A.3.5

Objetivo: Horario de los trenes a destino en una fecha determinada.

Situacion: Usted puede coger 4 dıas de fiesta y ha decidido aprovecharlos para hacer una cortaescapada al Paıs Vasco. Escoja una capital de provincia vasca y unas fechas.

Objetivo 4

Codigo: A.4.1

Objetivo: Horario y tipo de los trenes a destino en una fecha determinada por la manana.

Situacion: Su jefe acaba de llamar proponiendole que asista a una reunion de trabajo en la quese discutiran temas relacionados con un proyecto en el que usted esta trabajando en su empresa.La reunion tendra lugar en Monzon el dıa 15 de junio por la manana. Debera partir el mismodıa 15 por la manana porque la noche anterior tiene una cena familiar. Desea elegir el tren masconfortable posible.

Codigo: A.4.5

Objetivo: Horario y tipo de los trenes a destino en una fecha determinada por la manana.

Situacion: El 15 de junio de cada ano se encuentra con unos amigos que viven en diferentes ciudadesque conocio en un viaje a Marruecos. Cada ano realizan una comida en una ciudad (capital deprovincia o de importancia similar y de marcado interes cultural) diferente. Este ano usted decidela ciudad. Escoja una ciudad e informese de como podra usted llegar en tren hasta ella. Tenga encuenta el tipo de tren.

Objetivo 5

Codigo: A.5.1

Objetivo: Horarios de un tipo concreto de tren entre origen y destino.


Situacion: Su empresa esta colaborando en un proyecto en Cordoba con una empresa de Madrid.Ha surgido un problema de ultima hora y su jefe le ha insinuado que lo mas conveniente serıa que,en companıa de alguien de la empresa de Madrid, se desplazara hasta Cordoba. Sabe que es unabuena oportunidad para quedar bien con el jefe, pero como tiene mucho trabajo intentara perder elmenor tiempo posible en el viaje. Se acercara en coche a Madrid, pero el trayecto Madrid-Cordobalo piensa hacer en el Ave.

Codigo: A.5.5

Objetivo: Horarios de un tipo concreto de tren entre origen y destino. 15

Situacion: Tiene una semana de vacaciones y quisiera visitar dos ciudades de las muchas queno conoce. Para aprovechar la semana, quiere que esten a una distancia relativamente corta entren. Escoja esas dos ciudades(capitales de provincia o de importancia similar), e informese de laconexion entre ellas en tren. Desea evitar los trenes de cercanıas cuando haga el viaje.

Objetivo 6

Codigo: A.6.1

Objetivo: Horario de los trenes de origen a destino el proximo dıa concreto de la semana.

Situacion: Usted reside en San Sebastian y tiene unos amigos que van a ir a Bilbao a visitar elmuseo Guggenhein el proximo fin de semana. Usted estuvo en el museo recientemente, pero estosdıas hay una exposicion temporal de su escultor favorito. El problema es que sus amigos salen elviernes y usted el viernes trabaja hasta tarde. Debera salir el sabado.

Codigo: A.6.5

Objetivo: Horario de los trenes de origen a destino el proximo dıa concreto de la semana.

Situacion: La proxima semana empiezan sus vacaciones. Debera acercarse en coche hasta la ciudadA donde viven los amigos con los cuales piensa ir de viaje en tren hasta la ciudad costera B. Escojaque dıa de la semana proxima quiere viajar, elija las ciudades A y B (capitales de provincia o deimportancia similar) e informese.

Objetivo 7

Codigo: A.7.1

Objetivo: Horarios de un tipo concreto de tren entre origen y destino en una fecha determinada.

Situacion: Quiere asistir a un festival de musica medieval que se celebra durante los dıas 1, 2 y 3de julio en la ciudad de Cuenca. Usted reside en Guadalajara y desea tomar un rapido el propio1 de julio.

Codigo: A.7.5

Objetivo: Horarios de un tipo concreto de tren entre origen y destino en una fecha determinada.

Situacion: Esta preparando sus vacaciones y ha pensado que este ano le toca conocer Andalucıa.Escoja una ciudad de la costa para establecer su residencia y elija una ciudad interior para visitar

D.2. Escenarios tipo B 169

un dıa concreto de sus vacaciones en un tren que sea rapido. Ambas ciudades han de ser capitalde provincia o de importancia similar.

Objetivo 8

Codigo: A.8.1

Objetivo: Horarios de un tipo concreto de tren a destino.

Situacion: Usted hace muchos anos que intenta asistir a la Fiesta de Abril de Sevilla pero diversosmotivos se lo impiden. Este ano ha decidido visitar Sevilla aunque no sea en abril, pero al menosquiere viajar en el Ave.

Codigo: A.8.5

Objetivo: Horarios de un tipo concreto de tren a destino.

Situacion: Escoja un tipo de tren (Intercity, Talgo, Euromed, Rapido) y una ciudad de la costamediterranea para pasar un fin de semana.

Objetivo 9

Codigo: A.9.1

Objetivo: Horario de trenes de origen a destino.

Situacion: Usted reside en Valladolid y quiere ir este verano a Bilbao a visitar el museo Guggenhein.

Codigo: A.9.5

Objetivo: Horario de trenes de origen a destino.

Situacion: Usted tiene 4 dıas de fiesta y desea aprovecharlos para ver a dos amigos del colegioque viven en dos ciudades diferentes, aunque no muy alejadas. Escoja las fechas y las ciudades(capitales de provincia o de importancia similar) e informese.

D.2. Escenarios tipo B

Objetivo 0

Codigo: B.0.1

Objetivo: Horarios y precio desde origen a destino en una fecha determinada.

Situacion: Usted reside en Guadalajara y durante sus vacaciones del ano pasado en Lanjaronentablo amistad con una familia de Caceres. Ha decidido ir a visitarles estas vacaciones y pasarunos dıas en esa ciudad que desconoce. Prefiere llevarse a toda su familia en tren. Su idea esdesplazarse a primeros de agosto. Para precisar el dıa se informara de la oferta de trenes. El preciodel viaje le sera util para empezar a presupuestar sus vacaciones.


Codigo: B.0.5

Objetivo: Horarios y precio desde origen a destino en una fecha determinada.

Situacion: Desea pasar una semana de vacaciones en una capital de provincia gallega. El viaje deida lo hace en coche con unos amigos, pero la vuelta la ha de hacer por su cuenta. Elija la ciudadque le gustarıa visitar y el dıa que preferirıa volver.

Objetivo 1

Codigo: B.1.1

Objetivo: Precio de un tipo concreto de tren para un horario determinado.

Situacion: Usted es un gran aficionado a la musica clasica y ha conseguido entradas para unaopera en el Liceo de Barcelona el Sabado 26 de junio. La opera empieza a las 22.30 y quiere ir aBarcelona en un tren rapido.

Codigo: B.1.5

Objetivo: Precio de un tipo concreto de tren para un horario determinado.

Situacion: Imagınese que es un medico y que debe acudir a la presentacion de un producto de unacompanıa farmaceutica. La sede de la companıa esta en CIUDAD DESTINO y la presentaciones el DIA, a la HORA. Escoja la CIUDAD DESTINO entre capitales de provincia o ciudades deimportancia similar, y el DIA y la HORA de la presentacion. Elija el tipo de tren en el que legustarıa realizar el viaje. Compruebe que el precio no sea excesivamente caro.

Objetivo 2

Codigo: B.2.1

Objetivo: El horario y el precio de un tipo concreto de tren.

Situacion: Suponga que en un par de meses realizara una estancia de 9 meses en Madrid pormotivos de trabajo. Ha planeado acudir previamente a Madrid para hablar sobre las condicionesde trabajo y ha concertado su visita el proximo lunes a las 12:30 de la manana. Ha decidido viajaren el Talgo, si no es excesivamente caro, y ası comprobar por usted mismo si es tan buen trencomo dicen.

Codigo: B.2.5

Objetivo: El horario y el precio de un tipo concreto de tren.

Situacion: Acaban de comunicarle que su hermana, que vive en una capital de provincia del sur deEspana, ha tenido un hijo. Desea ir a verla manana mismo, pero, como no sabe conducir, ira entren. Quiere ir en un tren rapido pero barato.


Objetivo 3

Codigo: B.3.1

Objetivo: Horario y precio de trenes de una ciudad origen a una ciudad destino en una determinadafecha.

Situacion: Usted reside en Soria y unos buenos amigos suyos, que estan viviendo en Benicassim, lehan ofrecido la posibilidad de pasar con ellos unos dıas durante las proximas vacaciones de verano.Sus vacaciones empiezan el dıa 31 de julio y le apetece salir cuanto antes, siempre y cuando elviaje no sea excesivamente caro. Como sus amigos le recogeran en la estacion, no deberıa llegar aBenicassim ni muy pronto ni muy tarde.

Codigo: B.3.5

Objetivo: Horario y precio de trenes de una ciudad origen a una ciudad destino en una determinadafecha.

Situacion: Por razones de trabajo su pareja y usted se encuentran durante una temporada enciudades muy alejadas, una del sur y otra del norte de Espana. Elija la ciudad en la que usted seencuentra destinado entre capitales de provincia o ciudades de importancia similar. Resulta que elproximo martes es el aniversario de cuando se conocieron y deciden encontrarse en Madrid parafestejarlo. Le interesa estar en Madrid lo antes posible, pero no muy temprano, siempre que no lecueste excesivamente caro.

Objetivo 4

Codigo: B.4.1

Objetivo: Precio de trenes a una ciudad dada en una determinada fecha.

Situacion: Este verano se va de vacaciones a la India. El vuelo sale desde Barcelona a las 12 dela manana del dıa 3 de agosto. Usted quiere estar en el aeropuerto unas 2 horas antes de las 12 ypreferirıa no tener que hacer noche en Barcelona, aunque tenga que madrugar.

Codigo: B.4.5

Objetivo: Precio de trenes a una ciudad dada en una determinada fecha.

Situacion: Escoja una capital de provincia del Paıs Vasco donde supondremos que tiene una ofertade trabajo. Decida un dıa para ir a visitar la empresa e informese de la disponibilidad de trenesdesde Zaragoza a la ciudad vasca y del precio del billete.

Objetivo 5

Codigo: B.5.1

Objetivo: Horarios y precio de un tipo concreto de tren desde una ciudad origen a una ciudaddestino para un dıa determinado (viaje de ida y vuelta).

Situacion: Usted vive en Sevilla y viaja con frecuencia a Madrid por motivos laborales. Sabe quehay un nuevo tren (ha visto anuncios en la tele, pero no recuerda el nombre) que es bastante


rapido y comodo. De hecho quiere conocer la forma mas rapida de realizar este tipo de viaje y verlas posibilidades de ir y volver en el mismo dıa (siempre dıas laborables).

Codigo: B.5.5

Objetivo: Horarios y precio de un tipo concreto de tren desde una ciudad origen a una ciudaddestino para un dıa determinado (viaje de ida y vuelta).

Situacion: Usted vive en CIUDAD ORIGEN y tiene una reunion que le exige estar en CIU-DAD DESTINO (elija la ciudad destino a una distancia no superior a 200 km de su ciudad deresidencia) el DIA (elija dıa). La reunion comenzara a primera HORA de la tarde (elija la hora)y no durara mucho (maximo 2 horas). Desea regresar en el dıa.

Objetivo 6

Codigo: B.6.1

Objetivo: Horarios, precios y tipo de tren a destino el proximo fin de semana.

Situacion: Usted tiene una boda el proximo sabado en La Coruna a las 12 del mediodıa y ellunes a las ocho debe estar de vuelta en el trabajo. No quiere viajar el mismo sabado y por tantoquiere tomar algun tren el viernes por la tarde, teniendo en cuenta que sale del trabajo a las tres.Desconoce que trenes hay ni de que tipo son. Ademas, el precio del viaje es un dato necesario paratomar la decision.

Codigo: B.6.5

Objetivo: Horarios, precios y tipo de tren a destino el proximo fin de semana.

Situacion: Escoja una ciudad con estacion de tren y a una distancia razonable teniendo en cuentaque quiere pasar en ella el proximo fin de semana con su pareja. Informese de la disponibilidad detrenes para organizar su viaje de forma que aproveche al maximo el fin de semana. Como no legusta viajar de cualquier manera, tambien quiere conocer los tipos de tren y por cuanto le sale elviaje.

Objetivo 7

Codigo: B.7.1

Objetivo: Horarios y precios a destino desde origen en un intervalo de tiempo dado. 22

Situacion: Usted se encuentra por razones de trabajo en Madrid y tiene por fin unos dıas paravisitar Cuenca, la famosa ciudad encantada”. En las proximas semanas dispondra de un fin desemana largo (jueves a domingo) y quiere aprovecharlos al maximo, sin importarle madrugar. Nosabe si los horarios de tren le permitiran realizar esa visita y desconoce el coste del viaje.

Codigo: B.7.5

Objetivo: Horarios y precios a destino desde origen en un intervalo de tiempo dado.


Situacion: Suponga que reside en una ciudad de la costa catalana. Escoja otra ciudad de la costamediterranea andaluza donde desearıa llevar a su familia la primera semana del proximo mes, puesha conseguido unos dıas de permiso. Quiere olvidarse del coche y por tanto viajaran en tren.

Objetivo 8

Codigo: B.8.1

Objetivo: Confirmar el horario y averiguar el tipo de tren y el precio entre origen y destino un dıadeterminado de la semana.

Situacion: Usted reside en Vigo y tendra que viajar con frecuencia a Madrid por motivos laborales.Son visitas de un dıa y prefiere llegar descansado en el tren a pegarse el madrugon para coger elprimer avion. Le interesa confirmar si hay algun tren nocturno (salida sobre las 10 de la noche)los domingos e informarse del tipo de tren (lleva camas o literas) y el precio del billete.

Codigo: B.8.5

Objetivo: Confirmar el horario y averiguar el tipo de tren y el precio entre origen y destino un dıadeterminado de la semana.

Situacion: Escoja dos ciudades que usted sepa que tengan conexion nocturna en tren. Decida cualde ellas es la ciudad origen y suponga una cierta hora de salida del tren nocturno. Intente confirmarque efectivamente hay algun tren nocturno a esa hora o similar para esta noche y averigue quetipo de tren hace ese trayecto y cuanto cuesta el billete.

Objetivo 9

Codigo: B.9.1

Objetivo: Horarios, precio y tipo de tren de origen a destino.

Situacion: Usted se presenta a unas oposiciones que convoca el ayuntamiento de Ciudad Real. Laidea es ir a Madrid en avion y desde allı en tren. Las oposiciones empiezan el martes 6 de julioa las 18.00 horas y pueden acabar el miercoles al mediodıa o el jueves al mediodıa (depende decuantos candidatos se presenten finalmente). Quiere saber los horarios y tipos de los diferentestrenes, con el precio del billete en primera, siempre teniendo en cuenta que hay que combinar conel avion en Madrid.

Codigo: B.9.5

Objetivo: Horarios, precio y tipo de tren de origen a destino.

Situacion: Usted es representante de una fabrica de calzado y se ha desplazado en coche por motivoslaborales a una ciudad de Castilla - La Mancha (a elegir). Tenıa previsto seguir viaje profesionalhacia otra ciudad de Castilla - Leon (a elegir). Su coche ha sufrido una averıa y debera permaneceren un taller de la primera ciudad dos dıas. Por tanto, su plan es ahora ir en tren desde la ciudadde Castilla - La Mancha a la ciudad de Castilla - Leon. Necesita conocer los horarios y tipos detrenes disponibles para reorganizar toda su ruta y el precio del billete para su planificacion degastos.


D.3. Escenarios tipo C

Objetivo 0

Codigo: C.0.1

Objetivo: Precios y horarios de ida y vuelta para una ciudad concreta en unas fechas determinadas.

Situacion: Tiene una reunion de negocios en Palencia el proximo miercoles a las 11 de la manana.Es muy posible que la reunion se alargue hasta bien entrada la tarde. Como no le gustarıa tenerque pernoctar en Palencia, quiere saber si podrıa viajar en litera o coche-cama.

Codigo: C.0.5

Objetivo: Precios y horarios de ida y vuelta para una ciudad concreta en unas fechas determinadas.

Situacion: Trabaja en la sucursal de una importante empresa cuya sede central esta situada enuna ciudad diferente (escoja una entre capitales de provincia) a la de su residencia. El proximojueves tiene una importante reunion en la sede central, reunion que previsiblemente durara todoel dıa. Preferirıa viajar comodamente en coche cama.

Objetivo 1

Codigo: C.1.1

Objetivo: Precios y horarios de ida y vuelta entre dos ciudades dadas, para unas fechas determi-nadas y en un tipo concreto de tren.

Situacion: Un amigo suyo que vive en Castellon ha tenido un accidente y usted, que se encuentracasualmente en Barcelona, quiere ir a visitarlo. Puede coger un tren el viernes por la tarde y volverel domingo por la noche. Le gustarıa hacer un viaje comodo y rapido, por eso intentara coger elEuromed o algun otro tren rapido (como el Talgo).

Codigo: C.1.5

Objetivo: Precios y horarios de ida y vuelta entre dos ciudades dadas, para unas fechas determi-nadas y en un tipo concreto de tren.

Situacion: Usted va a hacer un viaje de dos semanas a una ciudad A (capital de provincia) y deseavisitar un museo que se encuentra en otra capital de provincia B durante el fin de semana. Conantelacion al viaje a la ciudad A, usted llama al servicio de informacion para averiguar los horariosde trenes entre las ciudades A y B que circulan el sabado. Desea viajar en un tren rapido.

Objetivo 2

Codigo: C.2.1

Objetivo: Precios y horarios de ida y vuelta para ir a una ciudad dada a pasar un fin de semana.

Situacion: Tiene que visitar a un amigo enfermo en Santander el fin de semana. Le gustarıa salir elviernes por la tarde despues del trabajo y poder regresar el domingo por la noche. No le importa

D.3. Escenarios tipo C 175

viajar de noche, pero no quiere ni coche-cama ni litera. En la vuelta, el tren tiene que llegar antesde las 12 de la noche del domingo, ya que el lunes temprano tiene una importante reunion en eltrabajo a la que le gustarıa acudir descansado.

Codigo: C.2.5

Objetivo: Precios y horarios de ida y vuelta para ir a una ciudad dada a pasar un fin de semana.

Situacion: Piense en una actividad que practica con unos amigos que viven en una ciudad (escojauna entre capitales de provincia o de importancia similar) distinta de su ciudad de residencia. Haquedado que el fin de semana visitara a sus amigos para practicar esa actividad en comun. Deseaviajar en un tren rapido pero que no sea muy caro.

Objetivo 3

Codigo: C.3.1

Objetivo: Horarios y precios de los trenes (ida y vuelta) entre dos ciudades concretas para un dıadeterminado.

Situacion: Unos amigos americanos, que se encontraran en Madrid el proximo jueves en transitopara pasar las vacaciones en Grecia, han decidido hacer una escapada para verle y de paso visitara la Pilarica. Le han pedido que les organice el viaje sabiendo que llegaran a Madrid a las 8 de lamanana y salen para Atenas a las 9 de la noche. Sus amigos son muy mirados con el dinero.

Codigo: C.3.5

Objetivo: Horarios y precios de los trenes (ida y vuelta) entre dos ciudades concretas para un dıadeterminado.

Situacion: Escoja una ciudad origen (en la que le gustarıa estar de vacaciones) y una ciudad destinotales que, por su proximidad o por que existan trenes rapidos entre ellas, sea posible organizar unviaje de ida y vuelta el mismo dıa para realizar una actividad de 4 o 5 horas en la ciudad destino.Escoja un dıa y pida informacion para preparar el viaje.

Objetivo 4

Codigo: C.4.1

Objetivo: Horarios y precios de trenes a una ciudad concreta sabiendo el dıa de ida y el dıa devuelta.

Situacion: Por ser las fiestas locales tiene 3 dıas de vacaciones. Esta pensando en ir con su familiaa Barcelona para visitar el Aquarium, el zoo, el puerto y alguna otra cosa. Quiere salir de viaje eldıa 16 de junio y volver el 19.

Codigo: C.4.5

Objetivo: Horarios y precios de trenes a una ciudad concreta sabiendo el dıa de ida y el dıa devuelta.


Situacion: Usted dispone de varios dıas de vacaciones y desea visitar alguna ciudad de Espana.Escoja la ciudad que va a visitar (entre capitales de provincia o de importancia similar) y unasfechas concretas de ida y vuelta dentro del presente o del proximo mes.

Objetivo 5

Codigo: C.5.1

Objetivo: Precios y horarios de ida y vuelta a Valencia para pasar unos dıas por Fallas.

Situacion: Quiere hacer una visita a Valencia durante las Fallas. Como esta semana tiene turnode trabajo por la manana y ha pedido fiesta el jueves, saldrıa el miercoles 17 despues de comerpara regresar el domingo a ultima hora. No le importarıa viajar de noche en coche-cama siempreque no le salga demasiado caro

Codigo: C.5.5

Objetivo: Precios y horarios de ida y vuelta a Valencia para pasar unos dıas por Fallas.

Situacion: Por Fallas, quiere hacer un viaje de ida y vuelta a Valencia. Prefiere viajar de noche yaque resulta mas tranquilo. Desearıa que el viaje no fuera muy caro. Elija las fechas para el viaje,pero suponga que tiene cierta flexibilidad en los dıas de salida y de vuelta.

Objetivo 6

Codigo: C.6.1

Objetivo: Horarios y precios de un viaje de fin de semana a una ciudad determinada.

Situacion: Usted tiene la familia en Jaca. Ha decidido que este fin de semana ira a verlos, ya queeste viernes por la tarde no trabaja. Puede salir a partir de las 5 de la tarde y quiere llegar lo antesposible. No le importa el que el precio del billete sea caro. Quisiera volver el domingo a partir delas 5 de la tarde.

Codigo: C.6.5

Objetivo: Horarios y precios de un viaje de fin de semana a una ciudad determinada.

Situacion: Usted tiene la familia en una ciudad (escojala entre capitales de provincia o ciudadesde importancia similar) distinta de la ciudad en la que reside. Ha decidido que este fin de semanava a ir a verlos, ya que este viernes por la tarde no trabaja.

Objetivo 7

Codigo: C.7.1

Objetivo: Horarios y precio para un viaje a Madrid, haciendo la ida y la vuelta el mismo dıa.

Situacion: Usted vive en Sevilla y tiene que ir a una reunion en la sede central de su empresa queesta en Madrid. La reunion es el jueves de la semana proxima. Por razones de trabajo tiene que iry volver el mismo dıa. La reunion esta convocada a las 10 de la manana y se espera que termine

D.3. Escenarios tipo C 177

hacia las 5 de la tarde. Debe ser muy puntual en la llegada. Le sede de la empresa esta cerca (aunos 15 minutos) de la estacion de Atocha. Le interesa, si lo horarios lo permiten, ir en AVE,primera clase.

Codigo: C.7.5

Objetivo: Horarios y precios haciendo la ida y la vuelta el mismo dıa.

Situacion: Escoja una ciudad como su lugar de residencia. Tiene que hacer un viaje de ida y vueltael mismo dıa a Madrid o Barcelona por motivos de trabajo o particulares. Escoja el dıa que quiereir (o los dıas que podrıa ir) y las horas aproximadas de salida y llegada que le permitan realizarsus actividades en la ciudad correspondiente. Busque siempre trenes rapidos como el AVE, Talgoo Intercity.

Objetivo 8

Codigo: C.8.1

Objetivo: Horarios y precios de un viaje de ida y vuelta a una ciudad determinada en la que hade estar a primera hora de la manana.

Situacion: Usted tiene que estar manana a primera hora en Madrid. Esta muy ocupado y leinteresarıa salir lo mas tarde posible esta misma noche. La vuelta desde Madrid la quiere hacermanana por la noche a ultima hora.

Codigo: C.8.5

Objetivo: Horarios y precios de un viaje de ida y vuelta a una ciudad determinada en la que hade estar a primera hora de la manana.

Situacion: Escoja una ciudad como lugar de residencia. Quiere hacer un viaje a otra ciudad paraestar en ella un dıa determinado (escoja el dıa) antes de las 8 de la manana. Escoja un dıa paravolver, bien el mismo dıa de llegada, el siguiente o dos dıas despues.

Objetivo 9

Codigo: C.9.1

Objetivo: Precios, horarios y tipo de tren de ida y vuelta a una ciudad concreta para unas fechasdeterminadas.

Situacion: Usted prepara un viaje para a Valladolid durante el puente del Pilar. Le gustarıa salirel viernes dıa 8 a medio dıa y regresar el dıa 12. Preferirıa viajar de dıa y que no le saliera muycaro. Le interesarıa saber el tipo de tren en el que puede viajar, ya que al ser el viaje muy largopuede resultar cansado.

Codigo: C.9.5

Objetivo: Precios, horarios y tipo de tren de ida y vuelta a una ciudad concreta para unas fechasdeterminadas.


Situacion: Elija una ciudad espanola (capital de provincia o de una importancia similar) en la quedesea pasar un periodo vacacional. Le interesa planificar el viaje y, ademas de horarios y precios,quiere informarse del tipo de tren que mas le conviene.

Bibliografıa

Abney, S., R. Berwick, y C. Tenny. 1991. Parsing by Chunks. Kluwer Academic Publis-hers, Dordrecht.

Allen, J. y M. Core. 1996. Dialog act markup in several layers. Informe tecnico, Universityof Rochester, Department of Computer Science, December.

Allen, J., G. Ferguson, B.W. Miller, E.K. Ringger, y T.S. Zollo, 2000. Handbook of NaturalLanguage Processing, paginas 347–376. Marcel Dekker, New York, July.

Allen, J. F., L. K. Schubert, G. Ferguson, P. Heeman, C.H. Hwang, T. Kato, M. Light,N. G. Martin, B.W. Miller, M. Poesio, y D.R. Traum. 1995. The TRAINS Project: Acase study in building a conversational planning agent. Journal of Experimental andTheoretical AI (JETAI), 7:7–48.

Allen, J.F. 1995. Natural Language Understanding. Computer Science. 2nd ed.

Angluin, D. 1982. Inference of Reversible Languages. Journal of the ACM, 29:741–765.

Arranz, V., N. Castell, Monserrat Civit, y A. Sesma. 2000. Lexico de la Tarea. Informetecnico, proyecto BASURDE, Noviembre.

Aubert, X. y H. Ney. 1995. Large Vocabulary Continuous Speech Recognition UsingWord Graphs. En Proc. ICASSP ’95, paginas 49–52, Detroit, MI, May.

Baggia, P., A. Kelner, E. Perennou, C. Popovici, J. Strum, y F. Wessel. 1999. LanguageModeling and Spoken Dialogue Systems the ARISE experience. En Proc. Eurospeech’99, paginas 1767–1770, Budapest, Hungary, September.

Bahl, L.R., F. Jelinek, y R.L. Mercer. 1983. A Maximum Likelihood Approach to Con-tinuous Speech Recognition. IEEE Transactions on Pattern Analysis and MachineIntelligence, PAMI-5(2):179–190, March.

Baker, J. 1979. Trainable Grammars for Speech Recognition. Speech CommunicationPapers for the 97th Meeting of the Acoustical Society of America, paginas 547–550.

Bengio, Y., R. Ducharme, P. Vincent, y C. Jauvin. 2003. A neural probabilistic languagemodel. En Journal of Machine Learning Research, paginas 1137–1155.

Bennacef, S., H. Bonneau-Maynard, J.L. Gauvain, L.F. Lamel, y W. Minker. 1994. ASpoken Language System For Information Retreival. En Proceedings of ICSLP, pagi-nas 1271–1274.

179

180 Bibliografıa

Bennacef, S., F. Neel, y H. Bonneau-Maynard. 1995. An oral dialogue model based onspeech acts categorization. ESCA Workshop of Spoken Dialog System.

Bennacef, S., L. Devillers, S. Rosset, y L. Lamel. 1996. Dialog in the RailTel Telephone-Based System. En Proceedings of ICSLP, paginas 550–553, Philadelphia, Octubre.

Bonafonte, A., P. Aibar, N. Castell, E. Lleida, J.B. Marino, E. Sanchis, y M.I. Torres.2000. Desarrollo de un sistema de dialogo oral en dominios restringidos. En TeresaLopez Soto ISBN:84-95118-58-0, editor, I Jornadas en Tecnologıa del Habla, Sevilla(Spain).

Bonafonte, A. y N. Mayol. 1999. Documentacion del corpus infotren - persona. Informetecnico, Proyecto BASURDE, Speech Processing Group, Universitat Politecnica deCatalunya, Junio.

Bonanfonte, A. 2003. La Conversion de Texto en Habla en los Sistemas de Dialogo.En Joaquim LListerri, editor, Curso de Industrias de la Lengua, Soria, 21-25 Julio.Fundacion Duques de Soria.

Bonneau-Maynard, H. y L. Devillers. 2000. A framework for evaluating contextual un-derstanding. En icslp, Beijing, October.

Bonneau-Maynard, H. y F. Lefevre. 2001. Investigating Stochastic Speech Understanding.En IEEE Automatic Speech Recognition and Understanding Workshop, Madonna diCampiglio, December.

Bordel, G. 1993. Modelizacion del Lenguaje: Una vision general desde el analisis delos lenguajes k-explorables en sentido estricto(n-gramas). Departamento de SistemasInformaticos y Computacion, Internal Report DSIC-II/40/93.

Bordel, G. 1994. Back-off Smoothing in a Syntactic approach to Language Modeling.ICSLP, paginas 851–854.

Brants, T. 1999. Cascade Markov Models. En Proc. of the EACL99, Bergen, Norway.

Bresan, J. y R. Kaplan, 1982. Lexical-Functional Grammar: A formal System for Gram-matical Representation, paginas 173–281. The MIT Press.

Bresnan, Joan. 2001. Lexical-Functional Syntax. Blackwell, Oxford.

Brown, Peter F., Vincent J. Della Pietra, Peter V. deSouza, Jenifer C. Lai, y Robert L.Mercer. 1992. Class-Based n-gram Models of Natural Language. ComputationalLinguistics, 18(4):467–479, Diciembre.

Bruce, B. 1975. Case Systems for Natural Language. Artificial Intelligence, 6.

Burton, R. 1976. Semantic Grammar. An Engineering Technique for Constructing Na-tural Understanding Systems. Informe tecnico, BNN, Cambridge, Massachusetts.

Carrillo, V., V. J. Dıaz, y M. A. Alonso. 2002. Algoritmos de analisis para gramaticasde insercion de arboles. Procesamiento del Lenguaje Natural, 29:89–96.

Bibliografıa 181

Castro, M. J. y Federico Prat. 2003. New Directions in Connectionist Language Modeling.En Alvarez eds. Mira, editor, Proceedings of the 7th International Work-conferenceon Artificial and Natural Neural Networks IWANN 2003, paginas 598–605. Springer-Verlag. LNCS Vol. 2686.

Castro, M. J. y E. Sanchis. 2002. A Simple Connectionist Approach to Language Unders-tanding in a Dialogue System. En Advances in Artificial Intelligence – IBERAMIA2002, volumen 2527 de LNAI. Springer-Verlag, paginas 664–673. 8th Ibero-AmericanConference on AI, Seville, Spain, 12–15, 2002. Proceedings.

Cheng, Y., P. Fortier, y Y.Normandin. 1994. A System Integrating Connexionist andSymbolic Approaches for spoken languaje understanding. En Proc. of ICSLP.

Chomsky, N. 1965. Aspects of the Theory of Syntax. MIT Press.

Clarkson, P. y R. Rosenfeld. 1997. Statistical Language Modeling Using the CMU-Cambridge Toolkit. En Proc. Eurospeech ’97, paginas 2707–2710, Rhodes, Greece,Septiembre.

CMU. 1997. The CMU Statistical Language Modeling (SLMtk) Toolkit.http://www.speech.cs.cmu.edu/SLM info.html.

Cormen, T., Ch. Leiseron, y R. Rivest. 1989. Introduction to algorithms. MIT Press.

Cottrell, Garrison W. y Steven L. Small. 1983. A Connectionist Scheme for ModellingWord Sense Disambiguation. Cognition and Brain Theory, 61(1):89–120.

Deligne, S. y F. Bimbot. 1995. Language modeling by variable length sequences: theo-retical formulation and evaluation of multigram. En Proceedings of the InternationalConference on Acoustincs, Speech and Signal Processing ICASSP, paginas 169–172.

Deligne, S. y Y. Sagisaka. 2000. Statistical language modeling with a class-based n-multigram. Computer Speech and Language, 14.

Derouault, A. M. y B. Merialdo. 1986. Natural Language Modeling for Phoneme-to-TextTranscription. IEEE Transactions on Pattern Analysis and Machine Intelligence,8(6):742–749, Noviembre.

Dıaz-Verdejo, J., A. M. Peinado, A. J. Rubio, E. Segarra, N. Prieto, y F. Casacuberta.1998. ALBAYZIN; a task-oriented Spanish speech corpus. En Proceedings First Int.Conf. on Language Resources & Evaluation, volumen 2, paginas 497–501, Granada,Spain.

Epstein, M., K. Papineni, S. Roukos, T. Ward, y S.D. Prieta. 1996. Statistical NatualLanguage Understanding using Hidden Clumpings. En Proc. of ICASSP.

E.Sanchis, N.Prieto, y J.Bernat. 1996. A decoupled bottom-up continuous speech unders-tanding system directed by semantics. En Proceedings of the International WorkshopSpeech and Computer, paginas 12–15, San Petersburgo, Rusia.

Essen, U. y H. Ney. 1991. Statistical Language Modellling using a Cache Memory. EnProceedings of QUALICO.

182 Bibliografıa

Feldman, J y D. Bullard. 1982. Connectionist models and their properties. CognitiveScience.

Fillmore, C.J. 1968. The Case for Case. En E. Bach y R. Harms, editores, Universals inLinguistic Theory, paginas 1–90, New York. Holt, Rinehart, and Winston.

Forney, Jr. G. D. 1973. The Viterbi Algorithm. En Proc. IEEE, paginas 268–278.

Fraser, N. y G. Gilbert. 1991. Simulating speech systems. Computer Speech & Language,5:81–99.

Fu, K. y T. Booth. 1975. Grammatical Inference: Introduction and survey: Parts I andII. IEEE Trasactions on Systems, Man and Cybernetics, paginas 5:303–309,409–423.

Fukada, T., D. Koll, A. Waibel, y K. Tanigani. 1998. Probabilistic dialogue act extractionfor concept based multilingual translation systems. En 5th. International Conferencein Spoken Language Processing, volumen 6, paginas 2771–2774.

Garcıa, F., L. Hurtado, E. Sanchis, y E. Segarra. 2003a. Modelos especıficos de compren-sion en un sistema de dialogo. Procesamiento del Lenguaje Natural, 31:99–106.

Garcıa, F., L.F. Hurtado, E. Sanchis, y E. Segarra. 2003b. The incorporation of confidencemeasures to language understanding. En Pavel Mautner Vaclav Matousek, editor,Proceedings of the Sixth Conference on Text Speech and Dialogue (TSD), LNAI 2807,paginas 165–172. Springer, September.

Garcıa, P., E. Vidal, y F. Casacuberta. 1987. Local Lenguajes, the sucessor Method, anda step towards qa General methodology for the inference of regular Grammars. IEEETransactions on Pattern Analysis and Machine Inteligence, PAMI, 9(6):841–845.

Garcia, Pedro y Enrique Vidal. 1990. Inference of k-Testable Languages in the Strict Sen-se and Application to Syntactic Pattern Recognition. IEEE Transactions on PatternAnalysis and Machine Intelligence, PAMI-12(9):920–925, Septiembre.

Gauvain, J.L., S.K. Bennacef, L. Devillers, L.F. Lamel, y S. Rosset. 1997. Spoken Lan-guage Component of the MASK Kiosk. En K. Varghese y S. Pfleger, editores, HumanComfort and Security of Information Systems. Springer, paginas 93–103.

Gazdar, G., E. Klein, G. K. Pullum, y I. A. Sag. 1985. Generalized Phrase StructureGrammar. Oxford, Blackwell.

Geutner, P., M. Denecke, U. Meier, M. Westphal, y A. Waibel. 1998. ConversationalSpeech Systems for On-Board Car Navigation and Assistance. En Proceedings of theICSLP, Adelaide, Australia.

Giachin, Egidio y Scott McGlashan, 1997. Corpus-Based Methods in Language and SpeechProcessing, capıtulo Spoken Language Dialogue Systems, paginas 69 – 117. KluwerAcademic Publishers, Dordrecht.

Goddeau, D., E. Brill, J. Glass, C. Pao, M. Phillips, J. Polifroni, S. Seneff, yV. Zue. 1994. Galaxy: A Human-Language Interface to On-line Travel Informa-tion. En Proc. ICSLP ’94, paginas 707–710, Yokohama, Japan, Septiembre. URLhttp://www.sls.lcs.mit.edu/ps/SLSps/icslp94/galaxy.ps.

Bibliografıa 183

Good, I.J. 1953. The Polulation Frecuencies of Species and the Estimation of PopulationParameters. Biometrika, 40.

Gorin, A. L., G. Riccardi, y J. H. Wright. 1997. How may I help you? Speech Commu-nication, 23(1/2):113–127.

Grishman, R. 1986. Computational Linguistics. Cambridge University Press.

Hacioglu, K y W. Ward. 2001. Dialog-Context Dependent Language Modeling CombiningN-grams and Stochastic Context-Free Grammars. En Proc. of ICASSP.

Hayes, P., A. Hauptman, y J. Carbonell. 1986. Parsing Spoken Language, a SemanticCaseframe Approach. COLING.

Hernando, J., J. Padrell, y Rodrıguez H. 2002. Sistema de Informacion MetereologicaAutomatica por Telefono ATTEMPS. Procesamiento del Lenguaje Natural, 29:311–312, septiembre.

Hopcroft, J. y J. Ullman. 1979. Introduction to Automata Theory, Languages, and Com-putation. Addison-Wesley, N. Reading, MA.

Jelinek, F. 1986. Self-organized Language Modeling for Speech Recognition. Informetecnico, IBM Europe Institute, Advances in Speech Processing, July.

Jelinek, F. 1991. Up from Trigrams!: The Struggle for Improved Language Model. EnProc. Eurospeech ’91, paginas 1037–1041, Genova, Italy, Septiembre.

Jelinek, F. 1997. Statistical Methods for Speech Recognition. The MIT Press, Cambridge,Massachusetts.

Jelinek, F., J.D. Lafferty, y R.L. Mercer. 1992. Basic methods of probabilistic context freegrammars. En P. Laface y R. De Mori, editores, Speech Recognition and Understan-ding. Recent Advances, Trends and Applications. Springer Verlag, paginas 345–360.

Jelinek, F. y R.L. Mercer. 1985. Probability Distribution Estimation from Sparse Data.Technical disclosure bulletin, IBM.

Joshi, A. K. y Y. Schabes. 1992. Tree-Adjoining Grammar and lexicalized grammars. EnMaurice Nivat y Andreas Podelski, editores, Tree automata and languages. ElsevierScience, paginas 409–431.

Kaplan, R. y J. Bresnan. 1982. Lexical-functional grammar. En Joan Bresnan, edi-tor, The mental representation of grammatical relations. MIT Press, Cambridge, MA,pagina **.

Katz, S.M. 1987. Estimation of Probabilities from Sparse Data for the Language modelComponent of a Speech Recognizer. IEEE Transactions on Acoustics, Speech andSignal Processing, 35(3):400–401, Marzo.

Kay, M., J.M. Gawron, y P. Norvig. 1994. Verbmobil: A Translation System For Face-To-Face Dialog. CSLI Publications, Stanford.

184 Bibliografıa

Kay, Martin. 1984. Functional Unification Grammar: A formalism for machine transla-tion. En Proceedings of the Tenth International Conference on Computational Linguis-tics (COLING-84) and the 22nd Annual Meeting of the ACL, paginas 75–78, StanfordUniversity, Stanford, CA, Julio 2-6,.

Khudanpur, S. y J. Wu. 2000. Maximum Entropy Techniques for Exploiting Syntactic,Semantic and Collocational Dependencies in Language Modeling. Computer Speechand Language, 14:355–372.

Klein, M. 1999. Standardisation efforts on the level of dialogue acts in the mate project.En Proceedings of the ACL Workshop: Towars Standards and Tools for DiscourseTagging, paginas 35–41, University of Maryland, May.

Kneser, R. y H. Ney. 1993. Improved clustering techniques for class-based statisticallanguage modeling. En Proc. of EUROSPEECH’93, paginas 779–782, Berlın.

Kuhn, R. y R. De Mori. 1990. A Cache-Based Language Model for Speech Recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence PAMI, 12:570–583.

Kuhn, R. y R. De Mori. 1993. Learning speech semantics with keyword classificationtrees. En Proc of ICASSP.

Lamel, L., S. Rosset, J.L. Gauvain, S. Bennacef, M. Garnier-Rizet, y B. Prouts. 2000.The LIMSI ARISE system. Speech Communication, 31:339–353.

Lamel, L.F., S.K. Bennacef, S. Rosset, L. Devillers, S. Foukia, J.J. Gangolf, y J.L. Gau-vain. 1997. The LIMSI RailTel System: Field trial of a telephone service for RailTravel information. spcom, 23:67–82, October.

Lari, K. y S. Young. 1991. Application of Stocastic Context-Free Grammars using theInside-Outside Algorithm. Computer Speech and Language, 5(237-257).

Lau, R., R. Rosenfeld, y S. Roukos. 1993. Trigger-based Language Models: A MaximumEntropy Apporach. En Proceedings ICASSP’93, paginas II–45–II–48, April.

Lehtinen, G., S. Safra, J.M. Pardo, R. Cordoba, y R. San-Segundo. 2000. IDAS: Interac-tive Directory Assistance Service. En VOTS-2000 Workshop, Belgium.

Levin, E. y R. Pieraccini. 1995. Concept-Based Spontaneous Speech UnderstandingSystem. En Proc. of EUROSPEECH’95, paginas 555–558.

Levin, E., R. Pieraccini, y W. Eckert. 2000. A stochastic model of human-machineinteraction for learning dialog strategies. En IEEE transations on speech and AudioProcessing, volumen 8(1), paginas 11–23.

Life, A. y I. et al. Salter. 1997. Data Collection for the MASK Kiosk: WOz vs PrototypeSystem. Eurospeech 97.

Lleida, E. 1999. Corpus Persona-Persona. Informe tecnico, Proyecto BASURDE.

Marino, J. B. y J. Hernando. 1999a. Especificacion de las grabaciones mediante Mago deOz. Informe tecnico, proyecto BASURDE.

Bibliografıa 185

Marino, J. B. y Javier Hernando. 1999b. Especificaciones de las grabaciones medianteMago de Oz. Informe tecnico, proyecto BASURDE.

Martinez, C. y F. Casacuberta. 2000. A pattern recognition approach to dialog labellingusing finite-state transducers. En In Proc. of V Iberoamerican Symposium on PatternRecognition, paginas 669–677.

Martinez, C., E. Sanchis, F. Garcıa, y P. Aibar. 2002. A labeling proposal to annotatedialogues. En Proc. of third International Conference on Language Resources andEvaluation (LREC)), paginas 1577–1582, 21-30 May.

Matrouf, A., J.L. Gauvain, F.Neel, y J. Mariani. 1990. An Oral Task Oriented Dialog forAir-traffic Controller Training. SPIE’s Technical Symposium on Optical Engineeringand Photonics in Aerospace Sensing, Applications of Artificial Intelligence, VIII.

McTear, M.F. 1998. Modelling spoken dialogues with state transition diagrams: expe-riences with the CSLU toolkit. En Proc. 5th International Conference on SpokenLanguage Processing, paginas 1223–1226, Sydney, Australia, December.

McTear, M.F. 1999. ESCA/SOCRATES Workshop on Method and Tool Innovations forSpeech Science Education. En Proc. 5th International Conference on Spoken LanguageProcessing, paginas 113–116, London, UK, April.

Miikkulainen, R. 1993. Subsymbolic Natural Language Processing: An Integrated Modelof Scripts, Lexicon, and Memory. MIT Press, Cambridge, MA.

Miller, S., D. Stallard, D. Bobrow, y R. Schwartz. 1996. A fully statistical approach tonatural language interfaces. En Proc. of the 34 Annual meeting of the ACL, paginas55–61.

Minker, W. 1998. Stocastic versus Rule-based Speech Understanding for InformationRetreival. Speech Communication, 25(4):223–227, September.

Minker, W. 1999a. Stocastically-Based Semantic Analysis. Kluwer Academic Publishers,Boston.

Minker, W. 1999b. Stocastically-Based Semantic Analysis for ARISE - Automatic Rail-way Information Systems for Europe. Grammars.

Moisa, L. y E. Giachin. 1995. Automatic Clustering of Words for Probabilistic LanguageModels. En Proceedings of EUROSPEECH95, volumen 2, paginas 1249–1253.

Nakamura, M. y K. Shikano. 1989. A study of English word category prediction basedon neural networks. En Proceedings of the ICASSP, Glasgow, Scotland, May.

Ney, H., U. Essen, y R. Kneser. 1994. On Structuring Probabilistic Dependencies inStochastic Language Modelling. Computer Speech and Language, 8:1–38.

Ney, H. y K. Kneser. 1991. On smoothing techniques for bigram-based natural languagemodelling. En International Conference on Acustics, Speech ans Signal ProcessingICASSP-91, paginas 825–828, Toronto.

186 Bibliografıa

Ney, H., S. Ortmanns, y I. Lindam. 1997. Extensions to the Word Graph Method forLarge Vocabulary Continuous Speech Recognition. En Proc. ICASSP ’97, paginas1791–1794, Munich, Germany, Abril.

Nyberg, E., T. Mitamura, P. Placeway, M. Duggan, y N. Hataoka. 2002. DialogXML:Extending VoiceXML for Dynamic Dialog Management. En Proc. Human LanguageWorkshop.

Oeder, M. y H.A. Aust. 1994. Prototipe of an automatic inquiry system. En Proc. ofICSLP, paginas 703–706.

Oncina. 1991. Aprendizaje de lenguajes regulares y funciones subsecuenciales. Ph.D.tesis, Departamento de Sistemas Informaticos y Computacion. Universidad Politecnicade Valencia.

Pallet, D.S., J.G. Fiscus, W.M. Fisher, J.S. Garofolo, B.S. Lund, A. Martin, y M.A. Przy-bocki. 1995. The 1994 Benchmark Tests for the ARPA Spoken Language Program.En Proceedings of ARPA Workshop on Spoken Language Technology.

Peckham, J. 1993. A new generation of spoken dialogue systems: results and lessons fromthe SUNDIAL project. En Proceedings of the 3rd European Conference on SpeechCommunication and Technology, paginas 33–40.

Peckman, J. 1991. Speech understanding and dialogue over the telephone: an overviewof progress in the sundial project. En Proceedings of the 2nd European Conference onSpeech Communication and Technology, paginas 1469–72.

Pieraccini, R., E. Levin, y W. Eckert. 1997. AMICA: The AT&T Mixed Initiative Conver-sational Architecture. En Proc. Eurospeech ’97, paginas 1875–1878, Rhodes, Greece,Septiembre.

Pla, F., A. Molina, y N. Prieto. 2000a. An Integrated Statistical Model for Tagging andChunking Unrestricted Text. Lecture Notes in Computer Science, 1902:15–20.

Pla, F., A. Molina, y N. Prieto. 2000b. Improving Chunking by Means of Lexical-Contextual Information in Statistical Language Models. En Claire Cardie WalterDaelemans Claire Nedellec, y Erik Tjong Kim Sang, editores, Proceedings of the FourthConference on Computational Natural Language Learning and of the Second LearningLanguage in Logic Workshop, Lisbon, 2000, paginas 148–150, Somerset, New Jersey.Association for Computational Linguistics.

Pla, F., A. Molina, y N. Prieto. 2000c. Tagging and Chunking with Bigrams. En Proc.of the COLING-2000, Saabrucken, Germany, August.

Pollard, Carl y Ivan Sag. 1994. Head-Driven Phrase Structure Grammar. University ofChicago Press, Chicago. Draft distributed at the Third European Summer School inLanguage, Logic and Information, Saarbrucken, 1991.

Prieto, N. 1995. Aprendizaje de modelos semanticos para sistemas de comprension delhabla. Ph.D. tesis, Universidad Politecnica de Valencia.

Bibliografıa 187

Prieto, N., E Sanchis, y L. Palmero. 1994. Continuous Speech Understanding basedon automatic learning of acoustic and semantic models. International Conference onSpeech and Language Processing, ICSLP94 (Yokohama, Japan) Proc., paginas 2175–2178.

Prieto, N. y E. Vidal. 1992. Learning Language Models through the ECGI Method.Speech Communication, 11:299–309.

Perez-Pinar-Linares, L., C. Garcıa-Mateo, S. Pardo-Rıos, y V. Darriba-Bilbao. 2002. Inte-gracion automatica de fuentes de conocimiento linguıstico en el desarrollo de sistemasde dialogo. Procesamiento del Lenguaje Natural, 29:191–203, septiembre.

Rabiner, Lawrence R. y Biing-Hwang Juang. 1993. Fundamentals of Speech Recognition.Prentice Hall, Englewood Cliffs, New Jersey.

Rabiner, L.R. 1989. A tutorial on hidden markov models and selected applications inspeech recognition. IEEE Trans. on Acoustics Speech and Signal Processing, 77:257–286.

Rodrıguez-Linares, L., C. Garcıa-Mateo, S. Pardo-Rıos, y V. Darriba-Bilbao. 2002. UnSistema de Dialogo para la Consulta de Correo Electronico en Lenguaje Natural.Procesamiento del Lenguaje Natural, 29:181–188, Septiembre.

Rosenfeld, R. 1996. A Maximum Entropy Approach to Adaptive Statistical LanguageModeling. Computer, Speech and Language, 10:187–228. Carnegie Mellon Tech. Rep.CMU-CS-94-138.

Rubio, A. J., P. Garcia, A. de-la Torre, J. C. Segura, J. Diaz-Verdejo, M. C. Benitez,V. Sanchez, A. M. Peinado, J. M. Lopez-Soler, y J. L. Perez-Cordoba. 1997. STACC:An Automatic Service for Information Access Using Continuous Speech RecognitionThrough Telephone Line. En Proceedings of Eurospeech’97, paginas 1779–1782, Rho-des, Greece, September.

Rudnicky, A., E. Thayer, P. Constantinides, C. Tchou, R. Shern, K. Lenzo, W. Xu, yA. Oh. 1999. Creating natural dialogs in the Carnegie Mellon Communicator system.En Proceedings of Eurospeech, volumen 4, paginas 1531–1534.

Ruiz, J. 1998. Familias de Lenguajes Explorables: Inferencia Inductiva y Carecteriza-cion Algebraica. Ph.D. tesis, Departamento de Sistemas Informaticos y Computacion,Universidad Politecnica de Valencia.

Ruiz, J., S. Espana, y P. Garcıa. 1998. Locally Threshold Testable Languages in StrictSense: Application to the Inference Problem. En Vasant Honavar y Giora Slutzki,editores, Proceedings of the 4th International Colloquium on Grammatical Inference(ICGI-98), volumen 1433 de LNAI, paginas 150–161, Berlin, July. Springer.

Rulot, H. 1992. ECGI: un algoritmo de inferencia gramatical mediante correcion deerrores. Ph.D. tesis, Universidad de Valencia.

Rulot, H., N. Prieto, y E. Vidal. 1989. Learning accurate finite-state strutural models ofwords through the ECGI algorithm. En Proceedings of international Conference onAcoustics, Speech and Signal Processing.

188 Bibliografıa

Rulot, H. y E. Vidal. 1987. Modelling (sub)string-Length-Based Constraint throught aGrammatical inference method. En Devijver y Kittler, editores, Pattern Recognition:Theory and Applicatons, paginas 451–459. Springer-Verlag.

Rulot, H., E. Vidal, y N. Prieto. 1988. Extension estocastica del algoritmo ECGI ysu aplicacion al reconocimiento de diccionarios difıciles. En Simposium Nacional deReconocimiento de Formas y Analisis de Imagenes, paginas 385–392.

San-Segundo, R., J. M. Montero, J. M. Guitierrez, A. Gallardo, J. D. Romeral, y J.M.Pardo. 2001. A Telephone-Based Railway Information System for Spanish: Deve-lopment of a Methodology for Spoken Dialogue Design. En Proceedings of the 2ndSIGdial Workshop on Discourse and Dialogue, paginas 140–148, Aalborg, Denmark,1-2 September.

Sanchez, J.A. 1999. Estimacion de gramaticas incontextuales probabilısticas y su aplica-cion en modelizacion del lenguaje. Ph.D. tesis, Universidad Politecnica de Valencia.Director: Dr. J.M. Benedı.

Sanchis, E. 1994. Modelizacion acustica de unidades sublexicas mediante tecnicas deinferencia gramatical basadas en el analisis sintactico corrector de errores. Ph.D.tesis, Universidad Politecnica de Valencia.

Sanchis, E. y M. J. Castro. 2002. Dialogue Act Connectionist Detection in a Spoken Dia-logue System. En Soft Computing Systems. Design, Management and Applications,volumen 87 de Frontiers in Artificial Intelligence and Applications. IOS Press, paginas644–651. ISSN: 0922-6389.

Sanchis, E., I. Galiano, F. Garcıa, y A. Cano. 2001. A hybrid approach to the deve-lopment of dialogue system directed by semantics. En Jan Van, editor, Proceedingsof 2nd SIGdialThe Workshop on Discourse and Dialogue, paginas 149–152, Aalborg,Denmark.

Sanchis, E., F. Garcıa, I. Galiano, y E. Segarra. 2002. Applying Dialogue Constraintsto the Understanding Process in a Dialogue System. En Petr Sojka Ivan Kopecek, yKarel Pala, editores, Proceedings of the Fifth International Conference on Text, Speechand Dialogue—TSD 2002, Lecture Notes in Artificial Intelligence LNCS/LNAI 2448,paginas 389–395, Brno, Czech Republic, September. Springer-Verlag.

Schwartz, R., S. Miller, D. Stallard, y J. Makhoul. 1996. Language understanding usinghidden understanding models. En Proc. of ICSLP, paginas 997–1000.

Segarra, E. 1993. Una aproximacion inductiva a la comprension del discurso continuo.Ph.D. tesis, Universidad Politecnica de Valencia.

Segarra, E., V. Arranz, N. Castell, I. Galiano, F. Garcıa, A. Molina, y E. Sanchis. 2000.Representacion Semantica de la Tarea. Informe tecnico, proyecto BASURDE.

Segarra, E. y L. Hurtado. 1997. Construction of Language Models using Morfic GeneratorGrammatical Inference MGGI Methodology. En Proc. of EUROSPEECH, paginas2695–2698.

Bibliografıa 189

Segarra, E., E. Sanchis, I. Galiano, F. Garcıa, y L.F. Hurtado. 2001. Extracting seman-tic information through automatic learning. En Proc. of IX Spanish Symposium onPattern Recognition and Image Analysis (AERFAI), paginas 177–182.

Segarra, E., E. Sanchis, M. Galiano, y F. Garcia L. Hurtado. 2002. Extracting Seman-tic Information Through Automatic Learning Techniques. International Journal ofPattern Recognition and Artificial Intelligence IJPRAI, 16(3):301–307.

Segarra, E., E. Sanchis, F. Garcia, L. Hurtado, y I. Galiano. 2003. Achieving full covera-ge of automatically learnt finite-state language models. En Workshop on Finite-StateMethods in Natural Language Processing. 10th Conference of the European Chapterof the Association for Computational Linguistics (EACL2003), paginas 135–142, Bu-dapest, Hungary, April.

Seneff, S. 1992. TINA: A natural language system for spoken languaje applications.Computational Linguistics, 18(1):61–86, March.

Sesma, A., J.B. Marino, I. Esquerra, y J. Padrell. 1999. Estrategia del Mago de Oz.Informe tecnico, proyecto BASURDE.

Small, S., G. Cottrell, y L. Shastri. 1982. Toward Connectionist Parsing. En David Waltz,editor, Proceedings of the National Conference on Artificial Intelligence, paginas 247–250, Pittsburgh, PA, Aug. AAAI Press.

Soong, F. y E. Huang. 1991. A tree-treliss based fast search for finding the n best sentencehypoteses in continuous speech recognition. En Proceedings of ICASSP’91, paginas537–540.

Stolcke, A., N. Corraco, R. Bates, P. Taylor, C. VanEssDykema, K. Ries, E. Shriberg,D. Jurafsky, y R. Martin. 2000. Dialogue act modeling for automatic tagging andrecognition of conversational speech. Computational Linguistics, 26(3):1–34.

Vilar, D., M. J. Castro, y E. Sanchis. 2002. Comparacion de metodos de deteccionde actos de dialogo. En Antonio Rubio Ayuso, editor, Actas de las II Jornadas enTecnologıas del Habla, Granada (Espana), Diciembre.

Vilar, D., M. J. Castro, y E. Sanchis. 2003. Connectionist classification and specificstochastic models in the understanding process of a dialogue system. En Eurospeech,Ginebra, Swiss, september. Aceptado, pendiente publicacion.

Ward, W. 1994. Extracting information in spontaneous speech. En Proc. of the ICLSP,paginas 83–86.

Xu, W y A. Rudnicky. 2000a. Language Modeling for Dialog System. En Proceedingsof the 6th International Conference in Spoken Language Processing ICSLP, paginasPaper B1–06, Beijing, China.

Xu, Wei y Alexander I. Rudnicky. 2000b. Task-Based Dialog Management Using anAgenda. En Candace Sidner et al., editor, ANLP/NAACL Workshop on Conversa-tional Systems, paginas 42–47, Somerset, New Jersey. Association for ComputationalLinguistics, Association for Computational Linguistics.

190 Bibliografıa

Zue, V., S. Seneff, J. Glass, J. Polifroni, C. Pao, T.J. Hazen, y L. Hetherington. 2000.JUPITER: A telephone-based conversational interface for weather information. IEEETrans. on Speech and Audio Processing, 8(1), January.

Documents

Una aproximaci on estoc astica para la comprensi on … · comprensi on y apoyo en todo momento en la ardua tarea que supone tanto el ... permitiendo una segmentaci on y un etiquetado