230
INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje Natural y Procesamiento de Texto El formateo de entrada y la caracterización morfológica de componentes de la base de datos con colocaciones y relaciones semánticas en español T E S I S QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS DE LA COMPUTACIÓN PRESENTA ING. SABINO MIRANDA JIMÉNEZ DIRECTOR: DR. IGOR A. BOLSHAKOV México, D. F., Junio de 2003

T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

  • Upload
    lamnga

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN

Laboratorio de Lenguaje Natural y Procesamiento de Texto

El formateo de entrada y la caracterización morfológica de componentes de la base de datos

con colocaciones y relaciones semánticas en español

T E S I S QUE PARA OBTENER EL GRADO DE

MAESTRO EN CIENCIAS DE LA COMPUTACIÓN

PRESENTA

ING. SABINO MIRANDA JIMÉNEZ

DIRECTOR:

DR. IGOR A. BOLSHAKOV

México, D. F., Junio de 2003

Page 2: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

Wxw|vtàÉÜ|t

A mi padre que fue un hombre ejemplar

y siempre estará en mi corazón.

Page 3: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

TzÜtwxv|Å|xÇàÉá

A mi madre y hermanos por el apoyo moral que me han dado

en los momentos más difíciles de mi vida.

Al Dr. Igor A. Bolshakov por sus sabios consejos, paciencia y guía

en lo académico y personal.

A los Drs. Grigori Sidorov y Alexander Gelbukh

por el apoyo que me dieron durante mi estancia en el centro.

A todos mis compañeros que de alguna manera han ayudado

a mi formación.

Al Centro de Investigación en Computación (CIC-IPN) y al Programa Institucional de Formación de Investigadores (PIFI)

por el apoyo económico que me proporcionaron.

Page 4: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

i

ÍNDICE GENERAL

RELACIÓN DE FIGURAS Y TABLAS ...................................................................... VIII

GLOSARIO DE TÉRMINOS ...........................................................................................XI

CAPÍTULO 1. INTRODUCCIÓN................................................................................ 1

CAPÍTULO 2. ANTECEDENTES ............................................................................. 44

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP ................. 58

CAPÍTULO 4. CARACTERIZACIÓN MORFOLÓGICA DE LAS COLOCACIONES............................................................................... 96

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP .............. 114

CAPÍTULO 6. CONCLUSIONES ............................................................................ 149

REFERENCIAS ............................................................................................................... 152

ANEXOS ........................................................................................................................... 155

Page 5: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje
Page 6: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

iii

ÍNDICE DETALLADO

RELACIÓN DE FIGURAS Y TABLAS ...................................................................... VIII

GLOSARIO DE TÉRMINOS ...........................................................................................XI

CAPÍTULO 1. INTRODUCCIÓN................................................................................ 1

1.1 JUSTIFICACIÓN............................................................................................................. 2 1.2 OBJETIVOS................................................................................................................... 3 1.3 ORGANIZACIÓN DE LA TESIS ........................................................................................ 4 1.4 NOCIONES FUNDAMENTALES DEL LENGUAJE ............................................................... 5

1.4.1 Niveles de descripción del lenguaje..................................................................... 5 1.4.1.1 Fonética y Fonología .................................................................................... 5 1.4.1.2 Morfología .................................................................................................... 6 1.4.1.3 Sintaxis ......................................................................................................... 6 1.4.1.4 Semántica ..................................................................................................... 9 1.4.1.5 Pragmática .................................................................................................... 9

1.4.2 El español gramaticalmente............................................................................... 10 1.4.2.1 Morfología .................................................................................................. 10

1.4.2.1.1 Flexión................................................................................................. 11 1.4.2.1.2 Derivación ........................................................................................... 12 1.4.2.1.3 Composición........................................................................................ 13

1.4.2.2 Sintaxis ....................................................................................................... 14 1.4.2.2.1 El sustantivo y su papel ....................................................................... 14

1.4.2.2.1.1 Categorías gramaticales del sustantivo........................................ 16 1.4.2.2.1.2 Sustantivos aumentativos, diminutivos y despectivos................. 18 1.4.2.2.1.3 Funciones sintácticas del sustantivo............................................ 19

1.4.2.2.2 El adjetivo y su papel .......................................................................... 20 1.4.2.2.2.1 Posición del adjetivo respecto al sustantivo ................................ 21 1.4.2.2.2.2 Adjetivos determinativos............................................................. 21 1.4.2.2.2.3 Adjetivos apocopados.................................................................. 22 1.4.2.2.2.4 Categorías gramaticales del adjetivo ........................................... 22 1.4.2.2.2.5 Adjetivos aumentativos, diminutivos y despectivos ................... 24

1.4.2.2.3 El verbo y su papel .............................................................................. 24 1.4.2.2.3.1 Categorías gramaticales............................................................... 24

1.4.2.2.3.1.1 Persona y número ................................................................. 25

Page 7: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

iv

1.4.2.2.3.1.2 Modo..................................................................................... 25 1.4.2.2.3.1.3 Tiempo.................................................................................. 26

1.4.2.2.3.2 Modelos de conjugación.............................................................. 26 1.4.2.2.3.3 Clases de verbos .......................................................................... 27 1.4.2.2.3.4 Formas no personales del verbo .................................................. 30 1.4.2.2.3.5 Funciones sintácticas del verbo ................................................... 31 1.4.2.2.3.6 Uso del pronombre se .................................................................. 34

1.4.2.2.4 El adverbio y su papel ......................................................................... 34 1.4.2.2.4.1 Adverbialización.......................................................................... 35 1.4.2.2.4.2 Sufijación..................................................................................... 35 1.4.2.2.4.3 Gradación .................................................................................... 35 1.4.2.2.4.4 Clasificación de los adverbios ..................................................... 35 1.4.2.2.4.5 Locuciones adverbiales ............................................................... 36

1.4.2.2.5 El pronombre y su papel...................................................................... 36 1.4.2.2.6 El artículo y su papel ........................................................................... 37 1.4.2.2.7 La preposición y su papel .................................................................... 39

1.4.2.3 La concordancia.......................................................................................... 40

CAPÍTULO 2. ANTECEDENTES ............................................................................. 44

2.1 COLOCACIONES EN GENERAL..................................................................................... 45 2.2 CARACTERÍSTICAS DE LAS COLOCACIONES................................................................ 46 2.3 CLASIFICACIÓN DE LAS COLOCACIONES..................................................................... 47 2.4 TRATAMIENTO DE LAS COLOCACIONES EN LOS DICCIONARIOS................................... 47

2.4.1 Las colocaciones en el Diccionario Explicativo Combinatorio (DEC)............. 50 2.4.2 Las funciones léxicas en el DEC........................................................................ 53

2.5 APLICACIONES DE LAS COLOCACIONES...................................................................... 55

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP ................. 58

3.1 ESTRUCTURA DEL SISTEMA CROSSLEXICA-ESP .......................................................... 58 3.2 BASES PRIMARIAS DE COLOCACIONES EN CROSSLEXICA-ESP.................................... 61

3.2.1 Archivo de modificadores .................................................................................. 63 3.2.2 Archivo de valencias verbales............................................................................ 64 3.2.3 Archivo de valencias sustantivales .................................................................... 65 3.2.4 Archivo de hipónimos / hiperónimos ................................................................. 66

3.3 ESTRUCTURA DE LAS BASES PRIMARIAS EN GENERAL ................................................ 67 3.3.1 Palabra clave ..................................................................................................... 67

Page 8: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

v

3.3.1.1 Información semántica ............................................................................... 67 3.3.1.2 Parámetros morfológicos............................................................................ 68

3.3.2 Palabras relacionadas ....................................................................................... 70 3.3.2.1 Idiomatización ............................................................................................ 70 3.3.2.2 Estilo de la combinación ............................................................................ 71

3.4 ESTRUCTURA DE LAS BASES DE COLOCACIONES MODIFICADORAS ............................. 72 3.4.1 Base primaria..................................................................................................... 72 3.4.2 Base secundaria ................................................................................................. 75

3.4.2.1 Descripción de las columnas ...................................................................... 75 3.5 ESTRUCTURA DE LAS BASES DE COLOCACIONES CON VALENCIAS VERBALES ............. 79

3.5.1 Base primaria..................................................................................................... 79 3.5.1.1 Valencia omitida......................................................................................... 81 3.5.1.2 Posición de la palabra clave ....................................................................... 81

3.5.2 Base secundaria ................................................................................................. 82 3.5.2.1 Descripción de las columnas ...................................................................... 83

3.6 ESTRUCTURA DE LAS BASES DE COLOCACIONES CON VALENCIAS SUSTANTIVALES.... 86 3.6.1 Base primaria..................................................................................................... 86 3.6.2 Base secundaria ................................................................................................. 88

3.6.2.1 Descripción de las columnas ...................................................................... 89 3.7 ESTRUCTURA DE LAS BASES DE HIPÓNIMOS / HIPERÓNIMOS....................................... 90

3.7.1 Base primaria..................................................................................................... 90 3.7.1.1 Clasificación de hipónimos ........................................................................ 92

3.7.2 Base secundaria ................................................................................................. 93 3.7.2.1 Descripción de las columnas ...................................................................... 94

CAPÍTULO 4. CARACTERIZACIÓN MORFOLÓGICA DE LAS COLOCACIONES ............................................................................ 96

4.1 DETERMINACIÓN DE LAS CATEGORÍAS GRAMATICALES ............................................. 96 4.1.1 Clase de palabra ................................................................................................ 96

4.1.1.1 Sufijos característicos para sustantivos ...................................................... 96 4.1.1.2 Sufijos característicos para adjetivos.......................................................... 97 4.1.1.3 Sufijos característicos para verbos ............................................................. 97 4.1.1.4 Sufijo característico para adverbios............................................................ 97

4.1.2 Categoría de género........................................................................................... 98 4.1.3 Categoría de número ......................................................................................... 98

4.2 DETERMINACIÓN DE LA CLASE DE INCLINACIÓN...................................................... 100

Page 9: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

vi

4.3 PROCEDIMIENTO PARA COLOCACIONES MODIFICADORAS ........................................ 101 4.3.1 Hipótesis para colocaciones modificadoras .................................................... 101 4.3.2 Comprobación de la concordancia.................................................................. 102

4.4 PROCEDIMIENTO PARA COLOCACIONES CON VALENCIAS VERBALES ........................ 102 4.4.1 Hipótesis para colocaciones con valencias verbales....................................... 103 4.4.2 Comprobación de la concordancia.................................................................. 103

4.5 PROCEDIMIENTO PARA COLOCACIONES CON VALENCIAS SUSTANTIVALES ............... 104 4.5.1 Hipótesis para colocaciones con valencias sustantivales................................ 104

4.6 PROCEDIMIENTO PARA HIPÓNIMOS / HIPERÓNIMOS .................................................. 104 4.7 IMPLEMENTACIÓN DEL SISTEMA CROSSLEXICA-ESP ............................................... 105 4.8 DIAGRAMAS DE CASOS DE USO ................................................................................ 105

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP .............. 114

5.1 RESULTADOS DE LA CARACTERIZACIÓN MORFOLÓGICA .......................................... 114 5.1.1 Descripción de los resultados de la base secundaria de colocaciones

modificadoras................................................................................................... 114 5.1.1.1 Información semántica ............................................................................. 117 5.1.1.2 Información estilística .............................................................................. 118

5.1.2 Descripción de los resultados de la base secundaria de colocaciones con valencias verbales ............................................................................................ 118

5.1.3 Descripción de los resultados de la base secundaria de colocaciones con valencias sustantivales ..................................................................................... 122

5.1.4 Descripción de los resultados de la base secundaria de hipónimos / hiperónimos...................................................................................................... 125

5.1.5 Protocolo de errores para la caracterización morfológica............................. 127 5.2 SISTEMA CROSSLEXICA-ESP VERSIÓN BETA 1.0 ...................................................... 128

5.2.1 Funcionamiento del sistema CrossLexica-Esp ................................................ 129 5.2.2 Ejemplos de colocaciones modificadoras ........................................................ 130

5.2.2.1 Combinaciones sustantivo → adjetivo ..................................................... 131 5.2.2.2 Combinaciones adjetivo → adverbio ....................................................... 133 5.2.2.3 Combinaciones verbo → adverbio ........................................................... 135

5.2.3 Ejemplos de colocaciones con valencias verbales........................................... 136 5.2.3.1 Combinaciones verbo → sustantivo ......................................................... 136

5.2.4 Ejemplos de colocaciones con valencias sustantivales.................................... 138 5.2.4.1 Combinaciones sustantivo → sustantivo.................................................. 138

5.2.5 Ejemplos de combinaciones de palabras con información semántica............. 139

Page 10: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

vii

5.2.6 Ejemplos de combinación de palabras con idiomatización y estilo ................ 142 5.2.7 Ejemplos de relaciones semánticas.................................................................. 144 5.2.8 Inferencia de colocaciones............................................................................... 145

CAPÍTULO 6. CONCLUSIONES ............................................................................ 149

6.1 CONTRIBUCIONES .................................................................................................... 150 6.2 PUBLICACIONES....................................................................................................... 150 6.3 TRABAJO FUTURO .................................................................................................... 150

REFERENCIAS ............................................................................................................... 152

ANEXOS ........................................................................................................................... 155

ANEXO A. BASES PRIMARIAS DE COLOCACIONES............................................................ 155 Anexo A.1 Base primaria de colocaciones modificadoras........................................ 155 Anexo A.2 Base primaria de colocaciones con valencias verbales........................... 162 Anexo A.3 Base primaria de colocaciones con valencias sustantivales ................... 167 Anexo A.4 Base primaria de hipónimos / hiperónimos ............................................. 172

ANEXO B. BASES SECUNDARIAS DE COLOCACIONES....................................................... 179 Anexo B.1 Base secundaria de colocaciones modificadoras .................................... 179 Anexo B.2 Base secundaria de colocaciones con valencias verbales ....................... 185 Anexo B.3 Base secundaria de colocaciones con valencias sustantivales ................ 190 Anexo B.4 Base secundaria de hipónimos / hiperónimos.......................................... 195

ANEXO I. PREPOSICIONES ............................................................................................... 201 ANEXO II. ADVERBIOS.................................................................................................... 204 ANEXO III. ARCHIVOS AUXILIARES................................................................................ 207

Page 11: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

viii

Relación de figuras y tablas Figura 1.1 Ejemplo de árbol de constituyentes....................................................................... 7

Figura 1.2 Ejemplo de árbol de dependencia ......................................................................... 8

Figura 2.1 Ejemplo de colocaciones del BBI ....................................................................... 48

Figura 2.2 Entrada de colocación del OCD.......................................................................... 48

Figura 2.3 Ejemplo de colocación del sistema ARCS.......................................................... 49

Figura 2.4 Ejemplo de colocación del sistema CrossLexica versión rusa............................ 50

Figura 2.5 Ejemplo de entrada del DEC (francés)................................................................ 53

Figura 3.1 Esquema de bloques del sistema CrossLexica-Esp............................................. 61

Figura 3.2 Ejemplo de artículo de una base primaria ........................................................... 62

Figura 3.3 Enlaces sintácticos para modificadores............................................................... 63

Figura 3.4 Enlaces sintácticos para valencias verbales ........................................................ 64

Figura 3.5 Enlaces sintácticos para valencias sustantivales ................................................. 66

Figura 3.6 Esquema de un artículo de colocaciones modificadoras..................................... 73

Figura 3.7 Esquema de un artículo de colocaciones con valencias verbales........................ 79

Figura 3.8 Esquema de un artículo de colocaciones con valencias sustantivales................. 86

Figura 3.9 Esquema de un artículo de hipónimos / hiperónimos ......................................... 91

Figura 4.1 Diagrama de casos de uso del sistema CrossLexica-Esp.................................. 106

Figura 4.2 Diagrama de secuencia del caso de uso Formatear colocaciones .................... 108

Figura 4.3 Diagrama de secuencia del caso de uso Compilar enlaces entre palabras ...... 108

Figura 4.4 Diagrama de secuencia del caso de uso Consultar colocaciones ..................... 109

Figura 4.5 Modelo entidad-relación del sistema CrossLexica-Esp .................................... 110

Figura 5.1 Ejemplo de entrada de colocaciones en el sistema CrossLexica-Esp ............... 130

Figura 5.2 Concordancia entre un sustantivo y su adjetivo............................................... 131

Figura 5.3 Concordancia entre un adjetivo y varios sustantivos ....................................... 132

Figura 5.4 Combinación de un adjetivo y sus modificadores adverbiales ......................... 133

Page 12: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ix

Figura 5.5 Combinación de un adverbio y los verbos que modifica .................................. 134

Figura 5.6 Combinación de un verbo y sus adverbios modificadores................................ 135

Figura 5.7 Combinación de un verbo con sus complementos y sujetos ............................. 136

Figura 5.8 Sustantivo como complemento verbal .............................................................. 137

Figura 5.9 Sustantivo como complemento sustantival ....................................................... 138

Figura 5.10 Información adicional para palabras homónimas (primer caso) ..................... 139

Figura 5.11 Información adicional para palabras homónimas (segundo caso) .................. 140

Figura 5.12 Información adicional para palabras homónimas (tercer caso)....................... 141

Figura 5.13 Combinaciones con información idiomática................................................... 142

Figura 5.14 Combinaciones con información estilística .................................................... 143

Figura 5.15 Combinaciones con relaciones semánticas ..................................................... 144

Figura 5.16 Inferencia de colocaciones para azucenas....................................................... 145

Figura 5.17 Inferencia de colocaciones para tulipanes....................................................... 146

Figura 5.18 Relaciones sintácticas y semánticas para bebidas........................................... 147

Figura 5.19 Inferencia de colocaciones para Coca-Cola.................................................... 148

Tabla 1.1 Modelo para verbos de primera conjugación: amar............................................. 26

Tabla 1.2 Modelo para verbos de segunda conjugación: comer........................................... 27

Tabla 1.3 Modelo para verbos de tercera conjugación: vivir ............................................... 27

Tabla 3.1 Marcos para palabras clave .................................................................................. 70

Tabla 3.2 Marcos para palabras relacionadas....................................................................... 71

Tabla 3.3 Formato de la base secundaria de modificadores ................................................. 75

Tabla 3.4 Papel de la palabra corriente.................................................................................75

Tabla 3.5 Valores de la parte de la oración .......................................................................... 76

Tabla 3.6 Valores para género.............................................................................................. 76

Tabla 3.7 Valores para número ............................................................................................ 76

Tabla 3.8 Desinencias para la clase del sustantivo............................................................... 77

Page 13: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

x

Tabla 3.9 Desinencias para la clase del adjetivo .................................................................. 77

Tabla 3.10 Desinencias para la clase del verbo .................................................................... 78

Tabla 3.11 Posición del adjetivo........................................................................................... 78

Tabla 3.12 Formato de la base secundaria de valencias verbales......................................... 82

Tabla 3.13 Desinencias para verbos en infinitivo y pronombre se....................................... 83

Tabla 3.14 Tiempos de conjugación del verbo..................................................................... 84

Tabla 3.15 Persona de conjugación ...................................................................................... 85

Tabla 3.16 Artículos ............................................................................................................. 85

Tabla 3.17 Formato de la base secundaria de valencias sustantivales.................................. 88

Tabla 3.18 Formato de la base secundaria de hipónimos / hiperónimos.............................. 94

Tabla 3.19 Tipo de concepto ................................................................................................ 94

Tabla 3.20 Valor de la parte de la oración............................................................................ 94

Tabla 4.1 Clases de inclinación para sustantivos ............................................................... 100

Tabla 4.2 Clases de inclinación para adjetivos................................................................... 100

Tabla 4.3 Clases de inclinación para verbos....................................................................... 100

Tabla 4.4 Diccionario de datos de la tabla Diccionario ..................................................... 111

Tabla 4.5 Diccionario de datos de la tabla modificadores: ColMod .................................. 111

Tabla 4.6 Diccionario de datos de la tabla de complementos sustantivales: ColSus.......... 112

Tabla 4.7 Diccionario de datos de la tabla de complementos verbales: ColVer ................ 112

Tabla 4.8 Diccionario de datos de l atabla de clases y subclases: Conceptos .................... 113

Page 14: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

Resumen

Existen pocos diccionarios o sistemas especializados que demuestran las combinaciones de palabras más frecuentes, son conocidos como diccionarios combinatorios y sólo existen para algunos idiomas: inglés, ruso, francés y algunos otros, pero para español no se conoce ninguno.

En estos diccionarios, para una palabra consultada, se muestran los rasgos morfológicos de la palabra y las palabras con que se combina frecuentemente. La presentación de las com-binaciones de palabras de algunos diccionarios no es muy buena ni la explicación de las relaciones sintácticas entre las palabras. Estos diccionarios son útiles para el aprendizaje del idioma y para resolver varias tareas de lingüística computacional.

Para la presentación correcta de las combinaciones de palabras (colocaciones), es necesario obtener las características morfológicas de los componentes de la colocación, así como los papeles sintácticos y semánticos que los vinculan.

En esta tesis se desarrollan las herramientas necesarias para la obtención de las característi-cas morfológicas y semánticas de cada componente de la colocación; se demuestra la orga-nización especial de las colocaciones en archivos que representan los papeles sintácticos y semánticos entre los componentes de la colocación.

Además, se desarrolla el sistema que demuestra las combinaciones de palabras y los dife-rentes papeles sintácticos y semánticos entre ellas. Una característica adicional del sistema es la capacidad de inferir colocaciones que no han sido explícitamente escritas en los archi-vos de entrada, pero que pueden ser generadas de alguna forma lógica.

Page 15: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

Abstract

There are few dictionaries or specialized systems that demonstrate the combinations of more frequent words, exist they are known as combinatorial dictionaries and they only exist for some languages: English, Russian, French and some other ones, but for Spanish none is known.

In these dictionaries, for a consulted word, the morphological features of the word and the words combines frequently are shown. The presentation of the combinations of words of some dictionaries is not good neither the explanation of the syntactic relationships among the words. These dictionaries are useful even the learning of the language and to solve sev-eral tasks of computational linguistic.

For the correct presentation of the combinations of words (collocations), it is necessary to obtain the morphological characteristics of the components of collocation, as well as the syntactic and semantic roles that link them.

In this thesis the necessary tools are developed for the obtaining of the morphological and semantic characteristics of each component of collocation; the special organization of the collocations is demonstrated in files that represent the syntactic and semantic roles among the components of collocation.

Also, the system is developed that demonstrates the combinations of words and the differ-ent syntactic and semantic roles among them. An additional characteristic of the system is the capacity to infer collocations that have not been written explicitly in the entrance files, but that they can be generated in some logical way.

Page 16: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje
Page 17: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

1

Capítulo 1. Introducción

En este capítulo describimos los alcances de esta tesis y la justificación de la misma. En la última sección del capítulo se presentan algunos aspectos fundamentales del lenguaje y algunas peculiaridades del idioma español.

La comunicación entre los seres humanos es fundamental para el desarrollo de la vida en sociedad y se realiza mediante el empleo del lenguaje o de distintos sistemas de comunica-ción. El lenguaje natural es uno de los aspectos fundamentales que ha influido en el com-portamiento humano. Gracias al lenguaje el hombre ha podido formar sociedades cada vez más complejas [13].

Existen muchos tipos de lenguajes en general como la pintura, la música, la mímica, los lenguajes de programación que utilizamos para comunicarnos con las computadoras, etc., pero indudablemente, el más importante es el lenguaje nombrado lenguaje natural.

La lengua o idioma, se diferencia de otros sistemas de comunicación porque es mucho más eficaz y preciso, además de ser exclusivo de los seres humanos. Es un producto de una con-vención social y constituye una herencia cultural. Las lenguas son sistemas que le permiten a los individuos entender y producir un número ilimitado de oraciones y mensajes, a partir de un número bastante limitado de signos y reglas.

La lengua la aprendemos desde niños por imitación de nuestros padres y de las personas que nos rodean. Para aprender una segunda lengua no es suficiente conocer las palabras de forma aislada de dicha lengua, sino también conocer las relaciones sintácticas entre las combinaciones de palabras que se vinculan (colocaciones).

Las relaciones sintácticas entre las combinaciones de palabras son, por ejemplo, país gran-de (sustantivo – adjetivo), muy grande (adverbio – adjetivo), trabajar fuertemente (verbo – adverbio), voceros del gobierno (sustantivo – sustantivo), etc. Estas combinaciones de pa-labras pueden unirse directamente o por medio de otras palabras funcionales (preposicio-nes) como en voceros del gobierno.

Las relaciones sintácticas mencionadas se describen en manuales usuales, pero para cada tipo de relación los pares concretos aparecen raramente en los diccionarios. Además, estas relaciones no son claras para un niño nativo en el proceso de aprendizaje del lenguaje ni

Page 18: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 1. INTRODUCCIÓN

2

para un extranjero sin entrenamiento especial. Por eso sólo se aprenden con el uso del len-guaje.

Entonces, el conocimiento de cómo combinar las palabras es de gran importancia para el aprendizaje del idioma y para realizar varias tareas de lingüística computacional: analizado-res sintácticos, desambiguación de sentidos de palabras, detección y corrección de errores semánticos, traducción automática, etc.

Existen pocos diccionarios que contemplan este tipo de relaciones. En la literatura son co-nocidos como Diccionarios Combinatorios. En general, contienen combinaciones de pala-bras que se encuentran con alta frecuencia en los textos, aunque sólo existen para algunos idiomas.

Para inglés, el BBI Dictionary [1] en su forma impresa cuenta con algunos centenares de combinaciones, el Oxford Collocations Dictionary [27] que promete contar con más de un millón de combinaciones y el sistema ARCS [18], en su forma para Internet, ofrece varios miles de combinaciones. Para ruso, el sistema CrossLexica [2], en su forma electrónica, cuenta con varios cientos de miles de combinaciones. Pero para español no existe ninguno de este tipo.

Otro tipo de diccionarios son los Explicativos Combinatorios [4], los que representan de una forma funcional y con un alto grado de complejidad, las relaciones dentro del dicciona-rio, pero en cantidad muy restringida (algunos centenares de palabras). Estos diccionarios sólo existen para algunos lenguajes (ruso, francés y algunos otros), pero no se conoce nin-guno de este tipo para español.

1.1 Justificación

Para el aprendizaje informatizado de una segunda lengua no es suficiente conocer el voca-bulario de palabras aisladas, sino también las relaciones sintácticas entre las combinaciones de palabras. Las formas más frecuentes en que se combinan las palabras se demuestran en los diccionarios combinatorios, existen para algunos idiomas, pero para español no se co-noce ninguno.

Por lo anterior y al ser el español la tercera lengua más hablada después del chino e inglés, con aproximadamente 400 millones de hablantes [20], es de gran interés desarrollar un re-curso lingüístico como el diccionario de colocaciones para resolver varias tareas de lingüís-tica computacional.

Page 19: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

OBJETIVOS

3

Para llevar acabo esto, son necesarias las herramientas que preparen la información de las colocaciones, es decir, los programas que obtengan las características morfológicas y se-mánticas de cada componente de las colocaciones, esto es, para poder presentarlas adecua-damente al usuario.

Este trabajo es importante porque forma parte de un proyecto mayor, apoyado por CGEPI-IPN: Un diccionario de colocaciones para español con enriquecimiento con la inferencia lógica; con registro CGEPI-IPN 20010767 dirigido por el Dr. Igor A. Bolshakov.

Contar con este tipo recursos lingüísticos, donde se demuestren las relaciones sintácticas y los pares concretos de combinaciones, son útiles para varios proyectos del Laboratorio de Lenguaje Natural como [22 y 25]; también son útiles para la enseñanza de idiomas [24].

1.2 Objetivos

Objetivos generales

1. Desarrollar las herramientas utilitarias que transformen los archivos con colocacio-nes de una forma primaria a una forma secundaria con todos los rasgos morfológi-cos y semánticos para cada componente de la colocación.

2. Desarrollar la aplicación que demuestre los diferentes papeles sintácticos y semánti-cos entre los componentes de la colocación.

Objetivos específicos

1. Recopilar las bases primarias de colocaciones para los diferentes enlaces sintácticos (modificadores, valencias verbales y valencias sustantivales) y enlaces semánticos (hipónimos e hiperónimos).

2. Desarrollar las utilerías que transformen las bases primarias de colocaciones a una forma secundaria con todas las características morfológicas y semánticas de cada componente de la colocación.

3. Desarrollar la utilería que compile las bases secundarias de colocaciones a dos ba-ses de datos. Una base, el diccionario general, que contiene las palabras únicas y la otra, la que contiene los enlaces entre palabras (las relaciones sintácticas y semánti-cas).

4. Desarrollar la interfaz que demuestre las colocaciones y los papeles sintácticos y semánticos entre sus componentes.

Page 20: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 1. INTRODUCCIÓN

4

1.3 Organización de la tesis

Esta tesis esta dividida en seis capítulos. El primer capítulo consiste de la parte introducto-ria y tiene la finalidad de establecer los objetivos y la justificación de este trabajo, así como describir algunas nociones fundamentales del idioma español.

En el capítulo dos se describen los antecedentes acerca de las colocaciones en general, al-gunas definiciones de ellas y el tratamiento que se les ha dado en los diccionarios para al-gunas lenguas como inglés, ruso y francés.

En el capítulo tres se presenta la estructura del sistema CrossLexica para español y las es-pecificaciones de los archivos para algunos tipos de colocaciones con relaciones sintácticas y semánticas.

En el capítulo cuatro se describe el método utilizado y el procedimiento para la obtención de los rasgos morfológicos de los componentes de las colocaciones. Se describen también las herramientas que se utilizaron en el desarrollo del sistema.

En el capítulo cinco se demuestran los resultados obtenidos del formateo de las colocacio-nes para cada tipo que maneja el sistema y se presenta la interfaz del sistema CrossLexica para español.

En el capítulo seis se muestran las conclusiones y las aportaciones de esta tesis. Adicional-mente, se mencionan algunas tareas futuras a ser consideradas.

En la última parte de la tesis se presentan los anexos, aquí se muestran las bases de coloca-ciones primarias y las bases formateadas con todos los rasgos morfológicos; se proporcio-nan también los archivos auxiliares (preposiciones, adverbios, excepciones de género, ex-cepciones de número, etc.) que se requieren para el formateo adecuado de las colocaciones.

Page 21: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

5

1.4 Nociones fundamentales del lenguaje

En los últimos años el procesamiento del lenguaje natural ha tenido gran interés. Hemos visto películas de ciencia ficción donde las computadoras pueden hablar, entendernos, en-tablar un diálogo e incluso expresar sentimientos [29]. Esto parece maravilloso, pero la realidad es otra: no se ha logrado todo esto con gran éxito. Existen muchos problemas en el lenguaje tales como la ambigüedad en las frases (decidir qué sentido de la frase es el más adecuado para tal o cual situación); generar combinaciones de palabras que sintácticamente son correctas, pero semánticamente incorrectas en un sentido pragmático; traducción auto-mática, etc. Todos estos problemas son analizados por la ciencia denominada lingüística computacional, cuya principal tarea es desarrollar programas de computadora para el proce-samiento de texto en lenguaje natural.

La lingüística computacional tiene sus bases en la lingüística general. La lingüística es la ciencia que estudia las lenguas en todos sus aspectos. Para su estudio, la lingüística se divi-de en diferentes niveles.

1.4.1 Niveles de descripción del lenguaje

Existen varios enfoques para estudiar y describir las lenguas y los cambios habidos en ellas. Típicamente, el lenguaje se divide en los siguientes niveles [3]:

• Fonología / Fonética • Morfología • Sintaxis • Semántica • Pragmática

Los niveles se diferencian únicamente por el enfoque que se le da al análisis del lenguaje.

1.4.1.1 Fonética y Fonología

Los hablantes de cualquier lengua articulan sonidos lingüísticos para formar las palabras. Los sonidos lingüísticos se producen a través de los órganos de fonación (labios, dientes, alvéolos, lengua, cuerdas vocales, etc.).

Un sonido puede presentar variaciones en el momento de articularse, debido a la influencia del sonido que le sigue o precede. Por ejemplo, la [n] (se representa un sonido entre corche-tes, [X]) de la palabra nube, se pronuncia, generalmente, como [m] en las siguientes pala-

Page 22: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

6

bras: invierno y envase. Estas distintas producciones de un mismo sonido se llaman alo-morfos.

La fonética estudia la producción de los sonidos lingüísticos, así como las diferentes reali-zaciones de los alomorfos.

La fonología se ocupa del estudio de los sonidos en unidades que provocan cambio de sig-nificado. Estas unidades se denominan fonemas. La fonología determina cuáles son los fo-nemas de una lengua y los organiza dentro de un sistema a partir de sus diferencias funda-mentales. Por ejemplo, los fonemas /n/, /s/, /t/ (un fonema se representa entre barras, /X/) son distintos, porque la presencia de uno u otro, en un mismo contexto, ocasiona cambio de significado: pana, pasa, pata.

1.4.1.2 Morfología

La morfología estudia la estructura interna de las palabras. Dentro de las tareas principales: delimita, define y clasifica las unidades del componente morfológico, las agrupa en sus respectivos paradigmas y explica la forma en que las unidades integrantes de la palabra se combinan para constituir su estructura interna. La morfología la estudiaremos a detalle en el punto 1.4.2.1 Morfología.

1.4.1.3 Sintaxis

La sintaxis estudia la estructura de las frases y la forma en que se relacionan las palabras. Para la representación de las relaciones de una oración son conocidos dos enfoques: el en-foque de constituyentes [3] y el de dependencias [5].

Enfoque de constituyentes

En este enfoque la estructura sintáctica indica la forma en que las palabras están relaciona-das unas con otras dentro de la oración, en el mismo la representación sintáctica del lengua-je se basa en la noción de una gramática libre de contexto (context-free grammar), la cual representa la oración en términos de componentes, frases que son subpartes de otras frases [30]. Estas representaciones son nombradas árboles de constituyentes. Por ejemplo, para la oración Juan compró un libro, usando la gramática 1, se genera el árbol de constituyentes que se muestra en la figura 1.1. Los símbolos NP (frase nominal), VP (frase verbal), ART (artículo), V(verbo), S(inicio de la frase), N(sustantivo) son las etiquetas de los nodos que aparentemente determinan las relaciones sintácticas entre los nodos.

Page 23: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NIVELES DE DESCRIPCIÓN DEL LENGUAJE

7

Gramática 1

1. S → NP VP 2. VP → V NP 3. NP → NAME 4. NP → ART N

5. NAME → Juan 6. V → compró 7. ART → un 8. N → libro

Figura 1.1 Ejemplo de árbol de constituyentes

En este enfoque se requiere especificar las reglas que definen la gramática.

Enfoque de dependencias

El enfoque de dependencias encuentra una descripción más rigurosa en la Teoría Significa-do ⇔ Texto (Meaning ⇔ Text Theory, MTT) propuesta por I. Mel’čuk [5]. En este enfo-que el conjunto de enlaces sintácticos entre las palabras representan la oración. Estos con-juntos de enlaces son llamados árboles de dependencia (dependency tree).

En los árboles de dependencia el orden de las palabras no es restricción alguna para la re-presentación. Por el contrario, en los árboles de constituyentes es importante el orden en que aparecen las palabras para su análisis. Por ejemplo, el orden de las palabras en español tienen mayor grado de libertad que el inglés, es decir, para la oración, el niño busca a su mama (sujeto (S), verbo (V), complemento (C)), puede rescribirse con diferente orden y aceptada sintácticamente, Busca a su mamá el niño (V, C, S), A su mamá busca el niño (C, V, S). Todas son correctas sintácticamente.

En los árboles de dependencia, las relaciones sintácticas mantenidas son de tipo binario. Estas relaciones son llamadas dependencias sintácticas y son representadas por flechas o

Page 24: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

8

por arcos con flechas. Por ejemplo, X → Y (la flecha indica la dependencia sintáctica) Y depende de X o recíprocamente X gobierna a Y. En términos de Mel’čuk, X es el goberna-dor sintáctico y Y es el dependiente sintáctico [5].

Los árboles de dependencia ponen mayor énfasis en la especificación detallada de cual-quier tipo de relación sintáctica entre dos elementos relacionados.

Por ejemplo, tenemos la siguiente oración y su árbol de dependencia.

El hombre es muy astuto

Figura 1.2 Ejemplo de árbol de dependencia

Las relaciones sintácticas para cada par de nodos se especifican como se muestra la figura 1.2.

El enfoque de dependencias se basa en la idea de que la sintaxis es casi completamente un componente de las capacidades de combinación y que las palabras cumplen ciertos reque-rimientos. El modelo para definir estos fenómenos es similar al de la química para formar las moléculas [31]. Las palabras tienen valencias, como los átomos de la química, que se usan para indicar con qué clase de palabras (sustantivo, verbo, etc) se pueden combinar y con cuántas a la vez. De esta manera se van formando estructuras más complejas.

Aunque las valencias se definen para todas las clases de palabras, son especialmente descri-tas para los verbos. Éstas tienen especial aplicación en la MTT y en especial en el Diccio-nario Explicativo Combinatorio (DEC) en lo que se llama patrones de rección [7] o esque-ma de régimen [6] (government pattern).

Los patrones de rección describen las valencias para cualquier clase de palabras, así como la correspondencia entre las valencias semántica y sintáctica. Los patrones de rección des-criben el conocimiento lingüístico que no se basa en la lógica y debe describir de forma

Page 25: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NIVELES DE DESCRIPCIÓN DEL LENGUAJE

9

manual la colección completa de todos los posibles objetos de las palabras especificas [7] (verbos, sustantivos o adjetivos).

Los patrones de rección para verbos, se representan por medio de una tabla en la cual se especifican todas las posibles valencias. La tabla es precedida con una fórmula que expone la semántica de la situación reflejada por el verbo con todas sus valencias. Véase Capítulo 2, Figura 2.5 Ejemplo de entrada del DEC (francés).

En este nivel del lenguaje se pretende describir todo el posible conocimiento lingüístico de la estructura de la oración, para facilitar el análisis del siguiente nivel.

1.4.1.4 Semántica

Estudia el significado de los signos lingüísticos, esto es, las palabras, las expresiones y las oraciones. La finalidad de la semántica es establecer el significado de los signos dentro del proceso que asigna tales significados. Para esto se debe estudiar qué signos existen y cuáles de ellos tienen significación dentro de una realidad.

Mediante la construcción de sistemas de reglas semánticas que sirvan para cualquier len-guaje, la semántica intenta responder a preguntas como: ¿A qué realidad se refiere cuando se habla de significado?, ¿Qué condiciones (además de las meramente sintácticas) debe reunir una palabra o una frase para ser significativa?, ¿Se puede atribuir algún significado a expresiones lingüísticas tales como los números primos tienen alergia, o los pensamientos están resfriados?.

1.4.1.5 Pragmática

La pragmática ha sido definida como la disciplina que estudia el discurso, es decir, el habla, el acto de hablar o de escribir como un acto humano que se dirige a la producción de ciertos efectos. Su campo de interés es más amplio que el mero análisis del discurso. La prag-mática trata el origen de los signos, de sus usos y de los efectos que producen en la situa-ción en la cual aparecen.

Cuando una persona (el emisor) dice algo (emite un mensaje) a otra persona (el receptor), intenta siempre producir algún efecto en este último, se busca influir en él. Esta influencia a veces se realiza y a veces no, depende de que el mensaje llegue al destino deseado y el emi-sor comparta el mismo código lingüístico que el receptor.

Page 26: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

10

Hay muchas formas de influir en el otro. El emisor puede tratar de informar, de preguntar, de pedir, de insultar, de persuadir, de dominar, de halagar, de ordenar, de despreciar, de en-gañar, de entretener.

Por ejemplo, si alguien dice a otra persona ¿me podría decir qué hora es?. Esta expresión intenta influir en el receptor del mensaje a que actúe (o se abstenga de actuar) de cierta manera. El oyente puede indicar la hora, que es lo que se pide, o simplemente responder de manera afirmativa a la pregunta sin indicar la hora o ambas cosas.

Otro ejemplo, si queremos comunicar un sentimiento o emoción por algún hecho o aconte-cimiento. Por ejemplo, ¡por Dios!, intenta expresar la sorpresa por algún acontecimiento dentro del discurso.

Todas las relaciones entre las oraciones o frases y el mundo externo es el estudio de la pragmática.

1.4.2 El español gramaticalmente

La gramática estudia el sistema de la lengua. Se define la gramática como la parte de la lingüística que estudia el conjunto de reglas de una lengua para formar las palabras y com-binarlas para formar oraciones.

Las partes fundamentales de la gramática son la morfología y la sintaxis [11].

1.4.2.1 Morfología

Como se mencionó, la morfología estudia cómo se forman las palabras y qué modificacio-nes sufren para indicar los distintos accidentes gramaticales de género, número, tiempo, modo. Establece, además, las clases de palabras o categorías gramaticales: sustantivo, adje-tivo, verbo, pronombre, artículo, adverbio, preposición y conjunción.

Las palabras están formadas por pequeñas unidades que tienen significado. Estas unidades se llaman morfemas, las que no necesariamente coinciden con las sílabas:

niñ-o cas-a roj-os com-ió

Las palabras anteriores tienen dos morfemas:

Page 27: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

MORFOLOGÍA

11

a) El morfema raíz, llamado lexema: niñ-, cas-, roj-, com-. Éste se mantiene invaria-ble, generalmente, y porta el significado básico de la palabra.

b) El morfema flexivo o derivativo, llamado también desinencia: -o, -a, -os, -ió. Éste siempre varía y agrega el significado de género, número, tiempo, etc.

Los procesos morfológicos más importantes que presentan las palabras son tres: flexión, derivación y composición [19].

1.4.2.1.1 Flexión

Es el proceso mediante en el cual se agrega una determinada desinencia a un morfema raíz, para indicar las variaciones de género, número, tiempo y modo, además, para formar au-mentativos, diminutivos, despectivos. Por ejemplo, la palabra mesa se le puede agregar la desinencia del plural –s: mesas. El verbo comer se puede flexionar para indicar el modo, tiempo, número y persona: com-imos; comer y comimos son formas verbales.

No todas las palabras tienen este tipo de variación. Las que lo presentan son:

1) Los sustantivos, adjetivos, artículos y pronombres pueden tener las desinencias de género y número. Por ejemplo.

Morfemas de género.

escritora sustantivo femenino mexicano adjetivo masculino una artículo femenino ella pronombre femenino

Morfemas de número.

lápices sustantivo plural verdes adjetivo plural Las artículo plural Ellos pronombre plural

Para el singular, en español, no se emplea ninguna desinencia: lápiz, verde, etc.

2) A los sustantivos y adjetivos, se les puede agregar morfemas para formar aumenta-tivos, diminutivos o despectivos. Por ejemplo:

Page 28: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

12

Aumentativos

casa casona grande grandote

Diminutivos

casa casita pequeño pequeñito

Despectivos

casa casucha delgado delgaducho

3) Los adjetivos pueden expresar grado superlativo.

fácil facilísimo dulce dulcísimo

4) Los verbos pueden tener morfemas para indicar modo, tiempo, persona y número (véase 1.4.2.2.3 El verbo y su papel).

comprar compraste regresar regresará

En la primera palabra, la desinencia expresa el modo indicativo, tiempo pasado, se-gunda persona y número singular. En la segunda, modo indicativo, tiempo futuro, ter-cera persona y singular.

Las preposiciones, las conjunciones y los adverbios, son palabras invariables desde el punto de vista de la flexión. Sin embargo, en el lenguaje coloquial de algunas regiones del mundo, es posible encontrar flexión en algunos adverbios: ahora – ahorita, cerca – cerquita, luego – lueguito.

1.4.2.1.2 Derivación

Es el procedimiento que consiste en agregar un morfema derivativo a un morfema raíz para formar una nueva palabra. Es muy común que los procesos de derivación provoquen cam-bio en la categoría de las palabras y en su significado. Por ejemplo:

Page 29: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

MORFOLOGÍA

13

1) El morfema –ción se agrega a raíces verbales para formar sustantivos.

traducir traducción producir producción retener retención

2) El morfema –ble se agrega a raíces verbales para formar adjetivos.

lavar lavable comprar comprable recomendar recomendable

3) El morfema –mente se agrega a raíces adjetivas para formar adverbios.

fácil fácilmente rápido rápidamente loco locamente

1.4.2.1.3 Composición

Es el procedimiento que consiste en unir dos o más palabras para formar una nueva. En la composición pueden participar casi todas las categorías gramaticales. Algunas de las com-binaciones más comunes son las siguientes:

1) sustantivo + sustantivo.

boca + calle bocacalle agua + miel aguamiel compra + venta compraventa

2) verbo + sustantivo.

limpiar + botas limpiabotas sacar + puntas sacapuntas limpiar + parabrisas limpiaparabrisas

3) adjetivo + adjetivo.

claro + oscuro claroscuro agrio + dulce agridulce

Page 30: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

14

4) sustantivo + adjetivo.

boca + abierto boquiabierto pelo + rojo pelirrojo

1.4.2.2 Sintaxis

Las palabras pueden agruparse en categorías gramaticales dependiendo de su estructura, dependiendo de la función que desempeñen dentro de la oración y de su significado. Las categorías que existen en el español son las siguientes: sustantivo, adjetivo, verbo, adver-bio, pronombre, artículo, preposición y conjunción.

1.4.2.2.1 El sustantivo y su papel

Los sustantivos son palabras que nombran a seres tanto materiales como abstractos. Sirven para designar personas, animales o cosas que tienen existencia propia, ya sea por la realidad o por abstracción [8].

Clasificación de los sustantivos

Los Sustantivos se clasifican respecto a varios criterios:

a) Sustantivos comunes y propios

Sustantivos comunes. Identifican seres no únicos. Por ejemplo, país, hombre, plane-ta, ciudad, lago, río, etc.

Sustantivos propios. Señalan seres determinados. Su función es de manera identifi-cativa. Son sustantivos propios los nombres de persona, los apellidos, los nombres de lugares (topónimos), etc. En general, cualquier realidad declarada única y bauti-zada por el hombre. Por ejemplo, México, España, Rusia, Japón, Venus, Marte, etc.

b) Sustantivos concretos y abstractos

Sustantivos concretos. Designan seres o cosas reales que son tangibles. Por ejemplo, persona, animal, perro, gato, casa, manzana, agua, etc.

Sustantivos abstractos. Son los que nombran a una cualidad sólo aprehensible por el intelecto. Por ejemplo, belleza, habilidad, torpeza, secreto, ansia, sabiduría, etc.

Page 31: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL SUSTANTIVO

15

c) Sustantivos individuales y colectivos

Sustantivos individuales. Nombran una sola entidad cuando están en forma singular. Por ejemplo, botella, libro, aparato, cenicero, mujer, etc.

Sustantivos colectivos. Estando en singular, nombran un conjunto de seres. Por ejemplo, enjambre, rebaño, ejército, jauría, vestimenta, gente, tropa, etc.

d) Sustantivos animados e inanimados

Sustantivos animados. Nombran seres considerados vivientes. Por ejemplo, perro, gato, hombre, persona, niño, etc.

Sustantivos inanimados. Nombran seres inertes. Por ejemplo, papel, cristal, piedra, cigarro, carta, etc.

e) Sustantivos contables e incontables

Sustantivos contables. Señalan realidades que se pueden contar. Por ejemplo, cinco niños, tres rocas, trece pesos, etc.

Sustantivos incontables. Señalan realidades que no se pueden contar, salvo al refe-rirse a clases o variedades distintas. Por ejemplo, leche, humor, aire, humo, basura, etc.

Los sustantivos contables se combinan con cuantificadores plurales sin alterarse semánti-camente. En cambio, los incontables solamente pueden combinarse con cuantificadores en singular sin modificar su significado. Sólo admiten numerales cardinales o cuantificadores plurales cuando indican una clase o modalidad.

Por ejemplo:

tres vasos de leche muchos vasos de leche Los humos emitidos por los ácidos suelen ser nocivos

Existen casos en los que sustantivos incontables tienen distintos significados o matices en plural. Por ejemplo:

aires de grandeza malos humos aguas internacionales

Page 32: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

16

1.4.2.2.1.1 Categorías gramaticales del sustantivo

Los sustantivos son palabras variables: presentan distintas desinencias para indicar las cate-gorías de género y número; también para formar aumentativos, diminutivos y despectivos.

Género

En español los sustantivos sólo pueden ser masculinos o femeninos. Si se refieren a perso-nas o algunas especies de animales, el género alude a la calidad de mujer o hembra y a la de varón o macho. Por ejemplo.

1. La leona cuida mucho a sus cachorros (sustantivo femenino)

2. El oso polar es de color blanco (sustantivo masculino)

Los sustantivos que se refieren a cosas también tienen género, masculino o femenino, aun-que éste no corresponda a una distinción sexual. Se trata de las palabras que adoptaron un género desde los orígenes de la lengua española. Por ejemplo.

1. La luz de la televisión me molesta (sustantivo femenino)

2. El mes pasado fui a Cancún (sustantivo masculino)

Generalmente, la distinción de género se marca mediante el uso de la desinencia –o, para el masculino, y –a para el femenino, pero existen excepciones a esta regla como las siguien-tes:

a) Palabras masculinas terminadas en –a: problema, sistema, esquema, drama, etc.

b) Palabras femeninas terminadas en –o: mano, soprano, foto, etc.

Algunas desinencias comunes para identificar el género son las siguientes:

1. Se consideran palabras masculinas las terminadas en: tor, sor, dor, or, ma, án, ín, és, ó, e, é, l, x, n, y, o.

Por ejemplo, matador, imán, invasor, acné, café, buró, ademán, peón, latex, buey, aerosol, etc.

2. Se consideran palabras femeninas las terminadas en: ión, tad, tud, dad, dura, isa, a, á, eza, ina, triz, ez, esis, osis, itis, sis, z, ed.

Por ejemplo, canción, bondad, armadura, actriz, avidez, celulitis, catequesis, dosis, red, etc.

Page 33: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL ADJETIVO

17

En español hay algunos sustantivos que no presentan variación para marcar el género, por lo que aceptan ser acompañados tanto por el artículo masculino como por el femenino. Por ejemplo.

el mar la mar el artista la artista el mártir la mártir

Número

El número de los sustantivos puede ser singular o plural. El singular se refiere a una perso-na, animal o cosa y carece de desinencia específica. El plural se refiere a dos o más cosas y los morfemas característicos son -s y –es, de acuerdo con las siguientes reglas:

1) Se añade –s a los sustantivos:

• Terminados en vocal no acentuada.

Singular Plural pera peras calle calles batalla batallas

• Terminados en –e tónica

Singular Plural café cafés pie pies té tés

• Algunos sustantivos de origen extranjero

Singular Plural complot complots coñac coñacs jet jets

2) Se añade –es a los sustantivos:

• Terminados en consonante.

Singular Plural comedor comedores

Page 34: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

18

Singular Plural reloj relojes pez peces

Los sustantivos terminados en -z hacen el plural con la desinencia –ces.

• Terminados en vocal acentuada.

Singular Plural rubí rubíes bambú bambúes tabú tabúes

Existen excepciones para la regla. Por ejemplo.

Singular Plural Sofá sofás mamá mamás papá papás menú menús

Las excepciones más comunes en la formación del plural son:

• Los sustantivos cuya forma singular terminan en –s, no añaden ninguna desinencia para el plural, el cual se indica con el artículo.

Singular Plural el lunes los lunes la tesis las tesis la crisis las crisis

• Los sustantivos que se emplean sólo en su forma plural.

Singular Plural - nupcias - creces - víveres

1.4.2.2.1.2 Sustantivos aumentativos, diminutivos y despectivos

Los sustantivos pueden flexionarse para indicar aumento o disminución en el significado, así como para expresar burla o desprecio.

Page 35: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL ADJETIVO

19

Aumentativos. Las desinencias más comunes son: -on, -ona, -azo, -aza, -ote, -ota.

Palabra Aumentativo hombre hombrón casa casona libro librote

Diminutivos. Las desinencias más comunes son: -ito, -ita, -illo, -illa, -ico, -ica, -in, -cito, -cita.

Palabra Diminutivo dibujo dibujito guitarra guitarrita mujer mujercita maceta macetita

Despectivos. Las desinencias más comunes son: -uza, -aco, -zuelo, -zuela, -ucho, -ucha; en ocasiones, -illo, -illa.

Palabra Despectivo gente gentuza escritor escritorzuelo papel papelucho mujer mujerzuela

1.4.2.2.1.3 Funciones sintácticas del sustantivo

Las funciones sintácticas del sustantivo podemos catalogarlas en las siguientes [12]:

Como sujeto. Este es un uso esencialmente sustantivo, puesto que toda palabra, frase u oración que sirva de sujeto queda sustantivada por este hecho. A los conceptos sustantivos corresponde exclusivamente la función de sujeto.

Por ejemplo.

1. El amor breve es complicado

2. Los niños sueñan despiertos

3. El fumar puede causar la muerte

Como atributo. La significación de atributo es completamente adjetiva. El sustantivo que desempeña el papel de atributo se considera como el portador de un conjunto de cualidades,

Page 36: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

20

y éste queda adjetivado. El atributo sustantivo clasifica al sujeto dentro de un grupo respec-to a sus cualidades. Por ejemplo:

1. Juan era soldado

2. El vecino es médico

Los sustantivos Juan y el vecino adquieren las cualidades de los atributos soldado y médico respectivamente.

Como complemento del verbo. Este papel es completamente sustantivo, tanto si se trata del complemento directo, indirecto o circunstancial. Toda palabra, frase u oración que ten-ga el papel de complemento del verbo, está necesariamente sustantivada, es decir, el verbo sólo puede completar su significación en conceptos sustantivos.

1. El hombre miró el reloj

2. Cambiaba frecuentemente las flores de los jarrones

3. Me corto el brazo si ese reloj se atrasa un minuto

Como complemento de otro sustantivo. Un sustantivo puede determinar, aclarar, o preci-sar el significado de otro sustantivo, ya sea juntándose a manera de atributo calificativo, El rey soldado, o relacionándose por medio de una preposición, puente de hierro. La relación entre dos sustantivos se expresa más frecuentemente por medio de una preposición. Todas las preposiciones pueden usarse con los sustantivos complementarios. Árbol sin fruto, café con leche, lucha por la libertad, etc.

Como complemento de un adjetivo. La cualidad que expresa un adjetivo respecto al sus-tantivo que califica, puede limitarse mediante otro sustantivo precedido de una preposición. Por ejemplo, el maestro es sabio, en este caso se atribuye el adjetivo sabio de manera gene-ral, pero podía limitarse a el maestro es sabio en matemáticas. De esta manera los sustanti-vos con preposición determinan a los adjetivos: amable con las damas, apto para el estu-dio, humilde ante los hombres, etc.

1.4.2.2.2 El adjetivo y su papel

Un adjetivo necesita referirse a un sustantivo, el cual añade notas que lo determinan o pre-cisan. La función del adjetivo es determinar o calificar al sustantivo, cualquiera que sea el oficio que éste desempeñe en la oración.

Page 37: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL ADJETIVO

21

1.4.2.2.2.1 Posición del adjetivo respecto al sustantivo

El adjetivo en español, como es sabido, puede preceder o seguir al sustantivo a que se refie-re, pero el valor expresivo no es el mismo en uno u otro caso. Bello [12] pone atención en el significado lógico de la anteposición y de la aposición. Bello advirtió que el adjetivo pospuesto determina o restringe la extensión del sustantivo. Si se dice un edificio hermoso se excluyen todos los edificios que no sean hermosos. En cambio, en un hermoso edificio se añade al sustantivo una cualidad, pero no la limita.

Anteposición del adjetivo

El adjetivo antepuesto supone por parte del hablante mayor atención hacia la cualidad que hacia el sustantivo: verde prado, altas torres, buena persona, etc.; matizan subjetivamente la expresión envolviendo al sustantivo que sigue.

Posposición del adjetivo

El adjetivo pospuesto se suma a la representación previa del objeto. Expresa una cualidad relativamente característica, pero no la realza. Por ejemplo, prado verde, torres altas, per-sona buena, etc. Se tiene un carácter objetivo.

La preferencia por una u otra posición, cuando las condiciones lógicas no exigen coloca-ción fija, es sólo un elemento de caracterización de estilo.

1.4.2.2.2.2 Adjetivos determinativos

Los adjetivos determinativos se anteponen generalmente al sustantivo, por ejemplo, veinte vacas, esta casa, muchos hombres, etc.

Existen algunas excepciones:

a) Los numerales cardinales, cuando se usan como ordinales, van siempre pospuestos, como el siglo XXI, el día 13, Luis XVI, etc.

b) Los ordinales pueden anteponerse o posponerse, ‘el primer día’ o ‘el día primero’, ‘la segunda columna’ o ‘la columna segunda’, etc.

c) El partitivo medio va antepuesto cuando no hay otro numeral y pospuesto cuando existe otro numeral,’ media hora’ y ‘dos horas y media’, respectivamente.

d) Los demostrativos y posesivos van comúnmente antepuestos, pero se posponen cuando están acompañados del artículo u otra palabra determinativa, ‘la casa esa’,

Page 38: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

22

‘el día aquel’, etc. Los demostrativos este y ese se usan también de forma despecti-va: ‘el hombre ese’, ‘la mujer esta’, etc.

Son adjetivos demostrativos: este, esta, ese, esa, aquel, aquella.

Son adjetivos posesivos: mío, mía, tuyo, tuya, suyo, suya, nuestro, nuestra, vuestro, vuestra.

Existen algunos adjetivos que cambian su significación según el lugar que ocupan con res-pecto al sustantivo y que por tanto tienen una colocación fija.

cierta noticia (noticia indeterminada) noticia cierta (noticia verídica)

pobre hombre (un hombre desdichado) hombre pobre (hombre con necesidades)

simple soldado (un soldado únicamente) soldado simple (un soldado tonto)

1.4.2.2.2.3 Adjetivos apocopados

El fenómeno de apocopado consiste en suprimir uno o varios sonidos al final de ciertos adjetivos cuando se anteponen al sustantivo. Algunos de los adjetivos que tienen forma apocopada son los siguientes:

Forma completa Apócopealguno algún bueno buen malo mal ciento cien cualquiera cualquiergrande gran ninguno ningún primero primer santo san tercero tercer

1.4.2.2.2.4 Categorías gramaticales del adjetivo

Los adjetivos son palabras variables. Presentan distintas desinencias para indicar las catego-rías de género y número; también pueden formar aumentativos, diminutivos y despectivos.

Page 39: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL ADJETIVO

23

Categoría de género

Los adjetivos pueden ser femeninos o masculinos y deben concordar con el género del sus-tantivo al que acompañan. Por ejemplo, niño bonito y niña bonita, vecino atento y vecina atenta.

a) Los adjetivos masculinos, generalmente, tienen terminación –o. Por ejemplo, interesa-do, feo, amarillo, absoluto, etc.

b) Los adjetivos femeninos, generalmente, tienen terminación –a. Por ejemplo, interesa-da, fea, amarilla, absoluta, etc.

c) Otros adjetivos se consideran masculinos si terminan en: -tor, -dor, -or, -án, -ín. Por ejemplo, protector, bebedor, holgazán, saltarín. Para generar el correspondiente feme-nino se agrega la desinencia –a, protectora, bebedora, etc.

d) Los adjetivos que no presentan variación, generalmente, presentan las terminaciones –nte, -ble, -ista, -e, -ata, -ita, -al, -il, -az y los que terminan en consonante, -n, –s, -l. Por ejemplo, estudiante, amable, altruista, fundamental, israelita, audaz, sutil, joven, etc.

Categoría de número

Los adjetivos sólo pueden estar en singular o plural. Siempre concuerdan con el sustantivo al que acompañan. Por ejemplo, árbol seco y árboles secos, estrella luminosa y estrellas luminosas, etc.

a) Generalmente, al adjetivo se le agrega la desinencia –s para formar el plural. Por ejem-plo, rojo – rojos, sucia – sucias, brillante – brillantes, etc.

b) Cuando el adjetivo singular termina en consonante, se agrega la desinencia –es para el plural. Por ejemplo, azul – azules, fácil – fáciles, útil – útiles, etc.

c) Los adjetivos terminados en –z, forman el plural con –ces. Por ejemplo, feroz - feroces, audaz – audaces, capaz – capaces, etc.

d) Son escasos los adjetivos que únicamente tienen forma plural. Estos adjetivos no tienen variación. La misma forma se usa para el singular como para el plural. Por ejemplo, isósceles, rubiales, etc.

triángulo isósceles triángulos isósceles

Page 40: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

24

1.4.2.2.2.5 Adjetivos aumentativos, diminutivos y despectivos

Los adjetivos pueden flexionarse para indicar aumento o disminución en el significado, así como para expresar burla o desprecio, despectivos. Las desinencias que suelen usarse son las mismas que se emplean para el sustantivo. La siguiente tabla muestra algunos ejemplos.

Palabra Aumentativo Diminutivo Despectivo flaco flacote flaquito flacucho soltero solterote solterito solterillo o solterón viejo viejote viejito viejillo

1.4.2.2.3 El verbo y su papel

El verbo es la clase de palabra que expresa acciones, actitudes, cambios, movimientos de seres o cosas. Siempre se refiere a las actividades que realizan o padecen las personas o animales, las situaciones o estados en que se encuentran, los cambios que sufren los obje-tos, las manifestaciones de diversos fenómenos de la naturaleza.

La manera que se emplea para enunciar los verbos es la forma infinitiva; ésta no expresa modo, tiempo, número ni persona. Los verbos se agrupan según su terminación y siguen el paradigma de conjugación según ésta. Tenemos tres formas –ar, –er y –ir. Por ejemplo, amar, caminar, etc. pertenecen a la primera forma; comer, correr, etc. pertenecen a la se-gunda forma; vivir, salir, etc. pertenecen a la tercera forma.

El verbo presenta variaciones en sus desinencias para indicar la persona que realiza la ac-ción, el número de la persona, así como el modo y tiempo en que se realiza. Además, se distingue en el verbo un morfema invariable llamado raíz. Por ejemplo, caminamos, pre-senta las siguientes características:

Camin- Lexema, aporta el contenido semántico de la palabra.

-amos Indica, primera persona del plural, modo indicativo y tiempo presente.

1.4.2.2.3.1 Categorías gramaticales

En los verbos es posible identificar un morfema invariable llamado raíz y un morfema va-riable que expresa las diferentes categorías: persona, número, modo, tiempo.

Page 41: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL VERBO

25

1.4.2.2.3.1.1 Persona y número

Mediante una desinencia, los verbos marcan la persona gramatical que realiza la acción, sea singular o plural.

Singular Plural Primera persona (yo) camin-o (nosotros) camin-amos Segunda persona (tú) camin-as

(ústed) camin-a (vosotros/as) camin-áis (ustedes) camin-an

Tercera persona (él, ella) camin-a (ellos/as) camin-an

Las formas verbales de tercera persona singular y plural se emplean también con los pro-nombres de segunda persona, usted y ustedes, respectivamente.

1.4.2.2.3.1.2 Modo

Con el modo se expresa el punto de vista relativo ante la acción verbal que se enuncia. En español existen tres modos: indicativo, subjuntivo e imperativo [11].

El modo indicativo se usa, generalmente, para referir hechos reales, ya sea en el tiempo presente, pasado o futuro. Por ejemplo.

Los buitres planean como siempre sobre prometedoras agonías

El cantor va por el mundo sonriente o meditabundo

Descansaremos en las playas orientales

El modo subjuntivo se usa, generalmente, para expresar una acción posible, de deseo, de creencia, de duda. Por ejemplo.

Quiero que Jacinta cocine

Siempre temí que pasara esto

No sé si haya terminado el trabajo

El modo imperativo expresa súplica, mandato, o ruego. El imperativo sólo tiene las formas de segunda persona, singular y plural. Por ejemplo.

Apaga la luz

Escuchen ese ruido

Caminen aprisa

Page 42: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

26

1.4.2.2.3.1.3 Tiempo

Señala el momento en que se realiza la acción: los tiempos básicos son presente, pasado y futuro.

Los tiempos verbales pueden ser simples o compuestos. Los primeros se forman a partir de la raíz del verbo, añadiendo una desinencia específica. Por ejemplo.

cant-o cant-é cant-aré

Para formar los tiempos compuestos se utiliza el verbo haber como auxiliar conjugado y el participio pasado del verbo de que se trate. Por ejemplo.

he cantado hube cantado habré cantado

Los verbos regulares son los que siguen modelos de conjugación. Los terminados en –ar siguen el modelo del verbo amar (Tabla 1.1), los terminados en –er, siguen el modelo del verbo comer (Tabla 1.2), y los terminados en –ir, siguen el modelo del verbo vivir (Tabla 1.3).

1.4.2.2.3.2 Modelos de conjugación

Se presenta a continuación los modelos de conjugación de los verbos regulares, en los tiempos simples del modo indicativo [14].

Tabla 1.1 Modelo para verbos de primera conjugación: amar

TIEMPOS SIMPLES Persona Presente Pasado Futuro Copretérito Pospretérito yo am-o am-é am-aré am-aba am-aría tú usted

am-as am-a

am-aste am-ó

am-arás am-ará

am-abas am-aba

am-arías am-aría

él / ella am-a am-ó am-ará am-aba am-aría nosotros am-amos am-amos am-aremos am-ábamos am-aríamos vosotros ustedes

am-áis am-an

am-asteis am-aron

am-areis am-arán

am-abais am-aban

am-aríais am-arían

ellos am-an am-aron am-arán am-aban am-arían

Page 43: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL VERBO

27

Tabla 1.2 Modelo para verbos de segunda conjugación: comer

TIEMPOS SIMPLES Persona Presente Pasado Futuro Copretérito Pospretérito yo com-o com-í com-eré com-ía com-ería tú usted

com-es com-e

com-iste com-ió

com-erás com-erá

com-ías com-ía

com-erías com-ería

él / ella com-e com-ió com-erá com-ía com-ería nosotros com-emos com-imos com-eremos com-íamos com-eríamos vosotros ustedes

com-éis com-en

com-isteis com-ieron

com-eréis com-erán

com-íais com-ían

com-eríais com-erían

ellos com-en com-ieron com-erán com-ían com-erían

Tabla 1.3 Modelo para verbos de tercera conjugación: vivir

1.4.2.2.3.3 Clases de verbos

Los verbos que no siguen los modelos anteriores se consideran irregulares, pues presentan variaciones en su conjugación.

En general, no se consideran irregularidades los cambios de acentuación. Tampoco son irregularidades los cambios ortográficos que sufren algunos verbos [14]. Por ejemplo:

1) La letra –c-, con sonido fuerte, se escribe –qu- ante -e.

indicar indique replicar replique

TIEMPOS SIMPLES Persona Presente Pasado Futuro Copretérito Pospretérito yo viv-o viv-í viv-iré viv-ía viv-iría tú usted

viv-es viv-e

viv-iste viv-ió

viv-irás viv-irá

viv-ías viv-ía

viv-irías viv-iría

él / ella viv-e viv-ió viv-irá viv-ía viv-iría nosotros viv-imos viv-imos viv-iremos viv-íamos viv-iríamos vosotros ustedes

viv-ís viv-en

viv-isteis viv-ieron

viv-iréis viv-irán

viv-íais viv-ían

viv-iríais viv-irían

ellos viv-en viv-ieron viv-irán viv-ían viv-irían

Page 44: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

28

2) La letra –g-, con sonido suave, se escribe –gu- ante -e.

pagar pague regar regué

3) La letra –z-, se escribe –c- ante-e.

rozar roce agilizar agilice

4) La letra –c- y –g-, se escribe –z- y –j-, respectivamente, ante –a y -o.

ejercer ejerza zurcir zurzo recoger recoja fingir finjo

5) La letra -u- de los verbos terminados en -guir- se pierde ante -a y -o.

distinguir distinga distingo perseguir persiga persigo

Verbos irregulares son aquellos que, al flexionarse, presentan alteraciones en su raíz o en su terminación, es decir, no siguen la conjugación del modelo al que pertenecerían por su desinencia de infinitivo, como amar, comer, o vivir.

Son pocos los verbos que presentan irregularidades tales como las de ser o ir, que tienen varias raíces, y por lo tanto tienen formas muy diversas como las siguientes:

ser soy seré es era fui fuera

ir vas van iba ibas fui fuera

Algunas de las irregularidades más comunes se enlistan a continuación:

1) Diptongación. En ocasiones, las vocales -i- y -e- diptongan en -ie- y las vocales -o y -u en -ue-. Por ejemplo, acertar, calentar, fregar, comenzar, confesar, defender, encender, extender, gobernar, manifestar, merendar, almorzar, mostrar, mover, oler, probar, resolver, soñar, volar, volver, etc.

adquirir adquiero poder puedo pensar pienso jugar juego

Page 45: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL VERBO

29

2) Cambio de una vocal. Las vocales -e y -o cambian a -i y -u, respectivamente. Por ejemplo, vestir, competir, concebir, elegir, freír, medir, pedir, reír, rendir, seguir, teñir, etc.

pedir pido poder pude concebir concibo morir murió

3) Sustitución de una letra por otra, -c, por -g o -j.

hacer haga satisfacer satisfaga aducir adujo conducir conduje

4) Adición de una letra, -d, -z o -g.

poner pondré tener tendré nacer nazco parecer parezco poner pongo

5) Modificación de dos o más letras.

decir diga saber sepa caber quepa traer traiga

Verbos defectivos. Son los verbos que sólo se conjugan en algunas formas y carecen de otras. La mayoría de ellos sólo tienen la conjugación para la tercera persona, debido a su significado. Por ejemplo.

atañer atañe atañen acontecer acontece acontecen concernir concierne conciernen

El verbo abolir también es defectivo porque no se conjuga en todos los tiempos y personas.

Page 46: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

30

Hay otros verbos defectivos de uso frecuente: balbucir, balbucí; agredir, agredió; abolir, abolió; transgredir, transgredió; soler, suele, solía, solió.

Verbos Impersonales. Son los verbos que sólo se conjugan en tercera persona del singu-lar, en todos los tiempos, porque no tienen un sujeto determinado; se refieren a fenómenos meteorológicos. Por ejemplo, llover, nevar, amanecer, anochecer, etc.

Sin embargo, cuando el verbo se emplea en sentido figurado es posible atribuirles un sujeto, con lo que pierden el sentido de impersonalidad. Por ejemplo.

Llovieron piedras

Su vida anocheció demasiado pronto

1.4.2.2.3.4 Formas no personales del verbo

Las formas no personales del verbo no presentan variación para indicar persona, tiempo ni modo. Son el infinitivo, gerundio y participio.

1) Infinitivo

Es el nombre del verbo, es la expresión de la acción verbal. Las terminaciones son las ya mencionadas: -ar, -er e -ir. Por ejemplo, ordenar, colgar, moler, asistir, etc.

El infinitivo admite uno o dos pronombres enclíticos:

golpear golpearte golpearnos golpearse golpeárselos sostener sostenerme sostenerla sostenerse sostenérselos regir regirlo regirnos regirse regírselos

2) Gerundio

Expresa una acción continuada, en progreso. Sus terminaciones son -ando, -iendo.

golpear golpeando sostener sosteniendo asistir asistiendo

Page 47: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL VERBO

31

De la misma forma que el infinitivo, el gerundio acepta uno o dos pronombres enclíticos:

dar dándole dándome dándonoslo temer temiéndote temiéndose temiéndoselo medir midiéndonos midiéndola midiéndoselos

3) Participio

Expresa un acción ya realizada. Sus terminaciones son -ado, -ido y las irregulares -to, -so, -cho.

calcular calculado salir salido escribir escrito decir dicho

Los participios, sí marcan género y número. Se emplean en la formación de perífrasis ver-bal; también es muy común usarlos como adjetivos.

fueron aprobados (perífrasis verbal) ha caminado (perífrasis verbal) hombre engreído (adjetivo) muchacha alocada (adjetivo)

Los participios no admiten pronombres enclíticos.

1.4.2.2.3.5 Funciones sintácticas del verbo

La función propia del verbo es ser núcleo del predicado al que se refieren directa o indirec-tamente todos los complementos del sintagma [14].

Complementos del verbo

A veces los complementos son indispensables para el sentido del verbo. Sólo algunos ver-bos exigen casi siempre complemento por necesidad de su propia significación (dar, com-prar, etc.). Los complementos del verbo, atendiendo a la función sintáctica pueden ser de tres clases: directos, indirectos y circunstanciales.

1) En el complemento directo (CD) recae inmediatamente la acción verbal, es decir, ex-presa la cosa hecha por el verbo. Por ejemplo, en el perro comió la carne, la cosa co-mida es la carne y el complemento directo de la oración. En Juan escribe una carta, la cosa escrita es una carta, que es el complemento directo.

Page 48: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

32

2) El complemento indirecto (CI) expresa la persona o cosa que recibe daño o provecho de la acción del verbo. El complemento indirecto lleva siempre las preposiciones a o para. Por ejemplo:

Los patinadores ofrecieron un gran espectáculo al público1

María explicó el tema a sus papás

Escribí un poema para mi novia

3) El complemento circunstancial (CC) expresa el lugar, modo, tiempo, medio, causa o instrumento de la acción verbal. Por ejemplo:

Cumpliré de buena gana el encargo de usted (modo)

La carta fue escrita con la pluma nueva (instrumento)

El director no se presentó por causas de fuerza mayor (causa)

Este complemento, generalmente, usa las preposiciones: con, de, desde, en, hacia, hasta, por, sin, sobre, tras, etc. y algunas veces a y para con significado distinto del uso en el CD.

Valencias del verbo

Las valencias de las palabras son similares a las valencias de los átomos de la química [31]. Las valencias de la palabra indican qué clase de palabras pueden combinarse con ella y cuántas palabras.

El uso de las valencias en los verbos es para describir sus valores sintácticos y semánticos. Por ejemplo, el verbo dar tiene la siguiente descripción semántica.

persona X da alguna cosa Y a la persona Z.

Ejemplo.

Juan (X) le dio una pelota (Y) a Luis (Z)

Este verbo acepta tres valencias (X, Y y Z).

Los verbos permiten cierto número de valencias. Algunos verbos no permiten valencias, otros una, dos, tres, cuatro, e incluso, cinco valencias, algunas obligatorias y otras no [7].

Mostraremos algunos ejemplos para algunos tipos de valencias [7].

1 El CI es únicamente el público; al es la contracción de a + el.

Page 49: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL VERBO

33

a) Algunos verbos españoles intransitivos tienen únicamente la valencia que corresponde al sujeto, por ejemplo el verbo cojear:

cojear persona o animal X camina cojamente

Ejemplos. El hombre (X) cojea El gato (X) cojea

Por definición, los verbos intransitivos no pueden tener un complemento directo. Sin em-bargo, la ausencia del complemento directo es una peculiaridad puramente sintáctica. Éstos pueden tener otras valencias representadas mediante diversos complementos indi-rectos.

perecer X cesa de vivir debido a la causa Y

Ejemplo. El hombre (X) perece de hambre (Y)

b) Los verbos transitivos, por definición, tienen una segunda valencia semántica denomina-da en el nivel sintáctico como complemento directo. Para estos verbos el complemento di-recto es obligatorio. Puede ser adyacente o a través de una preposición. Por ejemplo, *el niño quiere, es incorrecta, porque el verbo requiere la indicación explícita de qué es lo que quiere.

querer persona X experimenta sentimientos positivos hacia la persona Y

Ejemplo. El niño(X) quiere a su mamá (Y, obligatoria)

c) Los verbos con tres valencias son considerados en la gramática tradicional como doble transitivos. La tercera valencia es la denominada complemento indirecto. En el español, los complementos indirectos siempre están unidos al verbo mediante preposiciones. Por ejemplo, el verbo solicitar. solicitar

X solicita algo Y de Z

Ejemplo.

* Indica que es una construcción no gramatical del español.

Page 50: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

34

El secretario (X) solicita una entrevista (Y, obligatoria) con el presidente (Z)

1.4.2.2.3.6 Uso del pronombre se

En ocasiones, el pronombre se (y los demás pronombres átonos correspondientes: me, te, nos, os) se convierte en componente inseparable del verbo y forma con él lo que se llama sintagma pronominal. Por ejemplo, arrepentirse, quejarse, dormirse, irse, marcharse, arrodillarse, jactarse, enorgullecerse, etc. Cuando el pronombre está unido al verbo se de-nomina enclítico.

Los verbos pueden expresarse en voz activa o en voz pasiva [11]. En la primera, el sujeto es el que realiza la acción. En la segunda, el sujeto es el que recibe la acción del verbo. Por ejemplo:

La profesora revisa los ejercicios (voz activa, sujeto)

Los ejercicios son revisados por la profesora (voz pasiva, sujeto)

El empleo de las oraciones pasivas es poco frecuente en español; en cambio aumenta el uso de las oraciones pasivas reflejas con el pronombre se y con el verbo en voz activa [12]. Por ejemplo, ‘La paz fue firmada por los embajadores’ equivale a ‘Se firmó la paz por los em-bajadores’, ‘El acuerdo fue aceptado por el sindicato’ equivale en pasiva a ‘Se aceptó el acuerdo por el sindicato’. Si desaparece el interés hacia el sujeto agente se dirá: ‘Se firmó la paz’ y ‘Se aceptó el acuerdo’.

1.4.2.2.4 El adverbio y su papel

Es la parte de la oración que sirve para modificar, precisar, matizar o ampliar el significado de un verbo, de un adjetivo o de otro adverbio [11]. Se caracteriza por su invariabilidad, con algunas excepciones, ya que muchos adverbios pueden admitir morfemas de sufijación. Por ejemplo, ahora – ahorita, lejos – lejotes, etc. Los adverbios carecen de morfemas de concordancia con otros elementos de la oración. Por ejemplo:

Luisa está mal Los niños están mal educados

La función del adverbio puede desempeñarla una palabra simple, una compuesta, una frase o una oración:

Iré a verte mañana

Habla más despacio

Page 51: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL ADVERBIO

35

Nos quedamos a oscuras

Te visitaremos cuando vayamos a México

Hay adverbios con formas simples: hoy, mañana, etc.; con formas compuestas: anteayer, anteanoche, etc.; con formas complejas como las locuciones adverbiales: a lo grande, de vez en cuando, a ciegas, etc.

1.4.2.2.4.1 Adverbialización

El adjetivo adverbializado es también un adverbio: bajo, alto, oscuro, rápido; también se adverbializa con el sufijo mente, que se forma como sigue. Si el adjetivo tiene dos termina-ciones se utiliza la forma femenina: buena (buenamente), loca (locamente), etc; si el adjeti-vo sólo tiene una terminación, se añade el sufijo mente: atrozmente, felizmente, etc.

1.4.2.2.4.2 Sufijación

Muchos adverbios tienen la posibilidad de admitir morfemas de sufijación para formar au-mentativos, diminutivos o superlativos.

Aumentativos. lejotes, arribota, etc.

Diminutivos. despacito, cerquita, ahorita, lueguito, poquito, prontito, tempranito, etc.

Superlativos. cerquísima, prontísimo, tardísimo, poquísimo, muchísimo, tempranísimo, etc.

1.4.2.2.4.3 Gradación

Algunos adverbios admiten la gradación, característica de los adjetivos, por medio de la anteposición de cuantificadores (más, menos, mucho, poco, muy). Por ejemplo, mucho me-jor, poco antes, muy abajo, más cerca, etc.

1.4.2.2.4.4 Clasificación de los adverbios

Los adverbios se pueden clasificar tradicionalmente de varias formas. En cuanto a su signi-ficado, existen adverbios de [8]:

1) Tiempo. luego, ahora, antes, después, ayer, hoy, mañana, entonces, tarde.

2) Lugar. cerca, lejos, aquí, allí, arriba, abajo, fuera, alrededor, allá, ahí.

3) Modo. bien, mal, así, despacio, deprisa, aprisa, gratis.

Page 52: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

36

4) Cantidad e intensidad. más, menos, poco, bastante, demasiado, muy, mucho, ape-nas, casi, medio, algo, nada.

5) Afirmación. sí, también, ciertamente, claro, desde luego, en efecto, asimismo.

6) Negación. no, nunca, jamás, tampoco.

7) Duda. acaso, quizá o quizás, tal vez, probablemente.

8) Demostrativos. aquí, entonces, ahora, así, luego, tal, tanto.

9) Relativos. donde, como, cuanto, cuando.

10) Interrogativos. cuándo, dónde, cómo, cuánto, qué.

1.4.2.2.4.5 Locuciones adverbiales

Las locuciones o frases adverbiales son expresiones formadas por grupos de palabras que han quedado en el uso de la lengua como expresiones fijas y que adquieren la función y valor del adverbio. Por ejemplo, a escondidas, a hurtadillas, a ciegas, etc. Están compues-tas por una preposición unida a sustantivos, adverbios o adjetivos: enfrente, encima, despa-cio, debajo, acaso, adentro, etc.

1.4.2.2.5 El pronombre y su papel

El pronombre es la parte de la oración que se emplea para sustituir un sustantivo y evitar, en ocasiones, su repetición. El pronombre carece de significado propio, lo adquiere en el contexto. La mayoría de los pronombres presentan desinencias para marcar el género y nú-mero. Los pronombres se clasifican como [11]:

1) Personales. Se refieren a las distintas personas gramaticales que intervienen en el diálogo.

Primera persona. Singular: yo, mí, me, conmigo. Plural: nosotros, nosotras, nos.

Segunda persona. Singular: tú, usted, ti, te, contigo. Plural: ustedes, vosotros, vosotras, os.

Tercera persona. Singular: él, ella, ello, sí, se, consigo, lo, la, le. Plural: ellos, ellas, los, las, les, sí, se.

Page 53: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: EL PRONOMBRE

37

2) Demostrativos. Señalan seres o cosas sin nombrarlos.

Singular. Masculino: éste, ése, aquél. Femenino: ésta, ésa, aquélla. Neutro: esto, eso, aquello.

Plural. Masculino: éstos, ésos, aquéllos. Femenino: éstas, ésas, aquéllas.

3) Posesivos. Se refieren a seres, cosas o ideas poseídas por alguien.

Primera persona. Singular: mío, mía, nuestro, nuestra. Plural: míos, mías, nuestros, nuestras.

Segunda persona. Singular: tuyo, tuya, vuestro, vuestra. Plural: tuyos, tuyas, vuestros, vuestras.

Tercera persona. Singular: suyo, suya. Plural: suyos, suyas.

4) Relativos. Se refieren a alguien o algo, que se ha mencionado en el discurso.

Singular: que, quien, cual, cuanto, cuanta. Plural: quienes, cuales, cuantos, cuantas.

5) Indefinidos. Se refieren a seres o cosas cuya identidad o cantidad es imprecisa. En-tre los más usuales, alguien, nadie, algo, nada, cualquiera, alguno, todo, ninguno, muchos, pocos, varios, demasiados, otro, otra, bastantes, uno, etc.

1.4.2.2.6 El artículo y su papel

Es la parte de la oración que precede al sustantivo para determinarlo y concuerda con él en género y número [11].

El cielo (singular - masculino) La boca (singular - femenino) Los cuadros (plural - masculino) Las estrellas (plural - femenino)

Page 54: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

38

Los artículos se clasifican en determinados o indeterminados.

Artículos determinados Artículos indeterminados Masculino Femenino Neutro Masculino Femenino Singular el la lo un una Plural los las unos unas

Los artículos determinados se refieren, generalmente, a seres o cosas previamente conoci-dos por los hablantes. Su presencia es casi siempre necesaria junto al sustantivo y se emplea para singularizar una entidad en particular o un conjunto genérico.

El cisne antes cantaba sólo para morir Los mismos ruiseñores cantaban los mismos trinos

Los artículos indeterminados se refieren, generalmente, a seres o cosas no conocidos o im-precisos para el hablante.

Sólo una imagen lo vencía Se escucharon unos disparos

El artículo neutro se usa para sustantivar un adjetivo. Se emplea en su forma masculina singular y adquiere un sentido abstracto.

lo raro lo difícil lo escandaloso

El artículo tiene la propiedad de sustantivar cualquier clase de palabra.

El vivir cómodamente era una obsesión (verbo sustantivado) El ayer era para ellos un tiempo olvidado (adverbio sustantivado) Un rojo pálido se veía en el horizonte (adjetivo sustantivado)

Los artículos el y un se emplean con sustantivos femeninos en singular que empiezan con -a o -ha con acento ortográfico o prosódico

El vuelo del águila El nivel del agua El verdugo dejó caer con gran energía el hacha sobre el acusado

Cuando estos sustantivos están en plural, o cuando se interpone otra palabra entre el artícu-lo y el sustantivo, se emplean los artículos femeninos.

Las águilas son aves

Page 55: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: ARTÍCULO Y PREPOSICIÓN

39

Las aguas negras alcanzaron la población Juan compró unas hachas en el mercado

Existen sustantivos que nombran lo mismo con ambos géneros (sustantivos ambiguos), según ciertos usos o estilos.

el mar = la mar el radio = la radio

Cuando el artículo el va precedido de las preposiciones de y a, se producen las formas del y al por contracción. (de + el y a + el). Si el artículo forma parte de un nombre propio no se lleva a cabo la contracción.

La casa del electricista Voy a ir al parque Voy a El Salvador Acaba de regresar de El Cairo

1.4.2.2.7 La preposición y su papel

Las preposiciones son palabras invariables que sirven para relacionar términos [11].

El cantor va sobre la tierra Fuertes cazadores armados de hierros Su pecho tenía por coraza

Los términos relacionados pueden ser cualquier clase de palabras: sustantivo, adjetivo, ver-bo, adverbio.

Las preposiciones se pueden clasificar en simples y en locuciones prepositivas. Por ejem-plo, simples: a, ante, bajo, cabe, con ,contra, etc.

Las locuciones prepositivas permiten matizar o precisar lo que se enuncia. Éstas pueden formarse por:

1) Adverbio y preposición

antes de después de dentro de cerca de junto a alrededor de

Page 56: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

40

2) Preposición, un sustantivo y otra preposición

con arreglo a con base en de acuerdo con por medio de en virtud de en nombre de

3) Dos o más preposiciones juntas

hasta por por entre en contra de hasta en

Las preposiciones cumplen una función relacionante. El significado de las preposiciones se precisa en el contexto. En el Anexo I se proporciona de manera detallada las preposiciones para español.

1.4.2.3 La concordancia

Uno de los medios gramaticales de relación interna es la concordancia, es decir, la igualdad de género y número entre el sustantivo y el adjetivo, y la igualdad de número y persona entre un verbo y su sujeto.

En español, por el hecho de estar contenido el sujeto en la desinencia del verbo, la concor-dancia de verbo y sujeto rige únicamente para los casos de determinación y desarrollo del sujeto fuera del verbo que lo contiene.

Hay reglas que rigen la concordancia de modo constante, pero son expresiones de relacio-nes psíquicas a las cuales tratan de ajustarse. La relación entre el sustantivo y el adjetivo que lo califica, o entre el verbo y su sujeto, supone de parte del hablante un análisis del su-jeto y sustantivo en cada caso. Pero la expresión gramatical producida puede no coincidir con la concordancia mental (concordancia semántica), es decir, a la relación que se genera en nuestra mente al relacionar los componentes de dicha expresión; puede obedecer a inde-cisiones en el análisis interno, o a deficiencia o indecisiones en la expresión o falta de peri-cia del hablante.

En otros casos la discordancia es deliberada para conseguir determinados efectos estilísti-cos. Lo normal es la concordancia semántica y la gramaticalmente expresada.

Page 57: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: LA CONCORDANCIA

41

La rapidez improvisadora del habla coloquial favorece la aparición de discordancias, sobre todo en los niños y en personas poco instruidas.

Las reglas de la concordancia gramatical de forma general y los casos especiales en que se presentan son las siguientes [12].

I. Cuando el verbo se refiere a un solo sujeto, concuerda con él en número y persona, y cuando el adjetivo se refiere a un solo sustantivo, concuerda con él en género y número. Por ejemplo.

El niño durmió largo rato (sustantivo – verbo) Los niños durmieron largo rato (sustantivo plural – verbo plural) El caballo blanco es bello (sustantivo – adjetivo) Los caballos blancos están atados (sustantivo plural – adjetivo plural)

Los casos especiales podemos agruparlos en los siguientes:

a) Sexo y género gramatical. Ocurre cuando hay discrepancia entre el sexo de las personas y el género gramatical o del sustantivo con el que se les designa. Estos son los títulos y tratamientos como usted, Santidad, alteza, majestad, etc.; van acordes con el adje-tivo masculino o femenino según el sexo de la persona a la que se aplica. Por ejemplo, us-ted es muy bondadoso, usted es muy bondadosa. La aposición y las denominaciones fami-liares, cariñosas o irónicas como vida mía, corazón de mis ojos, etc., no impiden la concor-dancia con el sexo de la persona a quien se aplica.

b) Colectivos. Los colectivos como gente, muchedumbre, número, multitud, pueblo, vecindario, etc., debido a la pluralidad que encierran, cuando están en singular pueden ajus-tarse con un adjetivo o un verbo en plural, por ejemplo, la multitud, al escuchar el disparo, se dispersaron. Frecuentemente, se tiene indecisión entre la concordancia gramatical y la semántica. Pero hay circunstancias que favorecen a una u otra [12]. La indeterminación y heterogeneidad de los individuos que entran en la denominación colectiva favorece la idea de pluralidad (gente, multitud, muchedumbre), de ahí la concordancia semántica. Por ejem-plo, acudieron a la ciudad multitud de gente. Por el contrario, la homogeneidad o la de-terminación de los individuos reafirma el carácter unitario del colectivo y la concordancia gramatical. De este modo, resulta fastidioso decir El enjambre con la humareda se disper-san (adecuado: El enjambre con la humareda se dispersa), o El rebaño, con la sequía y la falta de pastos, perecían (adecuado: El rebaño, con la sequía y la falta de pastos, perecía). Sin embargo, al sustituir los colectivos de estos ejemplos por gente, muchedumbre, etc., la concordancia en plural parecerá admisible. Por ejemplo, La gente, con la sequía y la falta de alimentos, perecían

Page 58: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

NOCIONES FUNDAMENTALES DEL LENGUAJE

42

Los sustantivos mitad, tercio, parte, resto y otros semejantes aplicados a un conjunto de individuos pueden ajustarse en singular o en plural. Por ejemplo, el barco se hundió en al-tamar, la mitad se salvaron ( o se salvó); guardaban (o guardaba) el paso una multitud de hombres armados. Si el colectivo es acompañado por adjetivos o frases complementarias que refuercen su singularidad gramatical, la concordancia en plural es difícil o imposible. Por ejemplo, Aquel grupo, entre todos los estudiantes, se había distinguido especialmente.

La concordancia en plural de los colectivos singulares es favorecida por la distancia a que se encuentran el verbo del adjetivo con que deben concordar. Si las palabras que los dividen son muchas, la posibilidad de concordancia en plural aumenta. Por ejemplo, El público, después de tan ruidosa propaganda en periódicos y carteles, se agolpaban en las taquillas del teatro.

c) Discordancia deliberada. Algunas veces nos dirigimos a un sujeto singular con un verbo en plural para dar un efecto estilístico deliberado, o bien para hacerse participe en la actividad o estado del interlocutor. Por ejemplo, al preguntarle a un enfermo: ¿Cómo esta-mos?, ¿Qué tal vamos?, etc.

II. Cuando el verbo se refiere a varios sujetos debe ir en plural. Si concurren varias perso-nas verbales distintas, la segunda es preferida a la tercera y la primera a todas. Cuando el adjetivo se refiere a varios sustantivos, se expresa en plural. Si los sustantivos son de dife-rente género se prefiere el masculino.

Por ejemplo.

Juan, tú y yo viajaremos juntos Ella y él venían muy cansados

Los casos especiales podemos agruparlos en los siguientes:

a) Pluralidad gramatical y sentido unitario. De la misma manera que un sustantivo colectivo puede ser analizado en sus elementos que lo componen, varios sustantivos aso-ciados pueden ser analizados como un todo y tomarlo como un colectivo singular. Por ejemplo, La entrada y salida de vapores ha sido aplazada. Podemos disociar los sustanti-vos anteponiendo a cada uno el artículo o un demostrativo, para obtener la concordancia en plural casi siempre obligatoria, la entrada y la salida de vapores han sido aplazadas.

b) Los verbos en infinitivo, cuando desempeñan el papel de sustantivo, pueden reunir-se como sujetos de un verbo en singular, en especial si no van acompañados de un artículo, de lo contrario provocaría la disociación y la concordancia en plural predominaría. Por ejemplo, comer, beber y no hacer nada, le arruinó en poco tiempo (o le arruinaron).

Page 59: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

SINTAXIS: LA CONCORDANCIA

43

Para dos o más pronombres demostrativos neutros, la concordancia se da en singular. Por ejemplo, Todo esto y algo más motivó el desinterés.

c) Posición del verbo respecto a los sujetos. Si el verbo es posterior a los sujetos, la pluralidad es enteramente visible y próxima y es raro que el verbo se ponga en singular. Por ejemplo, la abuela y el nieto caminaban despacio. Sin embargo, cuando el verbo precede a varios sujetos aumenta la posibilidad de que concuerde sólo con el primero, por ejemplo, Le vendrá el señorío y la gracia como de molde.

d) Posición de adjetivos respecto a los sustantivos. Cuando el adjetivo va después de dos o más sustantivos, concuerda con ellos en plural. Por ejemplo, Claridad y erudición admirables. Esta es la concordancia más general; sin embargo, aparecen escasamente casos con el adjetivo en singular. Por ejemplo, audacia y valor indomable, versus indomables. Otro caso depende del grado de cohesión de los sustantivos, por ejemplo, Lengua y litera-tura españolas versus Lengua y literatura española; en el primero presupone aislamiento de los dos sustantivos, y en el segundo se considera en su conjunto unitario que da pauta a ser calificado en singular.

Si el adjetivo precede a los sustantivos, concuerda generalmente con el más próximo. Por ejemplo, El público lo recibió con entusiasta admiración y aplauso. En este caso hay com-plicaciones semánticas si anteponemos o posponemos un adjetivo al sustantivo, por ejem-plo, mujer pobre versus pobre mujer, la semántica es distinta, en la primera expresa la po-breza de una mujer y en la segunda la desdicha de una mujer. Estos problemas de semántica sólo se presentan con algunos adjetivos.

Page 60: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

44

Capítulo 2. Antecedentes

En este capítulo se tiene como propósito presentar un panorama general de las colocaciones y el tratamiento que se ha dado en los diccionarios. Además, se demostrarán las diferentes aplicaciones que tienen las colocaciones para resolver algunas tareas de lingüística compu-tacional.

En los últimos años el procesamiento del lenguaje natural ha despertado gran interés. Se han desarrollado muchos diccionarios electrónicos monolingües, bilingües, terminológicos, etc. Pero sin duda, para el aprendizaje de una segunda lengua y para resolver algunas tareas de lingüística computacional, una de las mejores herramientas son los diccionarios denomi-nados combinatorios. En estos diccionarios, se muestra cómo se combinan las palabras, generalmente llamadas colocaciones. Por ejemplo, ‘té cargado’, ‘dar a luz’, ‘golpearse la cabeza’, etc.

Las colocaciones son una característica de todos los lenguajes. Los lexicógrafos y lingüistas han estado interesados en las colocaciones. Las colocaciones muestran las formas frecuen-tes de cómo se usa una palabra [10] y son unidades multipalabra, las cuales tienen una exis-tencia independiente y se piensa que probablemente deben formar parte de un diccionario [6].

Las colocaciones plantean un problema para las personas que tratan de aprender una lengua extranjera. El problema de las colocaciones no es tanto de comprensión sino de producción [33]; se dice que la mayoría de las colocaciones probablemente no son difíciles de entender. Expresiones como ‘weak tea’, ‘ask a question’, de hecho, no son difíciles de entender, ‘té ligero’, ‘hacer una pregunta’, pero es imposible crear la combinación correcta por pura deducción.

Mel’čuk afirma que la diferencia entre un nativo de una lengua y otro no nativo de la len-gua es que el primero habla en frasemas (combinaciones de palabras con ciertos matices) y el otro no [6]. El valor expresivo en el diálogo y en la escritura se ve limitado por esta ca-rencia. El conocimiento de las combinaciones de palabras adecuadas para una correcta ex-presión demuestra su importancia.

Page 61: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

LAS COLOCACIONES

45

2.1 Colocaciones en general

En general, las colocaciones incluyen combinaciones de palabras como sueño dorado, ar-mas de destrucción masiva, frases verbales como dormir profundamente, dormir como un tronco y algunas otras como sano y salvo, principio y fin. Normalmente, las combinaciones tienen un significado especializado o son frases idiomáticas como caballos de fuerza, fuen-te de poder (frases técnicas) y dar a luz, marchar sobre ruedas (‘parir un bebe’ y ‘algo que se está desarrollando de una forma excelente’, ambas idiomáticas). Otras combinaciones no tienen nada de idiomático, sólo son adjetivos modificando a un sustantivo, adverbios modi-ficando verbos o complementos de un verbo: leer un libro, hombre bueno, vida sana. Pero el uso muy frecuente de estas frases como expresiones fijas acompañadas de ciertas conno-taciones justifica verlas como colocaciones.

Definimos una colocación como la coocurrencia de dos o más palabras con un espacio cor-to entre éstas y que aparecen con alta frecuencia en los textos. Estas palabras pueden ser adyacentes o unidas por una palabra funcional, generalmente preposición. Por ejemplo, dar a luz, sueño dorado, marchar sobre ruedas, etc.

Existen principalmente tres enfoques para el estudio de las colocaciones: lexicográfico, estadístico y lingüístico. En cada uno de éstos, el término colocación se usa diferentemente.

El enfoque tradicional ha sido lexicográfico. Aquí los diccionarios proporcionan informa-ción que es impredecible o idiomática (modismo). EL BBI [1] sintetiza los estudios de Hausmann sobre colocaciones. Definen las colocaciones como combinaciones de palabras recurrentes fijas o semi-fijas (‘recurrent semi-fixed combinations’), pero dentro del diccio-nario, además de las combinaciones lexicalizadas (cellular phone, digital clock), existen también combinaciones libres (to nominate a candidate, to acces data).

En términos de Hausmann [32] una colocación está compuesta por dos elementos: una base (‘base’) y un colocado (‘collocate’). La base es semánticamente autónoma, mientras que los colocados no pueden interpretarse de forma aislada, es decir, que el conjunto de colocados léxicos con los que se combina una base dada no pueden predecirse.

En los últimos años, se han aplicado métodos estadísticos para el estudio del lenguaje natu-ral. Sinclair [26] expone que una palabra que ocurre con alta frecuencia próxima a la pala-bra de investigación es nombrada colocado de dicha palabra. Esta combinación de palabras es considerada como colocación.

Page 62: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 2. ANTECEDENTES

46

Choueka [28] define una colocación como una secuencia de dos o más palabras que tienen características de unidad sintáctica y semántica, la que tiene un significado exacto o no puede ser derivado directamente de los significados o connotaciones de sus componentes.

El fenómeno de colocación, para Mel’čuk [4], lo define como una combinación léxica de dos elementos: un componente autónomo y otro dependiente, cada uno de los cuales son denominados como palabra clave (‘key word’) y correlacionado léxico (‘lexical correla-te’), respectivamente.

Una propuesta específica de cómo tratar las colocaciones en un modelo lingüístico fue des-arrollado por Mel’čuk [4] con la introducción de las funciones léxicas.

2.2 Características de las colocaciones

Para el tratamiento lingüístico de las colocaciones se han considerado los siguientes crite-rios [9].

• No composicionalidad de las colocaciones

El significado de la colocación no es la composición de los significados de sus componen-tes, ni el significado es completamente diferente de la combinación libre (por ejemplo, me-dias tintas), o existe una connotación o un elemento agregado del significado que no puede ser predicho por sus partes. Por ejemplo, fuerte como un toro, rojo como el jitomate [23].

• No sustitutividad de las colocaciones

Los componentes de la colocación no pueden sustituirse por otras palabras como sus sinó-nimos cercanos. Por ejemplo, vino blanco, blanco no puede sustituirse por claro o amarillo intentando formar vino claro.

• No modificabilidad de las colocaciones

Muchas colocaciones no admiten modificaciones con unidades léxicas adicionales, o a tra-vés de transformaciones gramaticales, especialmente las expresiones idiomáticas. Por ejemplo, ‘picar como los pájaros’ no podemos agregar negros (‘picar como los pájaros negros’), aunque negros modifica a pájaros.

Generalmente, las colocaciones no se pueden traducir palabra por palabra de un idioma a otro (especialmente las frases idiomáticas), ni obtener su significado completo sumando los significados de sus componentes.

Page 63: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

LAS COLOCACIONES

47

2.3 Clasificación de las colocaciones

Lexicógrafos y lingüistas presentan una amplia variedad de colocaciones individuales, in-tentan categorizarlas como parte de un esquema general. El BBI [1] distingue dos tipos de colocaciones, las colocaciones gramaticales y las colocaciones léxicas.

Las colocaciones gramaticales, anotan que son una combinación coocurrente que suele con-sistir de una palabra base (verbo, sustantivo, adjetivo) seguida de una palabra gramatical (colocado); generalmente, contienen una preposición, tales como verb + preposition (come to, put on ), adjetive + preposition (afraid that, fond of ), y noun + preposition (by acci-dent, witness to ).

Las colocaciones léxicas son pares de palabras restringidas léxicamente, en las cuales so-lamente el subconjunto de sinónimos del colocador se pueden usar en el mismo contexto léxico. Por ejemplo, para colocaciones que consisten de verbos y sustantivo (verb + noun / pronoun), la mayoría de estas colocaciones consisten de un verbo que denota creación o activación (come to agreement, make an impresion, compose music, set a record).

En trabajos computacionales son normalmente incluidos como colocaciones los nombres propios y las expresiones terminológicas que hacen referencia a conceptos y objetos en el dominio técnico.

2.4 Tratamiento de las colocaciones en los diccionarios

La información colocacional en diccionarios impresos no es fácil presentarla. Las coloca-ciones están compuestas por dos elementos, la base y el colocado. El BBI [1], organiza la estructura con las bases y lista los colocados en el cuerpo de la entrada. El BBI muestra varios cientos de combinaciones de palabras. Por ejemplo, algunas entradas del BBI se muestran en la Figura 2.1. Las relaciones sintácticas en estas colocaciones no se especifica explícitamente.

access n. 1. to gain, get ~ 2. to deny ~ 3. direct; easy, free, unlimited; limited ~ 4. (com-puter) random ~ 5. ~ to (we gained/got ~ to the files; ~ to a building)

affirm v. 1. to ~ categorically 2. (L) the ministry ~ed that the visit had been postponed

agitate v. 1. to ~ strongly 2. (D; intr.) to ~ against; for (they were ~ing for reform)

ago adv. 1. ~ that + clause (it was fie years ~ that we met)

certain adj. 1. absolutely, completely, totally; almost, nearly; quite; very ~ 2. far from ~ 3.

Page 64: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 2. ANTECEDENTES

48

for ~ 4. ~ about, of (we were ~ of his support) 5. ~ to + inf. ( she is ~ to agree) 6. ~that + clause (it is ~ that they will sign the contract; make ~ that all doors are locked; are you ~ that you turned the gas off?)

Nota. La palabra en negritas es la palabra base. Ésta se combina con los colocados, o sustituyendo el símbo-lo (~) en la frase por la palabra base, así construyéndose la colocación

Figura 2.1 Ejemplo de colocaciones del BBI

Otro diccionario de inglés que trata las colocaciones es el Oxford Collocations Dictionary (OCD) [27]. Se dice que maneja más de 170,000 colocaciones. Una entrada del diccionario se presenta en la figura 2.2. De la misma manera que el BBI no se aprecian claramente las relaciones sintácticas entre la palabra base y sus colocados.

Figura 2.2 Entrada de colocación del OCD

El sistema ARCS[18], en su versión para Internet, ofrece 1,000,000 de colocaciones para inglés. Una de sus entradas se muestra en la figura 2.3.

Page 65: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

49

HEADWORD: general adj. VERBS: be NOUNS: ability, acceptance, agreement, anaesthesia, analysis, appearance, appreciation, approach, aspects, assembly, assumption, attempt, authority, awareness, behaviour, belief, case, categories, changes, character, checking, chores, chronology, class of solutions, clause, code, complaints, concentration, concept, concep-tions, conclusion, condition, conformity, consensus, considerations, conviction, cult, cultural knowledge, data, debility, decrease, defence, definition, description, desires, deterrent argument, development, difference, di-rection, discussion, dispositions, divide, doctrine, dollar, shortage, duty, election, elements, encouragement, endangerment, enjoyment, enquiry, enterprise, ethos, evolutionary level, exposition, facilitatory effects, fail-ure, fashion, fate, fate, fear, feature, feeling, forces, form, format, framework, grounds, guardian, guidelines, guide, habit, historical view, hospital, hypothesis, idea, immaterialism , immunity, importance, improvement, increase, integration, intention, interest, interpretation, irregularities, issue, itinerant, knowledge, lack of inter-est, ladder of offences, language, law, legacy, legal rules, lesson, limits, malaise, mechanisms, medical ward, medicine, method, moral principles, morality, muddle, name, nature; ADVERBS: algebraically, also, both, completely, essentially, however, more, most, only, sufficiently, too, totally, very; EXAMPLES: there is a general acceptance/ agreement/ assumption that it is ...; the same general analysis goes some way toward explaining why ...; the official responses to the riots took a general and specific form; the hope of an early peace had been too general; some further general aspects of cases involving ...; there was no general attempt to ...; in the more general case, however, they are complex; thus a general class of solu-tions can be obtained by considering ...; it is this more general class of solutions that is considered in this section; it is more important here to underline an important general characteristic which ...; the general clause has converted them into trusts; the Middle Ages developed no general concept of progress; general confor-mity brought the age of hypocrisy to an end; the general data presented by him are undeniable; the same ap-plies to the general deterrent argument; the Conservative party was clearly losing three general election de-feats in a row; there is a feeling that ...; the most general form of this view is that ...; SYNONYMS: common, accepted, prevailing, communal, universal, global, shared; inclusive, comprehen-sive, overall, unrestricted; ordinary, normal, customary, familiar, usual, everyday, unspecified; assorted, mixed, heterogeneous, diversified, extended, sweeping, catholic, composite, mongrel, combined, panoramic; vague, loose, ill-defined, generalized, undetailed, non-specific; approximate; GERMAN: allgemeine, generell, General-, Voll-, Haupt-, Ober-;

Figura 2.3 Ejemplo de colocación del sistema ARCS

Aunque la información mostrada por el sistema ARCS es bastante, las relaciones sintácticas y el orden en que las palabras deben combinarse no se muestra de forma clara y precisa.

Otro diccionario combinatorio, para ruso, el sistema CrossLexica [2], en su forma electró-nica, cuenta con varios cientos de miles de combinaciones. Su base de colocaciones es ac-cesible para procesadores y para usuarios. Se manejan dos idiomas: el ruso y el inglés. En la figura 2.4 se muestra el sistema y el ejemplo de una entrada. Se presentan todas las pala-

Page 66: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 2. ANTECEDENTES

50

bras con las cuales se puede combinar la palabra base y se clasifican por rubros los diferen-tes papeles sintácticos.

Figura 2.4 Ejemplo de colocación del sistema CrossLexica versión rusa

La manera en que presenta las combinaciones de palabras el sistema CrossLexica parece muy adecuada, además de presentar claramente los enlaces sintácticos y semánticos entre ellas.

2.4.1 Las colocaciones en el Diccionario Explicativo Combinatorio (DEC)

Mel’čuk afirma que un nativo de una lengua habla en frasemas (combinaciones de pala-bras) [6]. Esto apunta que no es suficiente el conocer el vocabulario de la lengua, ni las reglas gramaticales para hablar un idioma, sino que es necesario conocer también las expre-siones fijas o frasemas de la lengua.

Mel’čuk cataloga los frasemas en cuatro grupos principales [6]:

Page 67: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

TRATAMIENTO DE LAS COLOCACIONES EN LOS DICCIONARIOS

51

1. Frasemas pragmáticos o pragmatemas. Su forma y significado son claros, pero está fija en relación con una situación dada. Por ejemplo, en el discurso frases como, ¡es para ti! , ¿qué tal?.

2. Frasemas completos o expresiones idiomáticas. Expresiones completamente fijas. El significado no es la suma de los significados de cada uno de sus constituyentes. Por ejemplo, dar a luz (parir la mujer).

3. Semi-frasemas o colocación. Expresiones semi-fijas. El significado de la combinación adquiere el significado di-recto de uno de los constituyentes y el significado lateral del otro. Por ejemplo, té cargado, poner atención. De hecho, cargado es asociado primariamente con peso.

4. Casi-frasemas o expresiones casi-idiomáticas. Expresiones casi-fijas. El significado de la combinación adquiere el significado de todos los constituyentes, pero que tiene un significado adicional. Por ejemplo, dar el pecho [a X], ‘dar de mamar a un bebe X poniendo un pecho al alcance de su boca’.

Mel’čuk afirma que los pragmatemas, los frasemas completos y los casi-frasemas deben formar parte del diccionario de igual forma que las palabras habituales. Cada frasema debe tener su entrada léxica y tener la misma estructura que las demás entradas.

En el enfoque de la Teoría Significado⇔Texto (Meaning ⇔ Text Theory, MTT) el concep-to de colocación se refiere a las construcciones semi-idiomáticas formadas por dos unidades léxicas L1 y L2, en donde L2 es seleccionada de manera parcialmente arbitraria por L1 para expresar un sentido dado y un papel sintáctico en función de L1. Sería el caso de combina-ciones como amor ardiente, promesa solemne, silencio absoluto, ruido infernal, en donde no podríamos intercambiar los adjetivos que expresan el mismo sentido ‘intenso’ o ‘en alto grado’: ‘promesa *infernal’, ‘silencio *ardiente’.

Mel’čuk afirma que las colocaciones deben tener un tratamiento especial debido a su im-previsibilidad, es decir, que la idea que representa la combinación de las unidades léxicas L1 y L2, se determina solamente por la relación de los componentes, L2 no es de elección libre está restringida léxicamente por L1. Por ejemplo, fuerte como un toro y valiente como un gallo. No pueden intercambiarse: un gallo por un toro, y obtener una combinación nue-

* Indica que es una combinación no válida para un nativo de la lengua.

Page 68: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 2. ANTECEDENTES

52

va como ‘*fuerte como un gallo’ , la cual no expresaría el sentido esperado (para un nativo de la lengua) como en las primeras combinaciones.

Los elementos de una colocación no pueden ser invertidos; nada en la semántica y en la sintaxis de los lexemas obliga a hacer esta selección. Las expresiones son imprevisibles y deben aprenderse.

En la MTT, una colocación es, por tanto, un sintagma constituido por dos unidades léxicas, la base y el colocado, tales que la elección de la base está sólo controlada semánticamente, mientras que la elección del colocado está también controlada léxicamente por la base.

Mel’čuk [5] hace una propuesta específica para el tratamiento de las colocaciones en un modelo lingüístico, las que son descritas por medio de las funciones léxicas.

En esta teoría, se codifica el conocimiento léxico en una entrada del Diccionario Explicati-vo Combinatorio (DEC). Cada entrada se divide en tres zonas: la zona semántica (una red semántica que representa el significado de la entrada en términos de las palabras más primi-tivas); la zona sintáctica (las propiedades gramaticales de la entrada) y la zona combinatoria léxica (contiene los valores de las funciones léxicas). Las funciones léxicas son el estudio central de las colocaciones. Un ejemplo de entrada del Diccionario Explicativo Combinato-rio para francés se muestra en la Figura 2.5 [6].

La organización de la información de un artículo del DEC gira en torno a la unidad léxica. Se considera lexema a aquella palabra precisada con un único sentido o acepción.

Como puede observarse en la Figura 2.5, el título introduce los rasgos morfológicos. Poste-riormente, sigue la sección semántica o definición. Consta de una forma proposicional y de la definición propiamente dicha. La forma proposicional hace explícitos los actuantes se-mánticos de un lexema L, que se designan por medio de variables (X, Y, Z…).

Después sigue la zona sintáctica, incluye un esquema de régimen donde se especifican para cada uno de los actuantes semánticos del lema (X, Y, Z) sus actuantes correspondientes en el nivel sintáctico profundo (X=1, Y=2, Z=3).

Finalmente, la zona combinatoria léxica contiene las llamadas funciones léxicas, que son sentidos abstractos y generales (del tipo Magn (‘intensificador), Oper (‘realización’), etc.) que se añaden al lexema considerado dando como resultado una expresión parcialmente fija, llamada semifrasema o colocación, característica de una lengua concreta. Las funcio-nes léxicas permiten así clasificar de manera sistemática todo un conjunto de colocaciones, diferentes de las llamadas expresiones idiomáticas.

Page 69: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

LAS FUNCIONES LÉXICAS

53

Figura 2.5 Ejemplo de entrada del DEC (francés)

2.4.2 Las funciones léxicas en el DEC

Las funciones léxicas se formalizan en el concepto de función matemática que se define de la siguiente forma [6]:

“Una función léxica (FL) denota una relación entre una unidad léxica de la lengua (L), lla-mada argumento de la función, y un conjunto de unidades léxicas (inclusive vacío) o expre

Page 70: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 2. ANTECEDENTES

54

siones idiomáticas {v1, v2, ..., vn}, llamados valores de la FL aplicada a L”. Se representa como:

FL(L) = {v1, v2, ..., vn}

Toda relación léxica puede ser examinada y modelada por la función léxica específica, to-mada del conjunto de funciones léxicas estándares identificadas por la Teoría Significado ⇔ Texto.

Por ejemplo, algunas funciones léxicas se presentan a continuación [6]:

Syn, sinónimo exacto y Syn⊃, Syn⊂, Syn∩ casi-sinónimos (sentido más específico, menos específico e intersección de los significados).

Syn(avión) = aparato Syn⊃(pueblo) = sociedad Syn⊂(veneración) = respeto

Syn ∩(escritorio) = mesa

Anti, enlaza a su antónimo.

Anti(bajo) = alto Anti(rápido) = lento

Magn, como intensificador.

Magn (réplica) = fulminante Magn (memoria) = prodigiosa, excelente, asombrosa Magn (ruido) = infernal, de todos los demonios Magn (dormir) = profundamente, como un tronco, a pierna suelta.

Bon, bueno, expresión que se emplea como una alabanza

Bon(consejo) = valioso Bon(elogio) = esmerado, bien formulado Bon(tiempo) = buen

Oper, toma su palabra clave como complemento directo.

Oper (denuncia) = presentar [ART ~]. Oper (grito) = dar, pegar [ART ~].

Page 71: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

APLICACIÓN DE LAS COLOCACIONES

55

Donde ART, indica que un determinante (artículo, adjetivo posesivo, o demostrativo, etc.) debe ser usado según las reglas de la gramática del español. La tilde ‘~’ indica repetición del argumento.

Para Mel’čuk el diccionario es un sistema de relaciones léxicas donde cada relación se ha de especificar. Mel’čuk define unas cincuenta funciones léxicas estándares [5].

De los diccionarios antes presentados, el sistema CrossLexica muestra de una forma ade-cuada las relaciones entre las combinaciones de palabras. Éste muestra ordenadamente los enlaces sintácticos y semánticos, en comparación con el OCD y el BBI que no muestran de forma explícita los enlaces entre las combinaciones de palabras ni de manera precisa las combinaciones. En contraste, el DEC asume que el destinatario del diccionario debe usar su lógica para realizar la interpretación adecuada. Además, el DEC está muy restringido en ejemplos de uso.

El presente trabajo pretende valerse de las ideas básicas del sistema CrossLexica versión rusa, y desarrollar las herramientas morfológicas para español [17] y el sistema que de-muestra las colocaciones y sus papeles sintácticos y semánticos entre las palabras.

2.5 Aplicaciones de las colocaciones

Las colocaciones son muy importantes, principalmente cuando uno quiere aprender una segunda lengua [24]. Existen fórmulas en la lengua (las colocaciones) que se usan en dife-rentes contextos orales y escritos. Conociendo las colocaciones de la lengua, además del vocabulario y la gramática, uno podrá aprender a expresarse como un hablante nativo de la lengua.

No sólo las colocaciones son útiles para el aprendizaje de una segunda lengua, sino también para resolver algunas tareas de lingüística computacional. Las colocaciones pueden usarse para la desambiguación incluyendo la desambiguación de sentidos de palabras y la desam-biguación estructural [25]. La tarea se basa en el principio: que una palabra tiende a coocu-rrir con un conjunto diferente para cada uno de sus sentidos. Por ejemplo, si tenemos la siguiente palabra con sus dos acepciones: banco1 (‘asiento para una sola persona sin respal-do’) y banco2 (‘organismo público de crédito’). En las siguientes combinaciones no se tiene la certeza a qué significado se refiere la combinación.

1. banco de crédito 2. banco de madera

Page 72: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 2. ANTECEDENTES

56

En realidad, de madera es frecuente encontrarlo como modificador del sustantivo con el primer sentido (banco1) y de crédito al segundo sentido (banco2). Esto lo sabemos por me-dio del conjunto posible de palabras combinables.

Otra aplicación es en el análisis sintáctico, en la desambiguación de palabras. Por ejemplo, tenemos la siguiente combinación de palabras, puerta de madera de la cocina. En esta frase podemos tener las siguientes asociaciones:

1. [ [puerta de madera] de la cocina]

2. [puerta de [madera de la cocina]]

Es más frecuente que se encuentre la primera asociación, con el sentido semántico: ‘una puerta que es de madera y que pertenece a la cocina’. En contraste, con la segunda asocia-ción de sentido incoherente.

Otra tarea importante es la traducción automática, debido a que las colocaciones no se pue-den caracterizar con base en las regularidades sintácticas y semánticas. Éstas no pueden ser traducidas palabra por palabra. Sin embargo, la lingüística computacional utiliza técnicas estadísticas en corpus para identificar las colocaciones y construir semi-automáticamente léxicos colocacionales bilingües. Estos pueden usarse como parte de un sistema de genera-ción de lenguaje [9].

Otra de las tareas donde las colocaciones son de ayuda es en la detección y corrección de errores semánticos llamados malapropismos [22]. Por ejemplo.

1. las orugas de la ropa (en lugar de: las arrugas de la ropa)

2. irrigación de la piel (en lugar de: irritación de la piel)

Las combinaciones más frecuentes son arrugas de la ropa e irritación de la piel. Se puede dar la sugerencia para modificar los posibles errores.

Otras aplicaciones de las colocaciones son en la generación de lenguaje natural, recupera-ción de información [9] y coherencia en diálogos hombre-máquina [25].

Para la creación de las bases de colocaciones existen dos formas. Primera y la más confia-ble es recopilarlas de forma manual, lo que requiere de un enorme esfuerzo y tiempo. Con esta forma tenemos la certeza que las colocaciones reunidas son ciento por ciento confia-bles. La segunda es recopilarlas de forma automática, haciendo uso de los corpus existentes para español, uno de los más accesibles ‘Internet’ u otros como en [16 y 21].

Las colocaciones se pueden obtener por medios estadísticos. La forma más sencilla es la frecuencia de ocurrencia de las combinaciones de palabras. Se usan patrones de filtrado por

Page 73: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

APLICACIÓN DE LAS COLOCACIONES

57

donde se pasan las frases candidatas a ser colocaciones [34]. Se pueden obtener bigramas (combinaciones de dos palabras) o n-gramas (combinaciones de más de dos palabras) se-gún los patrones de filtrado. Otros métodos pueden implementarse, como el de la media y la varianza, prueba de chi-cuadrada de Pearson (X2) e información mutua [9].

Las colocaciones compiladas en las bases primarias para nuestro sistema son bigramas, es decir, combinaciones de dos palabras, aunque a veces se encuentran unidas por una palabra funcional, generalmente preposición.

Page 74: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

58

Capítulo 3. Desarrollo del sistema CrossLexica-Esp

En este capítulo se presentan el sistema CrossLexica ruso del cual se toman las ideas bási-cas para la construcción del sistema CrossLexica para español. Presentamos la estructura-ción de las bases de colocaciones con enlaces sintácticos y semánticos para español, y la estructura de las bases formateadas, las que tienen los rasgos morfológicos y semánticos de cada componente de la colocación.

El sistema CrossLexica ruso es un sistema que maneja una base grande de combinaciones de palabras (colocaciones) y enlaces semánticos entre ellas (véase figura 2.4 del capítulo 2). Las colocaciones tienen dependencias gramaticales entre sus elementos. Los sinónimos, antónimos, subclases, superclases, etc. representan los enlaces semánticos en forma de te-sauro. La estructura del sistema es universal y puede aplicarse a cualquier lenguaje (ruso, inglés, español, etc) [2].

El sistema CrossLexica para Español (CrossLexica-Esp) toma como base las ideas del sis-tema CrossLexica ruso. Por lo que el sistema CrossLexica-Esp es un diccionario especial de español que incluye enlaces sintácticos entre palabras como país grande, ver al joven, muy bien, trabajar fuertemente, etc. y semánticos como bebida – refresco, país – México, etc. Permite el acceso a usuarios (por medio de una interfaz especial) y a procesadores de texto (por medio de enlaces a combinaciones de palabras). Además, el sistema proporciona información idiomática entre las combinaciones de palabras, información para diferenciar homónimos e información acerca del estilo de uso de la combinación en el texto.

3.1 Estructura del sistema CrossLexica-Esp

El desarrollo de la aplicación CrossLexica-Esp consiste en dos tareas principales:

• Las utilerías para la preparación de la Base de Datos (conjunto de combinaciones de palabras en forma electrónica).

• La interfaz del usuario.

La interfaz del usuario para el sistema CrossLexica-Esp tiene la finalidad de mostrar la in-formación sintáctica y semántica de la palabra clave introducida como petición. El sistema proporciona al usuario todos los enlaces entre la palabra clave y colocados (palabras rela-

Page 75: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

DESCRIPCIÓN DEL SISTEMA CROSSLEXICA-ESP

59

cionadas) estructurados por rubros semánticos (hipónimos e hiperónimos) y sintácticos (modificadores que tiene una palabra, verbos que maneja una palabra y sustantivos que maneja una palabra).

La petición debe ser una palabra que forme parte del diccionario de CrossLexica-Esp, pue-de tener desinencia, pues la interfaz tiene la capacidad de transformar la petición a su forma estándar, para adjetivos la forma en singular-masculino y para verbos la forma infinitiva, y buscarla en la lista de palabras del diccionario.

Otra característica de la interfaz, además de mostrar los enlaces sintácticos y semánticos estructurados por rubros, es que muestra la información concordante entre las combinacio-nes de palabras y se proporcionan los artículos y preposiciones correctos que enlazan las combinaciones de palabras.

Una característica más del sistema es la inferencia de nuevas colocaciones con base a las contenidas en el sistema y haciendo uso de la inferencia lógica.

Herramientas utilitarias

El conjunto de las herramientas utilitarias del sistema CrossLexica-Esp es utilizado, al fin y al cabo, para la preparación de la información del diccionario que manejará el sistema. En sus etapas secuenciales, estas herramientas darán el formato y caracterización morfológica de las palabras que representan las colocaciones (combinación de palabras estables) y que son preparadas en la vista de archivos primarios (archivos especiales que contienen las colocaciones).

Cada archivo tiene una estructura especial que depende de los enlaces sintácticos que puede contener. Por ejemplo, la palabra ataque puede ser combinada con las palabras: de nervios, falso, frontal. Estas palabras modifican a ataque, se obtienen las combinaciones ataque de nervios, ataque falso, ataque frontal. La palabra principal la denominamos palabra clave y las complementarias palabras relacionadas. Tal como en las funciones léxicas propuestas por Mel’čuk [5], la palabra clave es el argumento y los posibles valores de la función son las palabras relacionadas.

A cada grupo de palabras, palabra clave y sus palabras relacionadas, le denominamos artículo del diccionario. Los artículos están contenidos en las bases primarias (archivos) de colocaciones (las que se describen posteriormente); así cada archivo es contenedor de un tipo de enlace sintáctico.

Page 76: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

60

Las bases primarias de colocaciones se han reunido de forma manual. Existen otras formas de obtener las colocaciones por medios estadísticos [9], haciendo uso de corpus disponibles para español [16 y 21].

En la Figura 3.1 se muestra el esquema general del sistema CrossLexica-Esp. Las Herra-mientas Utilitarias (Figura 3.1, Parte I) dan formato y obtienen los rasgos morfológicos de las palabras que representan las colocaciones y que están preparadas en los archivos con forma original llamados archivos primarios. Todas las palabras clave son compiladas en un diccionario general y los enlaces (sintácticos y semánticos) entre palabras que representan las colocaciones son compilados para obtener una base de enlaces entre palabras.

Cada archivo primario (Subparte I.2) contiene un tipo especial de colocaciones, con res-tricciones específicas para cada uno. Estos archivos son legibles para la persona que prepa-ra las colocaciones y las modifica.

Los archivos de forma codificada llamados archivos secundarios (Subparte I.4), contienen las colocaciones formateadas y la información morfológica de cada palabra constituyente. Estos son obtenidos por el proceso de formateo especial de colocaciones. De forma parale-la, el proceso de formateo utiliza archivos auxiliares (Subparte I.1) y genera un protocolo de errores del formateo para el control del proceso (Subparte I.5).

Los archivos auxiliares contienen listas de excepciones que determinan casos raros, tales como adjetivos que únicamente se usan de forma plural, géneros de palabras que no siguen las reglas generales, adverbios, preposiciones, etc. Estos archivos consisten en información adicional para la caracterización adecuada de los componentes de las colocaciones.

Para fines de facilitar el proceso de formateo, se crea un protocolo de formateo. El protoco-lo informa al compilador los errores que ocurrieron durante el proceso y el tipo de errores producidos. Por medio de este protocolo podemos corregir las colocaciones caracterizadas erróneamente y compilarlas nuevamente. Este protocolo es el medio por el cual se garantiza que las colocaciones sean compiladas correctamente.

Para cada entrada del diccionario del sistema CrossLexica-Esp, se encuentra en su forma estándar (adjetivos y verbos); los sustantivos se distinguen entre la forma singular y la for-ma plural. En las combinaciones, en ocasiones, las palabras relacionadas sólo se usan con la forma singular y en ocasiones sólo con la forma plural del sustantivo. El sistema realiza la concordancia en género y número de forma automática en el momento de mostrar las colo-caciones.

Page 77: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

DESCRIPCIÓN DEL SISTEMA CROSSLEXICA-ESP

61

Figura 3.1 Esquema de bloques del sistema CrossLexica-Esp

En los siguientes puntos mostraremos la estructura de las bases primarias y secundarias de las colocaciones que conforman el sistema.

3.2 Bases primarias de colocaciones en CrossLexica-Esp

En esta etapa hay que precisar la noción de colocación. Como ya se mencionó, algunos autores la definen como una coocurrencia de palabras en un espacio corto entre ellas y que aparecen con alta frecuencia entre los textos. En correspondencia con el punto de vista de Mel’čuk [5], nosotros consideramos como colocaciones los siguientes grupos de palabras vinculadas sintácticamente:

Page 78: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

62

• Expresiones idiomáticas o frasemas completos como medias tintas ‘con reservas’ o campo santo ‘cementerio’. El significado de la combinación tiene un sentido fijo, que no incluye ninguno de los sentidos de los constituyentes.

• Expresiones semi-idiomáticas o tales con funciones léxicas estándar [5] como té cargado o poner atención. El significado de la combinación adquiere el significado directo de uno de los constituyentes y el significado lateral del otro.

• Combinaciones libres como acción buena o ver al joven. El sentido de tal combina-ción es la suma del sentido de cada constituyente.

Entonces, nuestro término de colocación no corresponde a una mera coocurrencia de pala-bras dentro de un espacio corto de texto. Esto implica una dependencia sintáctica entre las combinaciones de palabras, de manera inmediata, o a través de una palabra funcional, usualmente preposición, por ejemplo, ver (→ al) → joven, agarrar (→ del) → brazo, etc.

Establecido lo anterior, las colocaciones se encuentran en las bases o archivos primarios. Cada uno de los archivos primarios contienen sólo un tipo de colocación y por lo tanto las dependencias sintácticas son predeterminadas para cada archivo.

Como se mencionó, los archivos están constituidos por artículos del diccionario (una pala-bra clave y múltiples palabras relacionadas). Las palabras pueden ser alguna de las partes de la oración (POS del Inglés, Part Of Speech).

La palabra clave es única en el archivo corriente y no es de elección libre, sino depende del archivo en el cual se trabaje. Las palabras relacionadas pueden ser múltiples. De forma recíproca las palabras relacionadas dependen del archivo en el cual se trabaje. Por ejemplo, en la figura 3.2 se muestra un artículo de una base primaria.

material didáctico eléctrico gráfico incandescente

Figura 3.2 Ejemplo de artículo de una base primaria

El la figura 3.2, material, se considera como la palabra clave y las demás como palabras relacionadas, es decir, las palabras con que se puede combinar material: material didáctico, material eléctrico, etc.

Page 79: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

BASES PRIMARIAS EN GENERAL

63

Las bases primarias de colocaciones con enlaces sintácticos se agrupan en los siguientes archivos:

• Modificadores • Valencias verbales • Valencias sustantivales

Las bases con enlaces semánticos se agrupan en:

• Hipónimos / Hiperónimos

3.2.1 Archivo de modificadores

Para este archivo, se considera como palabra clave al rector de la relación entre las partes del la oración (sustantivos, adjetivos, verbos y adverbios).

Este archivo tiene dos modos de uso, primero: los modificadores que puede tener la palabra clave proporcionada y segundo: qué palabras rectoras puede tener el modificador propor-cionado.

Los enlaces sintácticos permitidos se muestran en la Figura 3.3; están definidos por las fle-chas [5].

El archivo de modificadores contiene los enlaces sintácticos: tiene_modificadores y su re-ciproco es_modificador. Por ejemplo, para el sustantivo acción, sus modificadores en la relación tiene_modificadores son: buena, combinada, directa, prometida. Generando las combinaciones: acción → buena, acción → combinada, acción → directa, acción → pro-metida. Para el adjetivo agradecido tiene modificadores muy, poco, sumamente. Obtenién-dose las combinaciones muy ← agradecido, poco ← agradecido, sumamente ← agradeci-do.

Figura 3.3 Enlaces sintácticos para modificadores

verbo sustantivo

adverbio adjetivo

Page 80: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

64

En el modo de uso inverso, se consulta las palabra: adjetivo o adverbio, se obtienen las combinaciones para las cuales éstos son modificadores. Por ejemplo, el adjetivo bueno mo-difica en la relación es_modificador varios sustantivos: acción, apariencia, calidad. Se obtienen las combinaciones acción → buena, apariencia → buena, calidad → buena. Para español, la concordancia entre el sustantivo y el adjetivo, usualmente, el adjetivo concuerda con la forma morfológica de su sustantivo que lo acompaña.

La estructura para este archivo se detalla en el punto 3.4 Estructura de las bases de coloca-ciones modificadoras.

3.2.2 Archivo de valencias verbales

Para este archivo, el sustantivo dependiente se considera como la palabra clave. Tiene dos modos de uso, primero: qué verbos rigen la palabra clave, y segundo: qué complementos puede manejar el verbo. En la Figura 3.4 se observa el tipo de enlace sintáctico que admite este archivo.

Figura 3.4 Enlaces sintácticos para valencias verbales

Por ejemplo, para el sustantivo atención los verbos que lo rigen son: atraer, dedicar, dis-traer, poner. Con ello se obtienen las combinaciones: atraer → (la ← ) atención, dedicar → atención, distraer → (la ← ) atención y poner → atención.

Las relaciones sintácticas para este archivo son las siguientes: tiene_complementos , tie-ne_sujetos y sus recíprocos es_complemento_de_verbo, y es_sujeto_para.

Por ejemplo, para el verbo abrir y para la relación tiene_complementos. Se tienen las si-guientes combinaciones.

abrir la boca abrir una maleta abrir una carta

Los complementos de abrir son la boca, una maleta y una carta.

En el otro modo, la boca es complemento para distintos verbos. Para la relación es_complemento_de_verbo.

verbo sustantivo

Page 81: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

BASES PRIMARIAS EN GENERAL

65

abrir la boca cerrar la boca taparse la boca

Los verbos que manejan el complemento la boca son abrir, cerrar y taparse.

Para los verbos permitimos el uso del pronombre enclítico se, como en ‘taparse la boca’, ‘abrirse paso’, ‘comerse una fruta’, etc.

También se permite la construcción de oraciones pasivas reflejas con el pronombre se y con el verbo en voz activa. Véase el punto 1.4.2.2.3 Uso del pronombre se. Por ejemplo, ‘se firmó la paz’, ‘se aceptó el acuerdo’, etc.

Las oraciones pasivas reflejas hacen uso de las relaciones sintácticas tiene_sujetos y es_sujeto_para. Por ejemplo, para la oración la maleta se abrió, la relación tiene_sujetos se aplica al verbo abrir y el sujeto que tiene es la maleta. De forma inversa, la relación es_sujeto_para se aplica al sujeto maleta y el verbo para el cual es sujeto es abrió (abrir).

Para este tipo de oraciones con las relaciones sintácticas tiene_sujetos y es_sujeto_para se permite la conjugación de verbos. Los tiempos permitidos son los tiempos simples: presen-te, pasado y futuro, y las conjugaciones para la tercera persona del singular y plural.

La estructura de este archivo se detalla en el punto 3.5 Estructura de las bases de coloca-ciones con valencias verbales.

3.2.3 Archivo de valencias sustantivales

Para este archivo, el sustantivo dependiente (el segundo en el texto) se considera como la palabra clave. En la Figura 3.5 se observa el tipo de enlace sintáctico que admite este archi-vo. Las relaciones sintácticas para este archivo son las siguientes: tiene_complementos y su recíproco es_complemento_de_sustantivo.

Por ejemplo, el sustantivo problemas y para la relación tiene_complementos. Se tienen las siguientes combinaciones:

problemas del país problemas del cerebro problemas de la maquinaria

Page 82: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

66

Los sustantivos que complementan a problema son país, cerebro y maquinaria.

Para la relación es_complemento_de_sustantivo. Se tienen las siguientes combinaciones:

ciudades del país problemas del país ciudadanos del país

El sustantivo país es complemento para ciudades, problemas y ciudadanos.

Figura 3.5 Enlaces sintácticos para valencias sustantivales

La estructura para este archivo se detalla en el punto 3.6 Estructura de las bases de coloca-ciones con valencias sustantivales.

3.2.4 Archivo de hipónimos / hiperónimos

Para este archivo que refleja las relaciones semánticas, se considera como la palabra clave los conceptos hiperónimos y como palabras relacionadas a sus hipónimos, es decir, la pala-bra clave es la superclase y las relacionadas son las subclases. Se clasifican las nociones de las palabras en forma jerárquica, los que son únicamente sustantivos.

Las relaciones semánticas para este archivo son las siguientes: hiperónimo y su recíproco hipónimo. Por ejemplo, la noción general de anillos, aretes, collares y pendientes es ador-nos que se representa de la forma siguiente:

adornos anillos aretes collares pendientes

Las relaciones entre adornos y anillos son: adornos es hiperónimo de anillos y anillos es hipónimo de adornos.

La estructura para este archivo se detalla en el punto 3.7 Estructura de las bases de hipóni-mos / hiperónimos.

sustantivo sustantivo

Page 83: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

BASES PRIMARIAS EN GENERAL

67

3.3 Estructura de las bases primarias en general

Las bases primarias o archivos primarios son aquellos que contienen las colocaciones; cada archivo restringe el tipo de colocaciones que permite. Los siguientes rasgos morfológicos y semánticos se permiten para todos los tipos de colocaciones.

3.3.1 Palabra clave

Un artículo del diccionario está constituido por una palabra clave y al menos una o múlti-ples palabras relacionadas. La palabra clave define el artículo dentro del diccionario de co-locaciones, por lo que no debe haber duplicidad de la palabra que se considera como pala-bra clave en el archivo.

La palabra clave puede contener los siguientes marcos morfológicos y semánticos, pero únicamente se puede usar uno a la vez que se coloca inmediatamente después de la palabra clave. Los valores para los marcos se muestran en la Tabla 3.1. Su uso se describe en los siguientes puntos.

3.3.1.1 Información semántica

Es un marco para indicar con palabras en una forma libre, pero concisa, información para distinguir las palabras clave que son homónimas o proporcionar la clase a la que pertenece la palabra corriente.

• Información para homónimos

En este modo de uso se proporciona información al usuario para distinguir las palabras homónimas. Este texto (de forma libre) debe ser escrito entre comillas ("texto libre") y de manera concisa. El marco comienza inmediatamente después de la palabra clave. El marco se define con el símbolo < (menor que) seguido de la información del homónimo. Véase Tabla 3.1. Por ejemplo, si se quiere distinguir las diferentes áreas en que se usa la palabra tono, se definiría como en el ejemplo siguiente.

tono1<"de música" alto bajo buen tono2<"de afecto" cariñoso claro

Page 84: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

68

poco seguro tono3<"del cuerpo" cardiaco vital

Se procede de esta manera para incorporar la información de las palabras homónimas que serán de utilidad para ayuda del usuario. Además, para cada una de las acepciones, se eti-queta con un número de forma consecutiva.

• Clase semántica

En este modo de uso se define la clase superior de la palabra corriente. Se distingue de la información para homónimos por no llevar comillas, pero al igual que ésta es de forma libre y concisa. Normalmente es una palabra que generaliza el concepto de la subclase, la palabra corriente.

Por ejemplo, se tiene la palabra agente y se quiere especificar la clase a la que pertenece cada una de las acepciones, se debe realizar de la siguiente forma:

agente1<hombre británico de bolsa

agente2<sustancia dañina de limpieza

Con este marco se proporcionan dos nociones, primera: la clase a la que pertenece cada acepción (en este caso, a un hombre y a una sustancia respectivamente), segunda: hace re-ferencia al humano y referencia a un tipo de líquido, según cada caso. Este marco debe usarse cuando existen varias acepciones para la palabra clave y el sentido de la palabra no es del todo claro, además de proporcionar la clasificación de la palabra corriente.

3.3.1.2 Parámetros morfológicos

Es un marco que se utiliza para eliminar la ambigüedad que se pueda presentar entre una palabra clave y alguna otra que se encuentre en el diccionario. Los marcos posibles son los siguientes:

• Parte de la oración (POS). Es un marco que define la parte de la oración a la que co-rresponde (sustantivo, adjetivo, verbo o adverbio. Véase Tabla 3.1).

De forma general, los verbos se determinan por tener la terminación ar, er o ir. Por ejem-plo, poder (facultad de hacer algo, verbo) y poder (tener la habilidad de hacer algo, sustan-tivo). Para este caso es necesario colocar el marco que lo distingue.

Page 85: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

BASES PRIMARIAS EN GENERAL

69

poder1<SUS económico estatal gran

poder2 inmediatamente rápidamente

Ejemplo1 Ejemplo2

De igual manera sucede con palabras como deber, escolar, mar, militar, etc. Este marco debe usarse con las palabras que son sustantivos y tienen la terminación de verbo (ar, er o ir) o por alguna otra razón que cause conflicto al caracterizar la colocación.

• Género. Es un marco que define el género de la palabra (masculino o femenino. Véase Tabla 3.1). Este marco elimina la ambigüedad de palabras que tienen la misma forma para ambos géneros.

Por ejemplo, la palabra analista, en el ejemplo de abajo, la primera palabra es de género masculino y en la segunda femenino. Se necesita distinguir con el marco ambos géneros, para indicar que se usa la misma forma de palabra para ambos géneros.

analista1<MASC financiero político

analista2< FEM financiera política

Ejemplo3

• Número. Es un marco que define el número de la palabra (plural o singular. Véase Ta-bla 3.1). Este marco elimina la ambigüedad de palabras que tienen la misma forma para ambos números.

Por ejemplo, la palabra déficit en los ejemplos 4 y 5 presenta la misma forma para el singu-lar y plural. Es necesario distinguir con el marco ambos números, los que usan la misma forma de la palabra.

déficit1<SING bancario hormonal

déficit2<PLUR bancarios hormonales

Ejemplo4 Ejemplo5

Page 86: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

70

Tabla 3.1 Marcos para palabras clave

MARCO Descripción Parte de la oración (POS) <SUS Sustantivo <ADJ Adjetivo <VER Verbo <ADV Adverbio Número <SING Singular <PLUR Plural Género <MASC Masculino <FEM Femenino Información semántica <"texto libre" Texto libre <Clase semántica

Información para homónimos Superclase

3.3.2 Palabras relacionadas

Las palabras relacionadas son asociadas a la palabra clave. Se distinguen de la palabras clave por tener un símbolo de tabulación (→) al inicio de la palabra, el cual es obligatorio. Por ejemplo.

dedo → anular → auricular → delgado → fino

Adicionalmente, se cuenta con marcos opcionales de idiomatización y estilo. Éstos son exclusivos de las palabras relacionadas para indicar el uso de la combinación de palabras. Los marcos posibles son los siguientes.

3.3.2.1 Idiomatización

Este marco proporciona información acerca de la combinación corriente, es decir, si su uso es idiomático, semi-idiomático o neutral ( véase Tabla 3.2).

Page 87: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

BASES PRIMARIAS EN GENERAL

71

árbol de navidad & genealógico

luz brillante solar @ verde

cabeza blanca & de chorlito

Ejemplo6 Ejemplo7 Ejemplo8

En los ejemplos anteriores, el símbolo (&) indica que la combinación es fija y tiene un sig-nificado idiomático (ejemplos 6 y 8). En el ejemplo 6, la combinación árbol genealógico, el sentido es ‘una tabla que indica la filiación de los miembros de una familia bajo forma de árbol’ y no tiene el sentido de ‘una planta’. Sin embargo, en el Ejemplo7, la combinación luz verde adquiere dos sentidos (denotada por el símbolo @), ‘tener autorización de prose-guir con algún trabajo’ y ‘color de la luz’. Tal combinación se usa dependiendo del contex-to, por ejemplo, primer sentido: ‘El jefe dio luz verde al proyecto’ y segundo sentido: ‘la luz verde me cegó por un instante’.

3.3.2.2 Estilo de la combinación

Este marco indica los contextos en que se usa normalmente la combinación. La Tabla 3.2 proporciona los valores para este marco.

Por ejemplo, el símbolo S indica que la combinación se usa en textos científicos y técnicos, el símbolo C que su uso es coloquial (comúnmente se usa en conversaciones amigables) y el símbolo V que su uso es popular o vulgar.

caballos S de fuerza finos puros

andar despacio &V como gallina clueca &V como perro sin mecate

ramas apartar las ~ &C andarse por las ~

Ejemplo9 Ejemplo10 Ejemplo11

La tilde ‘~‘, indica la posición en la cual la palabra clave se debe repetir.

Tabla 3.2 Marcos para palabras relacionadas

MARCO Descripción Idiomatización & Completamente idiomática, expresiones propias del

idioma español @ Se puede usar de forma idiomáticamente o de forma

literal

Page 88: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

72

MARCO Descripción Estilo de la combinación S Combinación de uso científico, se usa en documentos

científicos y técnicos. C Combinación de uso coloquial, se usa en conversacio-

nes amigables, familiares. V Combinación de uso vulgar, se usa para matizar expre-

siones de uso popular I Combinación de uso indecente, son expresiones ofensi-

vas.

La ausencia de marco indica que su uso es neutral. Los marcos anteriores (para palabras clave y para palabras relacionadas) se aplican para todos los tipos de colocaciones del sistema CrossLexica-Esp.

3.4 Estructura de las bases de colocaciones modificadoras

Las colocaciones modificadoras se encuentran en la base primaria en una forma burda. Después del proceso de caracterización se obtiene una forma esquematizada, una base se-cundaria. En los siguientes puntos se describen ambas bases.

3.4.1 Base primaria

El archivo primario de colocaciones modificadoras contiene las colocaciones con las rela-ciones sintácticas del tipo sustantivo → adjetivo y [adjetivo, verbo, adverbio] → adverbio. En X → Y, la flecha indica la dependencia sintáctica como se mencionó [4]. Los adjetivos dependen del sustantivo y los adverbios dependen del adjetivo, verbo, o adverbio.

Las palabras clave permitidas para este archivo son sustantivos, adjetivos, verbos y adver-bios y las palabras relacionadas son adjetivos, adverbios o términos multipalabra.

Los términos multipalabra, es decir, construcciones adjetivales (CONS_ADJ) y construc-ciones adverbiales (CONS_ADV)se consideran como una entrada del diccionario del sis-tema. Por ejemplo, las construcciones adjetivales que se tienen en las colocaciones puerta de madera, aceite de almendras, y las construcciones adverbiales en: dormir a pierna suel-ta, saltar de alegría, son entradas del diccionario general.

Page 89: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE MODIFICADORES

73

Una construcción adjetival puede tomar también el papel de construcción adverbial. Por ejemplo, en las combinaciones chispa de alegría y saltar de alegría. La construcción de alegría es a la vez CONS_ADJ y CONS_ADV relativamente. Es una forma de homonimia, tendrá dos entradas en el diccionario del sistema, una como construcción adjetiva y otra como construcción adverbial.

El esquema general de un artículo del archivo primario de modificadores es el de la figura 3.6.

PALABRA_CLAVE [< Información semántica] [<Parámetro morfológico]

[idiomatización][estilo]TAB Palabra relacionada1 [~]

[idiomatización][estilo]TAB Palabra relacionada2 [~]

[idiomatización][estilo]TAB Palabra relacionada3 [~]

. . . . . . . [idiomatización][estilo]TAB Palabra relacionadaN

Figura 3.6 Esquema de un artículo de colocaciones modificadoras

Las palabras en negritas son obligatorias para el artículo del diccionario.

La tilde ‘~‘, indica la posición en la cual la palabra clave se ha de repetir.

Palabra clave. Es obligatoria para el artículo.

Palabra relacionada. Define el modificador de la palabra clave.

TAB. Es una tabulación al inicio de la palabra relacionada.

Los corchetes indican que su contenido es opcional. Los marcos de la palabra clave se usan de forma exclusiva. Para el uso de estos marcos véase 3.3.1.2 Parámetros morfológicos.

Para los adjetivos que se usan de forma antepuesta es necesario colocar la tilde (~) delante del adjetivo. Esta acción indica que la palabra clave debe sustituirse en esa posición logran-do la anteposición al adjetivo. La ausencia de este símbolo indica posposición del adjetivo. Por ejemplo:

noticia cierta ~ veraz

soldado simple ~ valiente

Page 90: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

74

En los ejemplos, las combinaciones se leen cierta noticia, noticia veraz.

En la tabla de abajo se muestran algunos artículos del archivo primario de colocaciones modificadoras.

bien1<ADV muy bien2<SUS social bienes inmuebles muebles bienestar<SUS general bloque de concreto temático bloques acabados de piedra blusa blanca de trabajo rota causa común justa justificada principal comunidades aisladas autónomas civilizadas rurales concentración desproporcionada

Una muestra del archivo de colocaciones modificadoras en su etapa inicial (archivo prima-rio), se presenta en el Anexo A.1 Base primaria de colocaciones modificadoras.

Page 91: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE MODIFICADORES

75

3.4.2 Base secundaria

Cada renglón del archivo determina una palabra independiente. Los códigos son definidos del tamaño de un byte para los rasgos morfológicos y estilísticos (columnas 1 a la 8 de la Tabla 3.3) y posteriormente sigue la cadena de letras que representa la palabra seguida de su posible información semántica.

La posición de códigos en un renglón es la siguiente.

Tabla 3.3 Formato de la base secundaria de modificadores

Columna Descripción 1 Papel que desempeña la palabra en la colocación

(palabra clave versus relacionada) 2 Parte de la oración 3 Género 4 Número 5 Clase de inclinación 6 Posición del adjetivo 7 Marco de idiomatización 8 Marco de estilo 9 Palabra corriente con posibles marcos de homo-

nimia y clase semántica

3.4.2.1 Descripción de las columnas

1. Papel que desempeña la palabra en el artículo del diccionario

Tabla 3.4 Papel de la palabra corriente

Valor Descripción + Define la palabra clave de este artículo. - Define la palabra relacionada del artículo.

Page 92: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

76

2. Parte de la oración

Tabla 3.5 Valores de la parte de la oración

Valor Descripción 1 Sustantivo 2 Adjetivo 3 Verbo 4 Adverbio

3. Género Sólo se aplica para sustantivos. Para adjetivos, verbos y adverbios el género tiene valor cero. El género del adjetivo no se refleja en el diccionario.

Tabla 3.6 Valores para género

Valor Descripción 0 Invariable 1 Masculino 2 Femenino

4. Número Sólo se aplica para sustantivos. Para verbos, adverbios y términos multipalabra el número tiene valor cero. El número del adjetivo no se refleja en el diccionario.

Tabla 3.7 Valores para número

Valor Descripción 0 Invariable 1 Singular 2 Plural

5. Clase de inclinación para sustantivos, adjetivos y verbos La clase de inclinación son las posibles desinencias para la palabra corriente. La clase de inclinación se determina de acuerdo con las desinencias de las tablas siguientes:

• Sustantivos. Para sustantivos se tienen las siguientes desinencias y se proporcionan algunos ejemplos.

Page 93: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE MODIFICADORES

77

Tabla 3.8 Desinencias para la clase del sustantivo

Clase Desinencias Singular Plural

Ejemplos

0 0 0 lunes0 / lunes0 1 0 s acto0 / actos 2 0 es mineral0 / minerales 3 z ces lapiz / lápices

• Adjetivos. Para adjetivos se tienen las siguientes desinencias y se proporcionan al-gunos ejemplos.

Tabla 3.9 Desinencias para la clase del adjetivo

Desinencias Clase Singular

Masc. Singular

Fem. Plural Masc.

Plural Fem.

Ejemplos

0 0 0 0 0 de violencia0 * isósceles0

1 o a os as bueno / buena / buenos / buenas 2 0 0 es es elemental0 / elemental0 /

elementales / elementales 3 0 0 s s amable / amable / amables / amables 4 e a es as regordete / regordeta /

regordetes / regordetas 5 0 a es as invasor0 / invasora / invasores / invasoras 6 z z ces ces locomotriz / locomotriz /

locomotrices / locomotrices 7 1 a os as primero / primera / primeros / primeras ** 8 2 2 s s grande / grande / grandes /grandes ***

El cero indica la existencia de un sufijo vacío.

* Para la clase 0, el número cero en la desinencia indica que no se debe alterar la palabra (es invariable), tal como se indica en el ejemplo.

** Para la clase 7, el número uno en la desinencia singular masculino indica que se debe eliminar la última letra para este tipo de desinencia, tal como se indica en el ejemplo.

*** Para la clase 8, el número dos en la desinencia singular masculino y singular femeni-no indica que se deben eliminar las últimas dos letras para ambos tipos de desinencia, como

Page 94: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

78

se indica en el ejemplo; esta clase es única para el apócope gran, el cual se transforma en el diccionario a grande, el cual indica que se debe colocar previo al sustantivo que lo maneje y eliminando la desinencia adecuada.

• Verbos. Para verbos se tienen las siguientes desinencias y se proporcionan algunos ejemplos.

Tabla 3.10 Desinencias para la clase del verbo

Tipo Desinencias infinitivo Ejemplos 1 ar entrar, tomar, saltar 2 er correr, comer, ver 3 ir abrir, abatir, salir 4 arse abrazarse, tocarse 5 erse acogerse, enfurecerse 6 irse deprimirse, salirse

6. Posición del adjetivo Define la posición del adjetivo en la combinación. Ésta se usa para matizar la combinación de palabras.

Tabla 3.11 Posición del adjetivo

Valor Descripción 0 Posposición 1 Anteposición

7. Marco semántico Define si la combinación de palabras se considera idiomática, semi-idiomática o neutral. La ausencia de este marco indica que es una combinación neutral. Los valores posibles para esta columna se presentan en la Tabla 3.2.

8. Marco estilístico Define si la combinación de palabras (palabra clave y palabra relacionada) se considera especial dependiendo del tipo utilizado. La ausencia de este marco indica que es una com-binación normal. Los valores posibles para esta columna se presentan en la Tabla 3.2.

Page 95: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE MODIFICADORES

79

9. Palabra corriente En esta posición, inicia la palabra que se procesa actualmente seguida de sus posibles mar-cos de información homónima. Véase Tabla 3.1 Marcos para palabra clave.

Una muestra de la base secundaria de colocaciones modificadoras se presenta en el Anexo B.1 Base secundaria de colocaciones modificadoras.

3.5 Estructura de las bases de colocaciones con valencias verbales

Las colocaciones con valencias verbales se encuentran en la base primaria en una forma burda. Después del proceso de formateo se obtiene una forma esquematizada, una base se-cundaria. En los siguientes puntos se describen ambas bases.

3.5.1 Base primaria

El archivo primario de valencias verbales contiene las colocaciones con la relación sintácti-ca del tipo verbo → sustantivo. Por ejemplo, llover (→ a) → cántaros, sentir → alegría, poner → atención, etc. Para este archivo, tomamos como palabras clave los sustantivos dependientes y las palabras relacionadas son los verbos gobernantes.

El esquema general de un artículo del archivo primario de valencias verbales es el de la figura 3.7.

PALABRA_CLAVE [< Información semántica] [<Parámetro morfológico]

[idiomatización][estilo]TAB Palabra relacionada1 ~ [...]

[idiomatización][estilo]TAB Palabra relacionada2 [...] ~

[idiomatización][estilo]TAB ~ Palabra relacionada3

. . . . . . . [idiomatización][estilo]TAB Palabra relacionadaN ~

Figura 3.7 Esquema de un artículo de colocaciones con valencias verbales

Las palabras en negritas son obligatorias para el artículo del diccionario.

Palabra clave. Es obligatoria para el artículo y es exclusivamente sustantivo.

Palabra relacionada. Define al verbo rector.

Page 96: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

80

TAB. Es una tabulación al inicio de la palabra relacionada.

La tilde ‘~‘, indica la posición en la cual la palabra clave se debe repetir.

Los puntos suspensivos (...), indican omisión de una valencia, la necesaria para dar sentido a la combinación completa.

Los corchetes, indican que es opcional su contenido. Los marcos de la palabra clave se usan de forma exclusiva. Para el uso de estos marcos véase 3.3.1.2 Parámetros morfológicos.

En la tabla siguiente se muestran algunos artículos del archivo primario de valencias verba-les.

agua diluir ... con el ~ meterse en el ~ saltar al ~ aguas curarse con ~ tomar las ~ alcohol diluir ... con ~ alegría sentir ~ atención atraer la ~ dedicar ~ distraer la ~ llamar la ~ & poner ~ & prestar ~ cántaros & llover a ~ mesa & poner la ~ muerto & cargar con el ~ sepultar al ~ pestañas & quemarse las ~

Una muestra de la base primaria de colocaciones con valencias verbales, en su etapa inicial (archivo primario), se presenta en el Anexo A.2 Base primaria de colocaciones con valen-cias verbales.

Page 97: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE VALENCIAS VERBALES

81

3.5.1.1 Valencia omitida

La valencia omitida se define por los puntos suspensivos (...). Ésta indica que es necesario un actuante para dar sentido completo a la colocación.

Por ejemplo.

polvo ~ penetra ... (1) reducir ... a ~ (2)

capa cubrir ... con una ~ tapar con la ~

Ejemplo1 Ejemplo2

En la combinación, polvo penetra ..., el sentido es ‘que el polvo penetra hacia algún sitio’, por tal motivo se requiere de una palabra auxiliar (definida por los puntos suspensivos, ... ), para hacer la construcción con una semántica adecuada.

La posición de la valencia omitida se contabiliza de acuerdo al número de palabras anterio-res a ésta. Entonces, para la primera combinación el valor de esta columna es tres.

polvo(1) penetra (2) ... (3)

En la segunda combinación, reducir ... a polvo, el sentido es el siguiente ‘que se reduce alguna cosa a polvo’; por lo expuesto anteriormente, se requiere de una palabra para cons-truir la combinación adecuada. Para esta combinación, el valor de esta columna será dos.

reducir(1) ... (2) a (3) polvo (4).

La valencia omitida se intercala en la combinación según sea requerida.

3.5.1.2 Posición de la palabra clave

La tilde (~) representa la repetición de la palabra clave. Al igual que la valencia omitida, se puede intercalar en la frase según sea requerida. Esta columna define la posición de la pala-bra clave en la combinación.

Se enumera de acuerdo a la posición en la cual aparece dentro de la colocación.

brazos echarse ... en los ~ abrir los ~ cruzar los ~

corazón ~ brincó ~ saltó romper el ~

maleta ~ se abrió llevar la ~

Ejemplo3 Ejemplo4 Ejemplo5

Page 98: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

82

Para la combinación, ‘echarse ... en los brazos’, Ejemplo3, se lee ‘echarse algo o alguien en los brazos’. La primera combinación del Ejemplo4, al sustituir la tilde por la palabra clave corazón se encuentra el sujeto de la oración por estar conjugado el verbo: (el) cora-zón brincó.

En el Ejemplo5 tenemos la construcción de oraciones de pasiva refleja, (la) maleta se abrió, se permite solamente el pronombre se, los demás pronombres no se permiten en la construcción de las combinaciones.

La posición se enumera de la misma forma que la valencia omitida, obteniéndose el valor de uno para la primera combinación del Ejemplo4 y el valor de cinco para el Ejemplo3.

corazón(1) brincó (2)

echarse(1) ... (2) en (3) los (4) brazos(5)

3.5.2 Base secundaria

Cada renglón del archivo determina una palabra independiente. Los códigos son definidos del tamaño de un byte para los rasgos morfológicos y estilísticos (columnas 1 a la 13 de la Tabla 3.12) y posteriormente sigue la cadena de letras que representa la palabra.

La posición de códigos en un renglón es la siguiente.

Tabla 3.12 Formato de la base secundaria de valencias verbales

Columna Descripción 1 Papel que desempeña la palabra en la colocación (palabra

clave versus relacionada) 2 Parte de la oración 3 Género 4 Número 5 Clase de inclinación 6 Idiomatización 7 Estilo 8 Tiempo 9 Persona 10 Número de preposición (codificada) 11 Artículo

Page 99: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE VALENCIAS VERBALES

83

Columna Descripción 12 Valencia omitida 13 Posición de la palabra clave en la colocación 14 Palabra corriente

3.5.2.1 Descripción de las columnas

1. Papel que desempeña la palabra en el artículo del diccionario Los valores posibles para esta columna son los de la Tabla 3.4.

2. Parte de la oración Los valores posibles para esta columna son los de la Tabla 3.5. Los valores para adjetivo y adverbio no se aplican para este archivo de colocaciones.

3. Género Sólo se aplica para sustantivos. Para verbos el género es invariable. Los valores posibles para esta columna son los de la Tabla 3.6.

4. Número Sólo se aplica para sustantivos. Para verbos el número es invariable. Los valores posibles para esta columna son los de la Tabla 3.7.

5. Clase de inclinación para sustantivos y verbos La clase de inclinación indica las posibles desinencias de la palabra corriente. La clase de inclinación se determina con base a las desinencias de las tablas siguientes:

• Sustantivos. Para determinar la clase de inclinación del sustantivo se usa la Tabla 3.8.

• Verbos. Para verbos en infinitivo se tienen las siguientes desinencias y se propor-cionan algunos ejemplos.

Tabla 3.13 Desinencias para verbos en infinitivo y pronombre se

Tipo Desinencias infinitivo Ejemplos 1 ar entrar , tomar, saltar 2 er correr, comer, ver 3 ir abrir, abatir, salir

Page 100: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

84

Tipo Desinencias infinitivo Ejemplos 4 arse abrazarse, tocarse 5 erse acogerse, enfurecerse 6 irse deprimirse, salirse 7 Proclítico se

infinitivo -ar la paz se firmó

8 Proclítico se infinitivo -er

los hombres se enfurecieron

9 Proclítico se infinitivo -ir

la maleta se abrió

6. Marco semántico Define si la combinación de palabras se considera idiomática, semi-idiomática o neutral. La ausencia de este marco indica que es una combinación normal. Los valores posibles para esta columna se presentan en la Tabla 3.2.

7. Marco estilístico Define el contexto de posibles usos de la combinación de palabras. La ausencia de este marco indica que es una combinación normal. Los valores posibles para esta columna se presentan en la Tabla 3.2.

8. Tiempo del verbo Los verbos admitidos para este archivo, deben estar en su forma infinitiva o ser conjugados en tercera persona del singular o tercera persona del plural. Los tiempos considerados sólo son el presente, pasado perfecto y futuro. Esta columna se usa para las combinaciones de palabras en oraciones pasivas reflejas.

Tabla 3.14 Tiempos de conjugación del verbo

Valor Descripción 0 No existe tiempo de conjugación1 Tiempo presente 2 Tiempo pasado 3 Tiempo futuro

9. Persona Indica el número de la persona gramatical que entra en la conjugación del verbo, se permite solamente la tercera persona del singular o tercera persona del plural. Esta columna se usa

Page 101: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE VALENCIAS VERBALES

85

para la conjugación de las combinaciones de palabras que forman oraciones pasivas refle-jas.

Tabla 3.15 Persona de conjugación

Valor Descripción 0 No hay persona 1 1ra. Persona singular * 2 2da. Persona singular * 3 3ra. Persona singular 4 1ra. Persona plural * 5 2da. Persona plural * 6 3ra. Persona plural

* No se permiten estas conjugaciones.

10. Preposición Define el número de preposición que contiene la colocación según la lista de preposiciones del Anexo I. Preposiciones.

11. Artículo Define el número del artículo correspondiente que contiene la palabra relacionada de acuerdo a la siguiente tabla de artículos:

Tabla 3.16 Artículos

Valor Descripción Artículos 0 No existe artículo - 1 Artículo definido el, la, las, los 2 Artículo indefinido un, uno, una, unos, unas

12. Valencia Omitida Define la posición de la valencia omitida dentro de la colocación. El valor cero indica que no existe valencia. Para calcular el valor de esta columna véase el punto 3.5.1.1

13. Posición de la palabra clave

Define la posición de la palabra clave dentro de la colocación. Para calcular esta columna véase el punto 3.5.1.2

Page 102: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

86

14. Palabra corriente A partir de esta columna comienza la secuencia de caracteres que constituye la palabra. Si existe información semántica, se coloca después de la palabra con un marcador especial. Véase el punto 3.3.1.1.

Una muestra de la base secundaria de colocaciones con valencias verbales se presenta en el Anexo B.2 Base secundaria de colocaciones con valencias verbales.

3.6 Estructura de las bases de colocaciones con valencias sustantivales

Las colocaciones con valencias sustantivales se encuentran en la base primaria en una for-ma burda. Después del proceso de caracterización se obtiene una forma esquematizada, una base secundaria. En los puntos siguientes se describen ambas bases.

3.6.1 Base primaria

El archivo primario de valencias sustantivales contiene las colocaciones con la relación sintáctica del tipo sustantivo → sustantivo. Por ejemplo, voceros (→ del) → gobierno, nivel (→ del) → agua, resultado (→ de) → (los ←) análisis. Para este archivo se toma como palabras clave los sustantivos dependientes, es decir, el segundo sustantivo en el tex-to.

El esquema general de un artículo del archivo primario de valencias sustantivales es el si-guiente. PALABRA_CLAVE [< Información semántica] [<Parámetro morfológico]

[idiomatización][estilo]TAB Palabra relacionada1

[idiomatización][estilo]TAB Palabra relacionada2

[idiomatización][estilo]TAB Palabra relacionada3

. . . . . . . [idiomatización][estilo]TAB Palabra relacionadaN

Figura 3.8 Esquema de un artículo de colocaciones con valencias sustantivales

Las palabras en negritas son obligatorias para el artículo del diccionario.

Palabra clave. Es obligatoria para el artículo y define al sustantivo dependiente.

Page 103: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE VALENCIAS SUSTANTIVALES

87

Palabra relacionada. Define al sustantivo rector de la palabra clave.

TAB. Es una tabulación al inicio de la palabra relacionada.

Los corchetes indican que su contenido es opcional. Los marcos de la palabra clave se usan de forma exclusiva. Para el uso de estos marcos véase 3.3.1.2 Parámetros morfológicos.

En la tabla siguiente se muestran algunos artículos del archivo primario de valencias sus-tantivales.

ciudadano deberes del garantías del obligación del cliente obligaciones del derechos del petición del minerales características de los detección de los descripción de los parque árboles del flores del palomas del pueblo canto del correo del defensor del familias del habitantes del héroes del teatro del partido del voz del puerta diseño de la manija de la marco de la sustancias estudio de las manejo de las nomenclatura de las

Page 104: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

88

paso de las texto lectura del resto del resumen del vida reorden de la momento de la plano de la resto de la

Una muestra de la base primaria de colocaciones con valencias sustantivales en su etapa inicial (archivo primario) se presenta en el Anexo A.3 Base primaria de valencias sustanti-vales.

3.6.2 Base secundaria

Cada renglón del archivo determina una palabra independiente. Los códigos son definidos del tamaño de un byte para los rasgos morfológicos y estilísticos (columnas 1 a la 9 de la Tabla 3.17) y posteriormente sigue la cadena de letras que representa a la palabra.

La posición de códigos en un renglón es la siguiente.

Tabla 3.17 Formato de la base secundaria de valencias sustantivales

Columna Descripción 1 Papel que desempeña la palabra en la colocación (pala-

bra clave versus relacionada) 2 Parte de la oración 3 Género 4 Número 5 Clase de inclinación 6 Idiomatización 7 Estilo 8 Número de preposición 9 Artículo 10 Palabra

Page 105: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE VALENCIAS SUSTANTIVALES

89

3.6.2.1 Descripción de las columnas

1. Papel que desempeña la palabra en el artículo del diccionario Los valores posibles para esta columna son los de la Tabla 3.4.

2. Parte de la oración Los valores posibles para esta columna son los de la Tabla 3.5. Los valores para adjetivo, verbo y adverbio no se aplican para este archivo de colocaciones.

3. Género Sólo se aplica para sustantivos. Los valores posibles para esta columna son los de la Tabla 3.6.

4. Número Sólo se aplica para sustantivos. Los valores posibles para esta columna son los de la Tabla 3.7.

5. Clase de inclinación para sustantivos La clase de inclinación indica las posibles desinencias para la palabra corriente. La clase de inclinación se determina de acuerdo con las desinencias para sustantivos de la Tabla 3.8.

6. Marco semántico Define si la combinación de palabras se considera idiomática, semi-idiomática o neutral. La ausencia de este marco indica que es una combinación normal, véase el punto 3.3.2.

7. Marco estilístico Define el contexto de posibles usos de la combinación de palabras. La ausencia de este marco indica que es una combinación normal, véase el punto 3.3.2.

8. Preposición Define el número de preposición que contiene la colocación de acuerdo con la lista de pre-posiciones del Anexo I. Preposiciones.

9. Artículo Define el número del artículo correspondiente que contiene la palabra relacionada de acuerdo con la Tabla 3.16

Page 106: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

90

El artículo adecuado para la colocación se elige de acuerdo con la concordancia de su pala-bra clave (sustantivo) en el momento de mostrar la combinación.

10. Palabra corriente A partir de esta columna comienza la secuencia de caracteres que constituye la palabra. Si existe información semántica, se coloca después de la palabra con un marcador especial. Véase el punto 3.3.1.1.

Una muestra de la base primaria de colocaciones con valencias sustantivales se muestra en el Anexo B.3 Base secundaria de colocaciones con valencias sustantivales.

3.7 Estructura de las bases de hipónimos / hiperónimos

La base primaria de hipónimos e hiperónimos se encuentra en una forma burda. Después del proceso de caracterización se obtiene una forma esquematizada, una base secundaria. A continuación, se describen ambas bases.

3.7.1 Base primaria

El archivo primario de hipónimos / hiperónimos contiene la relación semántica hipónimo y su recíproco hiperónimo. Por ejemplo, flores — rosas, país — México, hombre — agente, líquido — agua, etc. Para esta relación semántica se refleja la relación de conceptos especí-ficos y conceptos generales: rosas ES_UN tipo de flores y México ES_UN tipo de país. La relación que se describe es semántica y se realiza entre conceptos generales y específicos.

Para este archivo, se toman como palabras clave los sustantivos que representan a los hipe-rónimos o superclase y como relacionadas a los posibles hipónimos o subclases. Los con-ceptos se encuentran jerarquizados.

El esquema general de un artículo del archivo primario hipónimos / hiperónimos es el si-guiente.

Page 107: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE HIPÓNIMOS / HIPERÓNIMOS

91

PALABRA_CLAVE [< Información semántica] [<Parámetro morfológico]

TAB Palabra hipónima1

TAB Palabra hipónima2

TAB Palabra hipónima3

. . . . TAB Palabra hipónimaN

Figura 3.9 Esquema de un artículo de hipónimos / hiperónimos

Las palabras en negritas son obligatorias para el artículo del diccionario.

Palabra clave. Es obligatoria para el artículo y representa el concepto general.

Palabra hipónima. Define a la subclase de la palabra clave.

TAB. Es una tabulación al inicio de la palabra relacionada.

Los corchetes, indican que su contenido es opcional. Los marcos de la palabra clave se usan de forma exclusiva. Para el uso de estos marcos véase 3.3.1.2 Parámetros morfológicos.

En la siguiente tabla se muestran algunos ejemplos de artículos del archivo primario de hipónimos / hiperónimos.

adornos anillos aretes collares pendientes animales animales domésticos felinos rapaces reptiles roedores animales domésticos cerdo ganado gato

Page 108: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

92

pájaro perro aparato1 aspiradora iluminador lavadora refrigerador tostador ventilador bebidas bebida caliente bebida fuerte refrescos bebida caliente cacao café chocolate té bebida fuerte champán licor ron vodka whisky refrescos Coca-cola Fanta Mirinda Pepsi Cola carne bisté chuleta liebre pollo salchichas

Una muestra de la base primaria de hipónimos / hiperónimos se presenta en el Anexo A.4 Base primaria de hipónimos / hiperónimos.

3.7.1.1 Clasificación de hipónimos

Los hipónimos, como mencionamos, se agrupan respecto a su concepto más general. Sin embargo, se puede hacer una clasificación dentro de los hipónimos. Se considera como

Page 109: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE HIPÓNIMOS / HIPERÓNIMOS

93

clasificación a un hipónimo que conste de más de una palabra, la cual debe ser palabra cla-ve para los hipónimos que engloba.

Por ejemplo, para el concepto animales, tenemos una clasificación que se encuentra como hipónimo nombrada animales domésticos. La clasificación debe ser palabra clave para los hipónimos que subordina como se muestra en el ejemplo.

animales animales domésticos felinos reptiles animales domésticos cerdo ganado gato pájaro

Para los nombres propios (de una palabra y más de una palabra) se inicia con mayúscula, esto diferencia de los hipónimos considerados como clasificaciones. Por ejemplo.

bahía Bahía de Vizcaya Bahía de Los Ángeles

golfo

Golfo de México Golfo Pérsico

Esta información es útil para el proceso de inferencia, donde no se intentará generar com-binaciones con las etiquetas de clasificación.

3.7.2 Base secundaria

Cada renglón del archivo determina una palabra independiente. Los códigos son definidos del tamaño de un byte para los rasgos morfológicos (columnas 1 a la 6 de la Tabla 3.18) y posteriormente sigue la cadena de letras que representa la palabra.

La posición de códigos en un renglón es la siguiente:

Page 110: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 3. DESARROLLO DEL SISTEMA CROSSLEXICA-ESP

94

Tabla 3.18 Formato de la base secundaria de hipónimos / hiperónimos

Columna Descripción 1 Papel que desempeña la palabra (palabra clave versus

relacionada) 2 Parte de la oración 3 Género 4 Número 5 Clase de inclinación 6 Palabra corriente

3.7.2.1 Descripción de las columnas

1. Papel que desempeña la palabra en el artículo del diccionario

Tabla 3.19 Tipo de concepto

Valor Descripción + Define la superclase del artículo. - Define la subclase.

2. Parte de la oración

Tabla 3.20 Valor de la parte de la oración

Valor Descripción 0 Clasificación 1 Sustantivo 2 Adjetivo (n/a) 3 Verbo (n/a) 4 Adverbio (n/a)

Las partes de la oración con la notación (n/a), no se aplican a este archivo.

El valor cero es únicamente de clasificación y no se deben realizar inferencias en el mo-mento del enriquecimiento de las colocaciones.

3. Género Sólo se aplica para sustantivos. Los valores posibles para esta columna son los de la Tabla 3.6.

Page 111: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ESTRUCTURA DE LAS BASES DE HIPÓNIMOS / HIPERÓNIMOS

95

4. Número Sólo se aplica para sustantivos. Los valores posibles para esta columna son los de la Tabla 3.7.

5. Clase de inclinación para sustantivos La clase de inclinación indica las posibles desinencias para la palabra corriente. La clase de inclinación se determina con base a las desinencias de la Tabla 3.8.

6. Palabra corriente A partir de esta columna comienza la secuencia de caracteres que constituye la palabra. Si existe información semántica, se coloca después de la palabra clave con un marcador espe-cial. Véase el punto 3.3.1.1.

Una muestra de la base secundaria de hipónimos / hiperónimos se presenta en el Anexo B.4 Base secundaria de hipónimos / hiperónimos.

Page 112: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

96

Capítulo 4. Caracterización morfológica de las colocacio-nes

En este capítulo se presenta el procedimiento para la transformación de las bases primarias de colocaciones a las bases secundarias. También, se dan las tablas necesarias para la ob-tención de las características morfológicas de los componentes de las colocaciones. En la última sección de este capítulo se presentan los diagramas y las herramientas computacio-nales utilizadas para el desarrollo del sistema CrossLexica-Esp.

La metodología usada para identificar los rasgos morfológicos de cada uno de los compo-nentes de las colocaciones, se hace con base a los sufijos característicos de español para cada categoría gramatical y a las hipótesis propuestas para cada archivo que contiene un tipo especial de colocaciones. Esto se detallará en el momento que sea analizado cada ar-chivo que contiene las colocaciones.

4.1 Determinación de las categorías gramaticales

Las categorías gramaticales se determinan con base a los sufijos característicos para cada clase de palabra, a los sufijos característicos para género (masculino y femenino) y para número. Además, se consideraron listas de excepciones de las reglas de determinación de las categorías gramaticales. En los siguientes puntos se dan los sufijos para la determina-ción de cada categoría gramatical.

4.1.1 Clase de palabra

Agrupamos los sufijos característicos para identificar cada una de las partes de la oración (POS): sustantivos, verbos, adjetivos y adverbios. Las agrupaciones son las siguientes.

4.1.1.1 Sufijos característicos para sustantivos

Para identificar las palabras sustantivas se usan los siguientes sufijos.

ado, aje, ajo, al, ato,ario, astro, avo, azgo, azo, cracia, dad, dero, do, dor, dura, edad, edo, ería, ero, erío, ez, eza, esa, filia, fobia, fono, ia, ía, ío, icio, idad, ín, ión, isa, ismo, ísmo,

Page 113: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

OBTENCIÓN DE LOS RASGOS MORFOLÓGICOS

97

ista, itis, itud, és, ez, eza, iz, logía, logo, maquia, mento, metría, miento, ncia, nza, or, pata, patía, sión, sis, sor, tad, tor, tud, ura, zón, is, ma, ta, pa, ora, esa.

4.1.1.2 Sufijos característicos para adjetivos

Para identificar las palabras adjetivas se usan los siguientes sufijos.

ablo, áceo, aco, ado, al, án, anco, ante, ar, ardo, ario, arra, asco, ata, átil, ato, avo, az, ble, bundo, cio, cundo, dero, dío, dizo, do, eco, ego, ejo, el, enario, enco, endo, engo, eno, ense, eño, eo, erno, ero, és, esco, ésimo, este, estre, estre, eta, eyo, í, iaco, íaco, ial, iano, ibundo, ica, icida, icio, icola, ícola, icundo, ida, ido, iego, iego, ién, iento, ífero, ífico, iforme, ífugo, ígneo, igo, ígrado, ijo, il, ílocuo, imo, ín, ína, indo, ino, íntimo, io, ío, iondo, ípeto, isco, ista, ístico, ita, ito, ivo, ívoro, izante, izo, lento, ndero, ndino, ndo, neo, no, ntío, ófago, ófi-lo, ógeno, oide, ol, ólatra, ómano, ón, orro, oso, ota, ote, ple, plo, tario, ticio, tico, til, tivo-la, to, torio, uco, udo, uence, ueño, üeño, ujo, ulo, uncho, uno, úpeto, uple, uplo, urno, us-co.

4.1.1.3 Sufijos característicos para verbos

Utilizamos las terminaciones para las tres clases de verbos, además de usar los enclíticos con el pronombre se y los verbos conjugados para las oraciones pasivas reflejas, (los verbos conjugados para tercera persona del singular y plural). Las desinencias son las siguientes:

ar, er, ir, arse, erse, irse.

Las desinencias para tercera persona del singular y plural, así como para los tiempos sim-ples (presente, pasado y futuro) son las siguientes:

-a, -an, -ó, -aron, -ará, -arán, -e, -en, -ió, -ieron, -erá, -erán, -irá, -irán.

4.1.1.4 Sufijo característico para adverbios

Para catalogar los adverbios se usa el sufijo estándar -mente, además de una lista que con-tiene los adverbios que no siguen la norma como cerca, ahora, muy, etc. Véase Anexo II. Adverbios. Las locuciones adverbiales se determinan por la combinación de una preposi-ción y otra parte de la oración y se consideran construcciones adverbiales. Véase el punto 3.4.1.

Page 114: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 4. CARACTERIZACIÓN MORFOLÓGICA DE LAS COLOCACIONES

98

4.1.2 Categoría de género

Se identifica el género según la terminación de la palabra.

Si la POS es sustantivo.

• Se considera masculino, si la palabra tiene alguna de las siguientes terminacio-nes:

ente, ante, ar, er, ma, mas, tor, dor, or, án, ín, és, o, ó, e, é, l, x, n, y.

• Se considera femenino, si la palabra tiene alguna de las siguientes terminacio-nes:

tora, ora, ión, tad, tud, dad, dura, isa, eza, ina, triz, ez, itis, sis, esa, ía, ia, ta, pa, a, z, ed, lis, mis, xis.

• Se considera invariable o neutro, si es un término multipalabra o si la palabra se encuentra en la lista de excepciones.

Si la POS es adjetivo

• Se considera masculino, si la palabra tiene alguna de las siguientes terminacio-nes:

tor, dor, or, ma, án, ín, o, e, x, ez, oz.

• Se considera femenino, si la palabra tiene alguna de las siguientes terminacio-nes:

tora, ora, ión, tad, tud, dad, dura, isa, eza, ina, triz, itis, ía, ia, ta, pa, a.

• Se considera invariable o neutro, si la palabra se encuentra en la lista de excep-ciones para adjetivos o si la palabra tiene alguna de las siguientes terminaciones:

ista, ble, crata, ente, ante, i, í, ú, n, l, r, s, z, ar, er, te, tre.

4.1.3 Categoría de número

Para identificar el número de la palabra se toma en cuenta lo siguiente:

Si la POS es sustantivo o adjetivo.

• Se considera singular, si la palabra tiene alguna de las siguientes terminaciones:

¬( s), és.

Page 115: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

OBTENCIÓN DE LOS RASGOS MORFOLÓGICOS

99

• Se considera plural, si la palabra tiene alguna de las siguientes terminaciones:

as, es, os, ses, s.

• Se considera invariable o neutro, si la palabra se encuentra en la lista de excep-ciones de número invariable o si la palabra tiene alguna de las siguientes termi-naciones:

sis, tis, lis, nis, mis, cis, dis, xis, quis, us, x.

El símbolo ¬, indica que es cualquier terminación excepto los de la lista.

Se cuenta con archivos de excepciones de género, número, adverbios, etc. para la adecuada caracterización. Véase Anexo III. Archivos auxiliares.

Definiremos las siguientes funciones para determinar las clases de palabras y las categorías gramaticales de género y número. Estas funciones serán de utilidad para la definición de las hipótesis y la concordancia del archivo de colocaciones en cuestión.

F1. Sea P la función que determina el valor de la parte de la oración para la palabra r, defi-nida como sigue:

P(r) = v | v ∈{SUS, ADJ, ADV, VER, CONS_ADJ, CONS_ADV}

F2. Sea G la función que determina el valor de género para la palabra r, definida como si-gue:

G(r) = v | v ∈{NEUTRO, MASC, FEM}

y sea G(0) = NEUTRO

F3. Sea N la función que determina el valor de número para la palabra r, definida como sigue:

N(r) = v | v ∈{NEUTRO, SING, PLUR}

y sea N(0) = NEUTRO

Page 116: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 4. CARACTERIZACIÓN MORFOLÓGICA DE LAS COLOCACIONES

100

4.2 Determinación de la clase de inclinación

Para encontrar la clase de inclinación, es decir, las posibles desinencias para la palabra, se proponen las siguientes tablas para cada parte de la oración con base al grupo de sufijos. Cada conjunto denota una clase de inclinación.

Tabla 4.1 Clases de inclinación para sustantivos

Clase Sufijos 0 itis, lis, nis, mis, cis, dis, xis, quis,

+ lista de excepciones 1 a, e, i, o, u, é, ó 2 d, r, n, l, j, y , á, í, ú , és, b, m 3 z, aces , eces, ices, oces, uces

Tabla 4.2 Clases de inclinación para adjetivos

Clase Sufijos 0 Lista (ver anexos) 1 o, a 2 á, n, l, r, í, ú 3 ble, nte, ple, te, tre, ense, be, e 4 ota, ote, ete, eta 5 sor, sora, dor, dora, tor, tora, án, in, és, esa 6 z, aces, eces, ices, oces, uces 7 Apócopes 8 Apócope grande

Tabla 4.3 Clases de inclinación para verbos

Clase Sufijos 1 ar 2 er 3 ir 4 arse 5 erse 6 irse 7 a, an, ó, aron, ará, arán (con proclítico se,

Page 117: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

OBTENCIÓN DE LOS RASGOS MORFOLÓGICOS

101

Clase Sufijos verbos -ar)

8 e, en, ió, ieron, erá, erán (con proclítico se, verbos -er)

9 e, en, ió, ieron, -irá, -irán (con proclítico se, verbos -ir )

Para las construcciones adjetivales y adverbiales no se refleja la clase de inclinación (la clase es cero) debido a que son invariables o neutros. Los adjetivos son transformados a la forma estándar (singular masculino); los verbos a la forma infinitiva. Los sustantivos no se reducen a la forma singular, se mantienen ambas formas.

Los rasgos idiomáticos y semánticos se transcriben al archivo secundario en la posición según el esquema de cada archivo.

4.3 Procedimiento para colocaciones modificadoras

Se inicia consultando cada artículo de la base primaria de colocaciones modificadoras. El proceso total se divide en dos pasos.

En el primer paso, se determina toda la información morfológica posible de la palabra cla-ve. Si existe algún marco morfológico se determina su característica morfológica y en caso contrario se determina con base a los sufijos para cada categoría gramatical y clase de in-clinación del punto 4.1.

Segundo paso, se obtiene la información morfológica de cada palabra relacionada y se ve-rifica que no haya discrepancia de concordancia entre las palabras relacionadas y la palabra clave. Esto se realiza haciendo uso de las hipótesis para colocaciones modificadoras y se hace la comprobación de la concordancia de género y número.

4.3.1 Hipótesis para colocaciones modificadoras

Sea w la palabra clave y s la palabra relacionada, entonces:

1. Si P(w) = SUS, tenemos que, ∀i P(si) = ADJ ∨ CONS_ADJ n >0 n

i= 1

Page 118: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 4. CARACTERIZACIÓN MORFOLÓGICA DE LAS COLOCACIONES

102

2. Si P(w) = (ADJ ∨ VER ∨ ADV), tenemos que, ∀i P(si) = ADV ∨ CONS_ADV n>0

Donde CONS_ADJ y CONS_ADV es construcción adjetival y construcción adverbial res-pectivamente.

4.3.2 Comprobación de la concordancia

Con las hipótesis anteriores comprobamos que las combinaciones concuerden en género y número. Estas comprobaciones se realizan solamente para la primera hipótesis.

Considerando las funciones de género y número (F2 y F3), tenemos que para comprobar la concordancia del género se define:

∀i G(si) = G(w) ∨ G(0) n>0

y para comprobar la concordancia del número se define:

∀i N(si) = N(w) ∨ N(0) n >0

4.4 Procedimiento para colocaciones con valencias verbales

Se inicia consultando cada artículo de la base primaria de colocaciones con valencias ver-bales. El proceso se divide en dos pasos.

En el primer paso, se determina la información morfológica de la palabra clave con base al punto 4.1.1 y se encuentran los componentes de la palabra relacionada: preposición, tiempo verbal, persona, artículo, posición de la valencia omitida, pronombre se, posición de la pa-labra clave y se obtienen los rasgos morfológicos de la palabra relacionada de acuerdo al punto 4.1.1.

En el segundo paso, se comprueba la concordancia entre el verbo y la persona gramatical.

Para la palabra relacionada, puede contener palabras funcionales y valencia omitida, el ver-bo debe quedar aislado de las palabras funcionales. Entonces, se procede a buscar la exis-tencia de preposición y de artículo. Se identifica el número de preposición con base al ar-chivo de preposiciones (Anexo I. Preposiciones). Si existe el artículo, se identifica si es definido o indefinido. El artículo se ajusta (en género y número) al sustantivo que lo acom-

n

i= 1

n

i= 1

n

i= 1

Page 119: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

OBTENCIÓN DE LOS RASGOS MORFOLÓGICOS

103

paña en el momento que el sistema muestra la combinación. Se procede con la búsqueda de la valencia omitida y la marca de sustitución para la palabra clave.

Al extraer las partes funcionales que enlazan el verbo y el sustantivo, el verbo queda aisla-do. Una vez aislado el verbo, se determina la existencia del enclítico se o como proclítico de oraciones pasivas reflejas. En el primer caso, se elimina el enclítico y se determina la clase de inclinación (véase Tabla 4.3). En el segundo caso, se elimina el pronombre y se determina el tiempo verbal y persona de acuerdo a las desinencias para esta clase (véase el punto 4.2). Una vez identificados los rasgos morfológicos se estandariza el verbo a la forma infinitiva.

Para este archivo de colocaciones se considera la siguiente hipótesis y se hace la comproba-ción para la persona gramatical.

4.4.1 Hipótesis para colocaciones con valencias verbales

Sea la palabra clave w y la palabra relacionada s.

1. P(w) = SUS, tenemos que, ∀i P(si) = VER n > 0

Toda palabra clave w en este archivo primario es exclusivamente sustantivo y las palabras relacionadas son verbos.

4.4.2 Comprobación de la concordancia

Para los verbos conjugados se realiza la comprobación entre el verbo y el sustantivo. To-memos en cuenta que por permitir el uso de oraciones pasivas reflejas, estamos obligados a utilizar conjugaciones para la tercera persona del singular y plural. Si el verbo se encuentra conjugado, la comprobación se realiza para el número y la persona.

Se define la siguiente función para la determinación de la persona gramatical del verbo.

Sea Per la función que determina la persona gramatical del verbo r y se define como sigue:

Per(r) = v | v ∈{1_Per_SING, 2_Per_SING, 3_Per_SING, 1_Per_PLUR, 2_Per_PLUR, 3_Per_PLUR }

Entonces,

Per(si) = 3_Per_SING ∨ 3_Per_PLUR

n

i= 1

Page 120: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 4. CARACTERIZACIÓN MORFOLÓGICA DE LAS COLOCACIONES

104

y para comprobar la concordancia del número se define:

N(si) = N(w)

1_Per_SING, indica primera persona singular, y así con todas las demás personas gramati-cales.

4.5 Procedimiento para colocaciones con valencias sustantivales

Se consulta cada artículo de la base primaria de colocaciones con valencias sustantivales. Se determina la información morfológica para la palabra clave con base a los sufijos para cada categoría gramatical (ver el punto 4.1.1). Se procede con la búsqueda de los compo-nentes funcionales de la palabra relacionada.

Para la palabra relacionada, se busca la existencia de la preposición y el artículo. La prepo-sición se empata con el número de preposición correspondiente del archivo de preposicio-nes (Anexo I). Para realizar la caracterización se considera la siguiente hipótesis.

4.5.1 Hipótesis para colocaciones con valencias sustantivales

Sea la palabra clave w y la palabra relacionada s.

1. Si P(w) = SUS, tenemos que, ∀i P(si) = SUS n >0

Toda palabra clave w en este archivo es exclusivamente sustantivo, así como las palabras relacionadas.

En este archivo no se hace ningún tipo de comprobación de concordancia.

4.6 Procedimiento para hipónimos / hiperónimos

Se consulta cada artículo de la base primaria de hipónimos / hiperónimos. En este archivo sólo existen conceptos. Se determinan los rasgos morfológicos con base a los sufijos para determinar las categorías gramaticales (ver el punto 4.1.1). Esto se realiza para la palabra clase y subclase. Para las etiquetas usadas como clasificaciones no se determina ningún rasgo morfológico.

Para este archivo no se considera ninguna hipótesis ni se comprueba ninguna concordancia.

n

i= 1

Page 121: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

105

4.7 Implementación del sistema CrossLexica-Esp

El sistema CrossLexica-Esp se desarrolló en C++ Builder 5.0 y el manejador de la base de datos fue Paradox. Se optó por este manejador por ser nativo de C++ Builder y por consi-guiente es fácil de implementar. Además, al realizar consultas a la base de datos, se tiene mejor rendimiento que con otros manejadores como Access [35] y utilizar un manejador

como SQL Server necesita de mayores requerimientos de hardware [38] que el usuario promedio posee.

Los requerimientos mínimos para la instalación del sistema son:

Procesador Pentium

32 MB de memoria RAM

Sistema operativo Windows (95/98/2000/NT)

Espacio disponible en el disco duro 20 MB

4.8 Diagramas de casos de uso

El diagrama de casos de uso del sistema CrossLexica-Esp se presenta en la figura 4.1 [37].

La descripción para los casos de usos es la siguiente:

Caso de uso: Formatear colocaciones

Actores: Archivos de colocaciones y archivos formateados de colocaciones.

Propósito: Transformar los archivos de colocaciones a una forma secundaria con rasgos morfológicos y semánticos de cada componente de la colocación.

Resumen: Un artículo es leído del archivo de entrada y se obtienen los rasgos morfológicos de los dos componentes de la colocación. Una vez obtenidos los rasgos, se veri-fica la concordancia sintáctica y se graba en un archivo secundario.

Flujo de sucesos

1. Inicia con la llegada de un artículo (varias colocaciones con una misma palabra clave).

2. Se determinan los rasgos morfológicos de la palabra clave y de cada palabra relaciona-da. Para cada colocación se comprueba la concordancia entre los componentes.

Page 122: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

IMPLEMENTACIÓN DEL SISTEMA

106

3. Al terminar de comprobar la concordancia y no encontrar errores, se graba la coloca-ción.

Figura 4.1 Diagrama de casos de uso del sistema CrossLexica-Esp

Caso de uso: Compilar enlaces entre palabras

Actores: Archivos de colocaciones formateados y Bases Paradox.

Propósito: Generar el diccionario general de palabras y la base de datos de enlace sintácti-cos y semánticos entre palabras.

Resumen: Un artículo es leído del archivo de entrada, se insertan los componentes al dic-cionario general y a la base de enlaces entre palabras.

Flujo de sucesos

1. Inicia con la llegada de un artículo.

2. Se separan las colocaciones del artículo y se verifica la existencia de los componen-tes de la colocación en el diccionario general. Si no existen los componentes se in-sertan a la base con todas sus características morfológicas.

Page 123: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CASOS DE USO

107

3. Para todas las colocaciones, se insertan los enlaces entre palabras.

Caso de uso: Consultar colocaciones

Actores: Usuario y Bases de Paradox.

Propósito: Mostrar las colocaciones con los papeles sintácticos y semánticos que desem-peñan entre las palabras y generar posibles colocaciones no explícitas en la base de datos.

Resumen: Se introduce una palabra o se selecciona del diccionario general. Con la palabra solicitada, se buscan los enlaces sintácticos y semánticos; posteriormente, se in-tentan generar nuevas colocaciones con base a la información sintáctica y se-mántica de las colocaciones previas.

Flujo de sucesos

1. El usuario introduce o selecciona una palabra que pertenece al diccionario general.

2. Se buscan los enlaces sintácticos en la base de datos y se muestran al usuario.

3. Se buscan los enlaces semánticos en la base de datos y se muestran al usuario.

4. Con base a la información anterior, se infieren las nuevas colocaciones. Si se gene-raron las colocaciones, se muestran al usuario.

5. Termina cuando el usuario cierra la aplicación.

En las figuras 4.2, 4.3 y 4.4 se muestran los diagramas de secuencia para los casos de uso de la figura 4.1.

Page 124: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

IMPLEMENTACIÓN DEL SISTEMA

108

Figura 4.2 Diagrama de secuencia del caso de uso Formatear colocaciones

Figura 4.3 Diagrama de secuencia del caso de uso Compilar enlaces entre palabras

Page 125: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

DIAGRAMAS DE SECUENCIA

109

Figura 4.4 Diagrama de secuencia del caso de uso Consultar colocaciones

Page 126: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

IMPLEMENTACIÓN DEL SISTEMA

110

En la figura 4.5 se muestra el diagrama entidad-relación del sistema CrossLexica-Esp [36], en esta figura se muestran las relaciones entre las tablas y la cardinalidad entre ellas. Cada tabla mantiene una relación uno–muchos, con respecto a la tabla Diccionario. Actualmente, las tablas de colocaciones modificadoras (ColMod), sustantivales (ColSus), verbales (Col-Verb) y los hipónimo / hiperónimos entre las palabras (Conceptos) tienen aproximadamente 13 mil registros y el diccionario general tiene aproximadamente 5 mil registros.

El volumen de la información es manejable como un estudio que se realizó en el laboratorio de lenguaje natural del CIC [39] y el presentado en [2]. La frecuencia de ocurrencia de las palabras sigue una variante de ley de Zipf. Esta distribución no es sublineal, sino tienen una forma sesgada y se aproxima más al inverso del cuadrado de j, es decir, existe un conjunto pequeño de palabras muy frecuente y muchas que aparecen muy pocas veces, para cual-quier idioma [39].

Figura 4.5 Modelo entidad-relación del sistema CrossLexica-Esp

El diccionario de datos de la tabla que contiene las palabras únicas, tabla Diccionario, se presenta en la Tabla 4.4.

Los enlaces sintácticos se encuentran en tres tablas. Para los enlaces del tipo modificador, se encuentran codificados en la tabla ColMod, el diccionario de datos correspondiente se presenta en la Tabla 4.5. Los enlaces para los complementos sustantivales, se encuentran

Page 127: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

DICCIONARIOS DE DATOS

111

codificados en la tabla ColSus, el diccionario de datos correspondiente se presenta en la Tabla 4.6. Los enlaces para los complementos verbales, se encuentran codificados en la tabla ColVerb, su diccionario de datos es el de la Tabla 4.7.

Los enlaces semánticos de superclase y subclase, se encuentran codificados en la tabla Conceptos, el diccionario de datos correspondiente es el de la Tabla 4.8.

Tabla 4.4 Diccionario de datos de la tabla Diccionario

Campo Tipo de dato Descripción

1 ID_PALABRA Numérico Identificador de la palabra dentro del diccionario. Número consecutivo (llave)

2 PALABRA Texto(50) Conjunto de caracteres que definen la palabra.

3 GPO Numérico Número consecutivo para identificar las acepciones de la palabra.

4 POS Numérico Identificador de parte de la oración. 5 GEN Numérico Identificador del género de la palabra. 6 NUM Numérico Identificador del número de la pala-

bra. 7 INCLINACION Numérico Clase de inclinación de la palabra 8 INFO Texto(50) Información semántica de la palabra

para ayuda del usuario.

Tabla 4.5 Diccionario de datos de la tabla modificadores: ColMod

Campo Tipo de dato Descripción

1 ID Numérico Índice de la tabla (llave). 2 ID_PALABRA Numérico Identificador de la palabra. 3 TIPO_RELACION Texto(30) Papel sintáctico que desempeña la

palabra con respecto a su palabra re-lacionada.

4 ID_PALABRA_R Numérico Identificador de la palabra relaciona-da.

4 IDIOMÁTICA Texto (1) Marca para identificar que la combi-nación de palabras es idiomática.

Page 128: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

IMPLEMENTACIÓN DEL SISTEMA

112

6 ESTILO Texto (1) Marca para identificar que la combi-nación de palabras se usa de forma especial en los textos.

7 POSI_ADJ Numérico Indica si el adjetivo se debe colocar antepuesto a su sustantivo

Tabla 4.6 Diccionario de datos de la tabla de complementos sustantivales: ColSus

Campo Tipo de dato Descripción

1 ID Numérico Índice de la tabla (llave). 2 ID_PALABRA Numérico Identificador de la palabra. 3 TIPO_RELACION Texto(30) Papel sintáctico que desempeña la

palabra con respecto a su palabra re-lacionada.

4 ID_PALABRA_R Numérico Identificador de la palabra relaciona-da.

4 IDIOMÁTICA Texto (1) Marca para identificar que la combi-nación de palabras es idiomática.

6 ESTILO Texto (1) Marca para identificar que la combi-nación de palabras se usa de forma especial en los textos.

7 PREP Numérico Número de la preposición que conec-ta a las palabras.

8 ART Numérico Número de grupo de artículos (defi-nido o indefinido).

Tabla 4.7 Diccionario de datos de la tabla de complementos verbales: ColVer

Campo Tipo de dato Descripción

1 ID Numérico Índice de la tabla (llave). 2 ID_PALABRA Numérico Identificador de la palabra. 3 TIPO_RELACION Texto(30) Papel sintáctico que desempeña la

palabra con respecto a la palabra rela-cionada.

Page 129: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

DICCIONARIOS DE DATOS

113

Campo Tipo de dato Descripción

4 ID_PALABRA_R Numérico Identificador de la palabra relaciona-da.

5 IDIOMÁTICA Texto (1) Marca para identificar que la combi-nación de palabras es idiomática.

6 ESTILO Texto (1) Marca para identificar que la combi-nación de palabras se usa de forma especial en los textos.

7 TIEMPO Numérico Indica el tiempo de conjugación del verbo.

8 PERSONA Numérico Indica la persona de conjugación del verbo.

9 PREP Numérico Número de la preposición que conec-ta a las palabras.

10 ART Numérico Número de grupo de artículos (defi-nido o indefinido).

11 VALENCIA Numérico Indica la existencia y posición de la posible valencia semántica que se omitió

12 POSI_PALABRA Numérico Indica la posición en que se coloca la palabra sustantiva dentro de la colo-cación

Tabla 4.8 Diccionario de datos de l atabla de clases y subclases: Conceptos

Campo Tipo de dato Descripción

1 ID Numérico Índice de la tabla (llave). 2 ID_PALABRA Numérico Identificador de la palabra. 3 TIPO_RELACION Texto(30) Papel sintáctico que desempeña la

palabra con respecto a su palabra re-lacionada.

4 ID_PALABRA_R Numérico Identificador de la palabra relaciona-da.

El funcionamiento del sistema se muestra en el capítulo cinco.

Page 130: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

114

Capítulo 5. Resultados del sistema CrossLexica-Esp

En este capítulo se presentan dos resultados importantes, primero: los resultados obtenidos del formateo de las colocaciones, los que se explican con algunos segmentos de las bases formateadas de colocaciones; segundo: el sistema que demuestra las colocaciones, esto es, la interfaz del sistema CrossLexica-Esp, en esta sección se presentan el funcionamiento del sistema.

5.1 Resultados de la caracterización morfológica

Después del proceso de formateo, se obtienen los rasgos morfológicos de las colocaciones, los que se reflejan en las bases secundarias.

En los siguientes puntos se describen los resultados del formateo para cada tipo de coloca-ciones.

5.1.1 Descripción de los resultados de la base secundaria de colocaciones modifica-doras

En el siguiente cuadro se muestra un segmento de la base secundaria de colocaciones modi-ficadoras caracterizada morfológicamente.

+11110 absolutismo -20030 ilustre -20010 impuesto -20050 francés -20020 provincial -20020 real +12120 acción -20010 armado -20010 bueno -20010 combinado -20000 de gracias +12120 actividad -20010 bélico -20010 bullicioso -20010 científico -20010 deportivo -20010 económico +11210 actos

Page 131: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

RESULTADOS DE LA CARACTERIZACIÓN MORFOLÓGICA

115

-20010 delictivo -20010 público -20010 reclamado -20010 religioso +11110 agente1<CLASS:hombre -20010 británico -20000 de bolsa -20000 de negocios -20000 de policía +11110 agente2<CLASS:sustancia -20010 dañino -20000 de limpieza -20010 patógeno -20010 químico -20020 viral +20010 agradecido -40000 muy -40000 poco -40000 sumamente +11110 caballo -20010 fogoso -20030 azabache +11210 caballos -20000 Sde fuerza +12110 cabeza -20010 blanco -20010 bueno -20000& de chorlito -20010 descubierto +11120 capital1 -20010 básico -20030 circulante -20030 constante -20010 extranjero -20010 financiero -20020 fundamental -20010 propio -20020 social -20030 variable +12120 capital2 -20010 mexicano +11210 derecho1<"leyes" -20020 civil -20000 de autor -20010 humano -20020 universal +11210 derecho2<"pagos" -20010 arancelario -20000 de aduana -20000 de entrada +11110 derrame -20020 cerebral

Page 132: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

116

+30010 desarrollar -40000 armónicamente -40000 independientemente +11110 dinero -20020 constante -20010 efectivo -20010 suelto

La primera columna nos indica el papel que desempeña la palabra corriente. Las siguientes cuatro columnas (2-5) muestran la información morfológica de la palabra. La columna 6, sólo para adjetivos, indica si es antepuesto el adjetivo. Las siguientes dos columnas (7 y 8) reflejan la idiomatización y estilo de la combinación de palabras; estas columnas sólo son usadas por las palabras relacionadas.

Por ejemplo, para el siguiente artículo se presenta la siguiente interpretación:

+12120 acción -20010 armado -20010 bueno -20000 de gracias

Para la palabra clave acción se tiene su información morfológica la cual es sustantivo (1), femenino (2), singular (1) y la clase de inclinación es de tipo dos (2), esto es, las posibles desinencias son Ø /es: acción y acciones. Véase Tabla 4.1.

Para la palabra relacionada armado la interpretación es la siguiente:

POS: Adjetivo (2). Género: No se refleja (0). Número: No se refleja (0). Clase de inclinación: 1.

armado / armada / armados / armadas Idiomatización: neutra (vacía). Estilo: neutro (vacío).

Para la palabra relacionada bueno la interpretación es la siguiente:

POS: Adjetivo (2). Género: No se refleja (0). Número: No se refleja (0). Clase de inclinación: 1.

bueno / buena / buenos / buenas

Page 133: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

RESULTADOS DE LA CARACTERIZACIÓN MORFOLÓGICA

117

Idiomatización: neutra (vacía). Estilo: neutro (vacío).

Para la palabra relacionada de gracias la interpretación es la siguiente:

POS: Adjetivo (2). Género: No se refleja (0). Número: No se refleja (0). Clase de inclinación: invariable (0). Idiomatización: neutra (vacía). Estilo: neutro (vacío).

Obsérvese que los adjetivos están en la forma estándar, y la forma correcta del adjetivo se crea en el momento de generar la combinación. Por ejemplo, para acción, al combinarla con el adjetivo armado, el adjetivo debe estar en concordancia con el sustantivo que loa acompaña, el cual tiene los rasgos morfológicos: femenino y singular. Por lo tanto armado sólo puede adquirir la forma armada para construir la combinación correcta, acción arma-da. Las posibles desinencias para las clases de adjetivos se detallan en la Tabla 4.2.

5.1.1.1 Información semántica

La información semántica se mantiene en el archivo secundario para uso futuro. La infor-mación semántica se coloca inmediatamente después de la palabra clave, con el marco ade-cuado (ver el punto 3.3.1.1). Ésta es útil para explicaciones al usuario de la palabra corrien-te e inferencia de nuevas colocaciones.

Por ejemplo, para la palabra clave agente se tienen dos acepciones (agente, hombre y agen-te, sustancia), se mantiene la clase semántica a la que pertenece con el marco <CLASS: seguido de la clase. Esta información es de tipo explicativa para el usuario y al mismo tiempo útil para la inferencia de colocaciones, como en agente1<CLASS:hombre y agen-te2<CLASS:sustancia.

También se mantiene la información para distinguir las palabras homónimas como el caso anterior. Se mantiene el marco y la explicación de la palabra corriente, <”…”. Por ejemplo, para la palabra clave derecho tenemos dos acepciones (derecho —relativo a la ley— y de-recho —relativo a los pagos—). Se mantiene la información para explicaciones futuras al usuario, como en derecho1<"leyes" y derecho2<"pagos".

Page 134: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

118

5.1.1.2 Información estilística

Las características de estilo e idiomatización se mantienen en el archivo secundario como se observa en la combinación cabeza de chorlito que nos informa que se usa de manera idiomática (&) y caballos de fuerza que es de tipo científica (S).Véase 3.3.1.2 Parámetros morfológicos.

La base secundaria de colocaciones modificadoras se encuentra de forma extensa en el Anexo B.1 Base secundaria de colocaciones modificadoras.

5.1.2 Descripción de los resultados de la base secundaria de colocaciones con valen-cias verbales

En el siguiente cuadro se muestra un segmento de la base secundaria de colocaciones con valencias verbales caracterizadas morfológicamente.

+1111 accidente -3003 00ÿ103prevenir +1221 aceitunas -3001& 00›104llegar +1111 acertijo -3001 00ÿ203adivinar +1121 acontecimientos -3004 00’104adelantar +1211 adivinanza -3001 00ÿ203contar +1211 agua -3002 00ÿ002beber -3003 00›125diluir -3005 00¡104meter -3001 00’104saltar -3001 00ÿ002tomar +1221 aguas -3004 00›003curar -3001 00ÿ103tomar +1112 alcohol -3003 00ÿ032diluir +1111 alcoholismo -3003 00ÿ002combatir +1211 alegría -3001 00�003brincar -3001 00�003saltar -3003 00ÿ002sentir +1211 almohada -3001& 00›125consultar +1111 alumno -3001 00ÿ203preguntar +1211 angustia

Page 135: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

RESULTADOS DE LA CARACTERIZACIÓN MORFOLÓGICA

119

-3009 13ÿ021oprimir +1111 apoyo -3001 00ÿ002prestar +1212 apelación -3002 00ÿ103interponer +1221 ascuas -3001& 00¡003estar +1121 cántaros -3002& 00’003llover +1112 corazón -3001 23ÿ001brincar -3001 23ÿ001saltar +1121 dados -3001& 00’104jugar +1213 luz -3001& 00’003dar -3001& 00’104sacar -3003& 00’103salir +1111 dinero -3001 00ÿ103ganar -3007 23ÿ001disipar -3007 23ÿ001esfumar +1111 enigma -3001 00ÿ203acertar -3001 00ÿ203dar +1211 enseñanza -3001 00ÿ103apoyar -3001 00’104enfocar +1111 entusiasmo -3001 00ÿ103contagiar +1121 equipos -3001 00’104integrar +1122 errores -3002 00ÿ002cometer +1211 escalera -3001 00ÿ103bajar -3003 00ÿ103subir +1111 fuego1 -3002 00ÿ103encender -3002 00ÿ103prender -3001 00’125echar +1111 fuego2 -3001 00ÿ103reglar +1221 fuerzas -3001 00ÿ002recobrar +1222 funciones2 -3003 00ÿ002admitir -3002 00ÿ002ejercer -3001 00ÿ002realizar +1221 ganas -3002& 00ÿ002tener +1121 gastos

Page 136: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

120

-3002 00›104correr +1112 gol -3001 00ÿ203marcar -3002 00ÿ203meter

La primera columna nos indica el papel que desempeña la palabra corriente. Las siguientes cuatro columnas muestran la información morfológica de la palabra corriente. A partir de la columna seis, las columnas restantes sólo se usan por las palabras relacionadas. Las si-guientes dos columnas (6 y 7) reflejan la idiomatización y estilo de la combinación de pala-bras. Las siguientes dos columnas (8 y 9) indican el tiempo de conjugación del verbo y la persona.

Las siguientes cuatro columnas (10-13) son características para generar correctamente la combinación. Éstas son, el número de la preposición de forma codificada (un byte), número del artículo, posición de la valencia omitida y posición de la palabra clave en la combina-ción. Posteriormente, se encuentra la palabra corriente seguida de su información semánti-ca.

Por ejemplo, para el artículo de abajo se presenta la siguiente interpretación:

+1211 agua -3002 00ÿ002beber -3003 00›125diluir

Para la palabra clave agua se tiene su información morfológica la cual es sustantivo (1), femenino (2), singular (1) y la clase de inclinación es de tipo uno, esto es, las posibles de-sinencias son Ø /s: agua y aguas.

Para la palabra relacionada beber la interpretación es la siguiente.

POS: Verbo (3). Género: No se refleja. Número: No se refleja. Clase de inclinación: 2 (infinitivo terminación -er). Idiomatización: neutra (vacía). Estilo: neutro (vacío). Tiempo de conjugación: ninguno (0). Persona de conjugación: ninguna (0). Número de preposición: ninguna (de forma codificada, 255). Artículo: ninguno (0). Valencia omitida: ninguna (0).

Page 137: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

RESULTADOS DE LA CARACTERIZACIÓN MORFOLÓGICA

121

Posición de la palabra clave: 2. La combinación es beber agua.

Para la palabra relacionada diluir la interpretación es la siguiente.

POS: Verbo (3). Género: No se refleja. Número: No se refleja. Clase de inclinación: 3 (infinitivo terminación -ir). Idiomatización: neutra (vacía). Estilo: neutro (vacío). Tiempo de conjugación: ninguno (0). Persona de conjugación: ninguna (0). Número de preposición: con (de forma codificada, 112). Artículo: artículo definido (1, véase Tabla 3.16 Artículos) Valencia omitida: 2 (posición dentro de la combinación). Posición de la palabra clave: 5 (posición dentro de la combinación). La combinación es diluir ... con el agua.

Para el siguiente artículo, las columnas para tiempo y persona (columnas 8 y 9), indican que se debe realizar la conjugación del verbo.

+1112 corazón -3001 23ÿ001brincar -3001 23ÿ001saltar

Para la combinación corazón y el verbo brincar, con los valores de tiempo y persona (valo-res: 2 y 3 respectivamente), indica que se debe conjugar el verbo. En este caso, el tiempo es dos (tiempo pasado), y la persona es la tercera (tercera persona del singular), la combina-ción es corazón brincó. De la misma forma se debe conjugar el verbo saltar obteniendo la combinación corazón saltó.

Para el siguiente artículo, las columnas para tiempo y persona indican que se debe realizar la conjugación del verbo y la clase de inclinación (columna 5) se refiere a un proclítico (va-lor 7).

+1111 dinero -3001 00ÿ103ganar -3007 23ÿ001disipar -3007 23ÿ001esfumar

Page 138: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

122

Para la combinación dinero con el verbo disipar y esfumar, con los valores de tiempo y persona además de la existencia de pronombre se, se obtienen las combinaciones dinero se disipó y dinero se esfumó.

Los rasgos estilísticos e idiomáticos se conservan como en las colocaciones modificadoras.

+1213 luz -3001& 00’003dar -3001& 00’104sacar

Por ejemplo, en las combinaciones dar luz y sacar luz, se indica que se usa idiomáticamen-te y las combinaciones son ‘dar a luz’ y ‘sacar a la luz’.

La base secundaria de colocaciones con valencias verbales se encuentra de forma extensa en el Anexo B.2 Base secundaria de colocaciones con valencias verbales.

5.1.3 Descripción de los resultados de la base secundaria de colocaciones con valen-cias sustantivales

En el siguiente cuadro se muestra un segmento de la base secundaria de colocaciones con valencias sustantivales caracterizadas morfológicamente.

+1111 adiestramiento -1211 �1fase +1212 administración1 -1121 �1servicios -1211 �1ventaja -1221 �1ventajas +1112 administrador -1121 �1permisos +1111 adverbio -1212 �1funcionalidad +1211 agua -1112 �1nivel +1111 amo -1111 �1dominio +1120 análisis2 -1111 �1costo -1111 �1pago -1111 �1resultado +1112 animal -1211 �1naturaleza -1212 �1sensibilidad -1111 �1nombre -1211 �1cola +1111 año -1221 �1ventas +1212 aplicación -1113 �1interfaz

Page 139: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

RESULTADOS DE LA CARACTERIZACIÓN MORFOLÓGICA

123

+1111 archivo -1111 �1contenido -1211 �1contraseña -1212 �1descripción -1212 �1extensión -1111 �1formato -1111 �1nombre -1212 �1petición -1212 �1ubicación +1112 autor -1111 �1nombre +1212 aviación -1121 �1bombardeos +1112 ayer -1111 �1recuerdo +1211 base -1212 �1información -1212 �1ubicación -1222 �1unidades -1121 �1datos -1221 �1columnas -1211 �1consulta -1121 �1campos -1211 �1salida -1111 �1registro -1111 �1ángulo +1111 enemigo -1111 œ1fuego +1211 hambre -1112 �1dolor -1111 E1sufrimiento +1211 naturaleza -1211 ›1armonía -1111 ›1contacto -1212 �1conservación -1211 �1defensa -1121 �1elementos -1111 �1enemigo +1212 oración1<"gramática" -1212 �1construcción -1211 �1parte +1212 oración2<"religión" -1121 �1pasos +1222 organizaciones -1211 �1naturaleza +1111 órgano -1222 �1dimensiones +1111 país -1221 �1áreas -1122 �1civiles -1111 �1oeste -1222 �1ciudades

Page 140: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

124

-1211 �1estructura -1111 �1presidente

La primera columna nos indica el papel que desempeña la palabra corriente. Las siguientes cuatro columnas (2-5) muestran la información morfológica de la palabra corriente. Las siguientes dos columnas (6 y 7) reflejan la idiomatización y estilo de la combinación.

Las siguientes dos columnas (8 y 9) son características para generar correctamente la com-binación. Éstas son, el número de la preposición de forma codificada (un byte) y el tipo de artículo.

Por ejemplo, para el siguiente artículo se presenta la siguiente interpretación:

+1212 administración1 -1121 �1servicios -1211 �1ventaja -1221 �1ventajas

Para la palabra clave administración se tiene su información morfológica la cual es sustan-tivo (1), femenino (2), singular (1) y la clase de inclinación es de tipo dos, esto es, las po-sibles desinencias son Ø /es: administraciónØ / administraciones.

Para la palabra relacionada servicios la interpretación es la siguiente.

POS: Sustantivo (1). Género: Masculino (1). Número: Plural (2). Clase de inclinación: 1 (servicioØ / servicios). Idiomatización: neutra (vacía). Estilo: neutro (vacío). Número de preposición: de (de forma codificada, 96). Artículo: Artículo definido (1). La combinación es servicios de la administración

Para la palabra relacionada ventaja la interpretación es la siguiente.

POS: sustantivo (1). Género: Femenino (2). Número: Singular (1). Clase de inclinación: 1 (ventajaØ / ventajas). Idiomatización: neutra (vacía).

Page 141: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

RESULTADOS DE LA CARACTERIZACIÓN MORFOLÓGICA

125

Estilo: neutro (vacío). Número de preposición: de (de forma codificada, 96). Artículo: Artículo definido (1). La combinación es ventaja de la administración.

El artículo se ajusta en número y género de acuerdo al sustantivo que lo acompaña.

Se mantiene la información para las palabras homónimas para ayuda del usuario, como en la palabra clave oración, tenemos oracion1<” gramática” y oracion2<” religión”.

La base secundaria de colocaciones con valencias sustantivales se encuentra en el Anexo B.3. Base secundaria de valencias sustantivales

5.1.4 Descripción de los resultados de la base secundaria de hipónimos / hiperónimos

En el siguiente cuadro se muestra un segmento de la base secundaria de hipónimos e hipe-rónimos caracterizados morfológicamente.

+1212acción -1112crimen -1111funcionamiento -1111movimiento +1121adornos -1121anillos -1121aretes -1122collares -1121pendientes +1122animales -0000animales domésticos -1121felinos -1122reptiles -1122roedores +0000animales domésticos -1111cerdo -1111gato -1111pájaro -1111perro +1121antibióticos -1211eritromicina -1211estreptomicina -1211penicilina +1111aparato1 -1211aspiradora -1112iluminador -1211lavadora -1112refrigerador -1112tostador -1112ventilador

Page 142: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

126

+1221bebidas -0000bebida caliente -0000bebida fuerte -1121refrescos +0000bebida caliente -1111cacao -1111café -1111chocolate -1111té +0000bebida fuerte -1112licor -1112ron -1111vodka -1112whisky +1121refrescos -1211Coca-cola -1211Fanta -1211Mirinda -1211Pepsi Cola

La primera columna indica si es hiperónimo o hipónimo la palabra corriente. Las cuatro columnas siguientes (2-5) definen los rasgos morfológicos de la palabra. Por ejemplo, para el artículo de abajo se tiene la siguiente interpretación:

+1121adornos -1121anillos -1121aretes -1122collares

adornos es sustantivo (1), masculino (1), plural (2), desinencia clase 1 (adorno∅ / adornos) y es hiperónimo de anillos, aretes y collares.

Se tienen etiquetas de clasificación de hipónimos. Por ejemplo, el hiperónimo (superclase) animales contiene los hipónimos (subclases) animales domésticos, felinos, reptiles, roedo-res. Donde se indica que animales domésticos es una clasificación (POS es cero). Por lo tanto, esta clasificación debe ser hiperónimo de otros conceptos, como es el caso; los hipó-nimos para la etiqueta de clasificación ‘animales domésticos’ son cerdo, gato, pájaro, pe-rro.

No sólo se jerarquiza para las etiquetas de clasificación. También se jerarquiza para con-ceptos que pueden ser parte de una colocación como es el caso de la clasificación refrescos para la que se obtienen sus rasgos morfológicos y tiene los hipónimos Coca-cola, Fanta, Mirinda y Pepsi Cola.

La base secundaria de hipónimos e hiperónimos se encuentra de forma extensa en el Anexo B.4. Base secundaria de hipónimos / hiperónimos.

Page 143: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

RESULTADOS DE LA CARACTERIZACIÓN MORFOLÓGICA

127

5.1.5 Protocolo de errores para la caracterización morfológica

Al caracterizar morfológicamente las colocaciones se tiene un control de los errores. Se cuenta con un protocolo por medio del cual se obtiene un archivo de texto con los errores en el formateo. En este protocolo se explican los errores que se produjeron al formatear las colocaciones. Por ejemplo, los errores producidos en una ejecución del programa fueron los siguientes:

Error: COMBINACIÓN SUSTANTIVO - ADJETIVO Artículo: 3 Palabra clave: accidente Palabra relacionada: gravemente POS clave: Sus. POS relacionada: Adv. Error: CONCORDANCIA EN GÉNERO (Palabra clave y relacionada) Artículo :39 Palabra clave: alberca Palabra relacionada: olímpico Gen clave: Fem. Gen relacionada: Masc. Error al grabar el artículo: 39 La colocación contiene errores. LA COLOCACIÓN SE CATALOGÓ: +1211alberca -2001 olímpico Error: CONCORDANCIA EN NÚMERO (Palabra clave y relacionada) Artículo :40 Palabra clave: aldea Palabra relacionada: perdidas Num clave: Sing. Num relacionada: Plur. Error al grabar el artículo: 40 La colocación contiene errores. LA COLOCACIÓN SE CATALOGÓ: +1211aldea -2001 perdidos ------------------------------------------------------------------ Total de colocaciones leídas: 1259 Total de colocaciones grabadas: 1256 Total de errores: 3 ------------------------------------------------------------------

El tipo de error se indica. Se pueden generan errores por disconcordancia en género, núme-ro o error en la combinación de las palabras esperadas.

Para el error producido se indica el número de artículo en el que ocurrió el error, así como la palabra clave, la palabra relacionada y la categoría que produjo el error. Por ejemplo,

Page 144: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

128

para la palabra aldea se muestra el número que es la categoría que tiene discordancia con el número de su palabra relacionada perdidas.

Al final, se proporciona un resumen de los errores y de las colocaciones leídas, grabadas y el total de errores producidos.

Si al menos una combinación tiene error en un artículo del diccionario entonces el artículo no se graba en el archivo secundario.

El protocolo de control es la interfaz por medio de la cual sabemos si el formateo de las colocaciones fue exitoso o no. Este control se lleva acabo para cada una de las conversiones de las bases primarias.

5.2 Sistema CrossLexica-Esp versión beta 1.0

El sistema CrossLexica-Esp es la interfaz del usuario en la que se visualizan las colocacio-nes y los papeles sintácticos y semánticos que tienen cada uno de sus componentes. El usuario puede acceder las combinaciones de palabras por alguno de sus dos componentes.

Las bases secundarias se han compilado y se crearon dos bases de datos: un diccionario general y una base de relaciones entre palabras (los enlaces entre la palabra clave y sus palabras relacionadas). La base de enlaces contiene todas las relaciones sintácticas y se-mánticas de cada uno de los componentes de la colocación.

Mostraremos algunos ejemplos con los tipos de relaciones sintácticas y semánticas que se describieron en el capítulo tres.

Page 145: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

129

5.2.1 Funcionamiento del sistema CrossLexica-Esp

El sistema CrossLexica-Esp se muestra en figura 5.1. La petición puede introducirse con desinencias de número o género, el sistema tienen la capacidad de localizar la palabra co-rrecta dentro del diccionario general. Esto sólo se aplica para adjetivos. Para sustantivos ambas formas de palabras (singular y plural) se encuentran en el sistema.

Todas las relaciones encontradas en el sistema se enlistan y se clasifican según el papel sintáctico y semántico.

En las páginas siguientes indicaremos cómo el sistema muestra los tipos de colocaciones que se describieron en esta tesis.

En ventana de la figura 5.1 se puede capturar la palabra que se quiere consultar (1) o selec-cionarla de la lista del diccionario general, parte izquierda de la ventana (8). Las combina-ciones encontradas para la palabra consultada se muestran en la parte derecha de la ventana (7). Los títulos en negro indican las relaciones sintácticas y semánticas existentes para la palabra consultada (6).

En la parte superior de la ventana se muestra la información morfológica y semántica de la palabra consultada (4 y 5). En este caso, tono tiene los rasgos morfológicos: sustantivo, masculino, singular y se refiere a un ambiente familiar o afectivo. Las combinaciones en-contradas se presentan en la parte derecha de la ventana (7).

Page 146: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

130

Figura 5.1 Ejemplo de entrada de colocaciones en el sistema CrossLexica-Esp

5.2.2 Ejemplos de colocaciones modificadoras

Como se describió, las colocaciones modificadoras admiten las clases de palabras: sustanti-vos, adjetivos, verbos y adverbios. En estas colocaciones se muestra cómo son modificadas las palabras o quién las modifica. En los siguientes puntos mostramos algunos ejemplos para estas relaciones sintácticas.

1 Palabra de trabajo

6 Tipo de relación sintáctica

4 Información morfológica

8 Diccionario general

5 Información semántica

7 Combinaciones de palabras

2 Consulta anterior

3 Consulta siguiente

Page 147: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

131

5.2.2.1 Combinaciones sustantivo → adjetivo

Como se describió en el capítulo tres, los modificadores que permiten los sustantivos son únicamente adjetivos o términos multipalabra.

El género y el número de los adjetivos se encuentran en concordancia con el sustantivo que los acompaña y los términos multipalabra son invariables. En la figura 5.2 todos los adjeti-vos modificadores se encuentran en concordancia con su sustantivo gobernante.

En este caso, se consulta el sustantivo arma que tienen los rasgos morfológicos: sustantivo, femenino, singular. Para esta consulta se encuentra la relación sintáctica tienen modificado-res que son atómica, blanca, etc.

Figura 5.2 Concordancia entre un sustantivo y su adjetivo

Page 148: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

132

De forma inversa, se consulta el adjetivo y se encuentran las palabras que modifica (sustan-tivos rectores). Los adjetivos se encuentran en concordancia en género y número para cada sustantivo que lo rige. En la figura 5.3 se consulta el adjetivo blanco y se encuentran todos los sustantivos para los cuales es modificador (arma, armas y verso).

Figura 5.3 Concordancia entre un adjetivo y varios sustantivos

Page 149: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

133

5.2.2.2 Combinaciones adjetivo → adverbio

Se consulta el adjetivo y se encuentran los adverbios o términos multipalabra modificadores para este adjetivo. Por ejemplo, en la figura 5.4 se muestran las palabras modificadoras para el adjetivo astuto que son: muy y como un diablo.

Figura 5.4 Combinación de un adjetivo y sus modificadores adverbiales

Page 150: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

134

Para el otro modo de uso, se consulta el adverbio bien, figura 5.5, y se localizan todos las combinaciones para las cuales el adverbio es modificador. Aquí se muestra más de una re-lación sintáctica para la palabra consultada.

Figura 5.5 Combinación de un adverbio y los verbos que modifica

Page 151: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

135

5.2.2.3 Combinaciones verbo → adverbio

Para estas combinaciones, se consulta el verbo y se encuentran las palabras que lo modifi-can (sólo adverbios o términos multipalabra). Por ejemplo, en la figura 5.6 se muestran las palabras relacionadas con el verbo comer, que son sus modificadores: bien y mucho. De forma inversa, se pueden consultar los adverbios y encontrar las palabras que modifica, como en las combinaciones adjetivo → adverbio (figura 5.5).

Figura 5.6 Combinación de un verbo y sus adverbios modificadores

Page 152: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

136

5.2.3 Ejemplos de colocaciones con valencias verbales

Para las colocaciones con valencias verbales se muestran los complementos del verbo o sus sujetos, así como las relaciones recíprocas. Mostramos algunos ejemplos para estas relacio-nes sintácticas.

5.2.3.1 Combinaciones verbo → sustantivo

Para estas combinaciones se muestran dos tipos de relación sintáctica, los complementos que tiene el verbo y los sujetos que tiene el verbo. En la figura 5.7, el verbo abrir se en-cuentra conjugado; esta construcción es un tipo de oración de pasiva refleja. Véase el punto 3.2.2.

Figura 5.7 Combinación de un verbo con sus complementos y sujetos

Page 153: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

137

De forma inversa, en la figura 5.8, la palabra consultada visita que tiene los rasgos morfo-lógicos: sustantivo, femenino, singular. Ésta es un sustantivo complementario para el verbo hacer. Además, se muestran los modificadores que tienen la palabra consultada.

Figura 5.8 Sustantivo como complemento verbal

Page 154: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

138

5.2.4 Ejemplos de colocaciones con valencias sustantivales

Para las colocaciones con valencias sustantivales se muestran los complementos del sustan-tivo y su recíproco. Véase el punto 3.2.4.

5.2.4.1 Combinaciones sustantivo → sustantivo

En la figura 5.9 se muestran las relaciones sintácticas que se mencionaron anteriormente y la nueva relación es complemento de sustantivo. En la ventana siguiente, se muestran los complementos sustantivales para naturaleza con rasgos morfológicos: sustantivo, femeni-no, singular.

Figura 5.9 Sustantivo como complemento sustantival

De forma inversa se puede consultar el sustantivo de la izquierda, de naturaleza, obtenién-dose la relación recíproca tiene complementos.

Page 155: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

139

5.2.5 Ejemplos de combinaciones de palabras con información semántica

La información para las diferentes acepciones, proporciona la noción en qué situaciones podemos usar la combinación de palabras. En el primer caso, figura 5.10, las combinacio-nes hacen referencia al ambiente musical. La palabra tono tiene los rasgos morfológicos: sustantivo, masculino, singular.

Figura 5.10 Información adicional para palabras homónimas (primer caso)

Page 156: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

140

En el segundo caso, figura 5.11, las combinaciones hacen referencia a un ambiente amistoso o familiar.

Figura 5.11 Información adicional para palabras homónimas (segundo caso)

Page 157: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

141

En el tercer caso, figura 5.12, las combinaciones hacen referencia al cuerpo.

Figura 5.12 Información adicional para palabras homónimas (tercer caso)

Page 158: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

142

5.2.6 Ejemplos de combinación de palabras con idiomatización y estilo

El uso de las combinaciones de palabras de forma idiomática se muestra con una etiqueta al final de la combinación, figura 5.13. Ésta nos indica si la combinación es idiomática o se-

mi-idiomática. La ausencia de etiqueta indica que es una combinación neutral.

Figura 5.13 Combinaciones con información idiomática

Page 159: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

143

El estilo de uso de la combinación se muestra al final de la combinación, figura 5.14. En este caso, caballos de fuerza se usa generalmente en textos científicos o técnicos. La ausencia de etiqueta indica que es una combinación neutral.

Figura 5.14 Combinaciones con información estilística

Page 160: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

144

5.2.7 Ejemplos de relaciones semánticas

Las relaciones semánticas que presenta el sistema es una jerarquía de conceptos como se ve en la figura 5.15. Flores es hiperónimo para azucenas, callas, dalias, etc. y el concepto flora es hiperónimo de flores. Los conceptos se muestran jerarquizados a partir del concep-to consultado y se divide en dos partes: los hipónimos escalonados hacia abajo y los hipe-rónimos escalonados hacia arriba.

Figura 5.15 Combinaciones con relaciones semánticas

Page 161: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

145

5.2.8 Inferencia de colocaciones

El sistema es capaz de inferir colocaciones que no están explícitamente en la base de colo-caciones. Esto se logra a través de la información semántica de hipónimos / hiperónimos, la clase a la cual pertenece una palabra. Por ejemplo, para la palabra flores, se expresan las siguientes combinaciones flores aromáticas, flores hermosas, flores exóticas. Sabiendo que azucenas ES_UN tipo de flor, podemos inferir tales colocaciones para azucenas: azucenas aromáticas, azucenas hermosas, azucenas exóticas, y para todas aquellas palabras que per-tenezcan a la clase.

Figura 5.16 Inferencia de colocaciones para azucenas

Page 162: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

146

Para tulipanes, otra subclase de flores, tenemos las combinaciones generadas de la figura 5.17.

Figura 5.17 Inferencia de colocaciones para tulipanes

Page 163: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

INTERFAZ DEL SISTEMA CROSSLEXICA-ESP

147

Las combinaciones de palabras que son completamente fijas, es decir, las combinaciones idiomáticas, no se puede realizar la inferencia con ellas. Las combinaciones idiomáticas únicamente pueden tener esos componentes que lo constituyen y no otros, es decir, no se pueden sustituir sus elementos.

El proceso de inferencia no garantiza que las combinaciones generadas sean usadas muy frecuentemente por las personas. Esto es solamente una forma de enriquecer la base de co-locaciones.

En la figura 5.18 se muestran las relaciones sintácticas y semánticas para bebidas. Se mues-tran todos los hipónimos y los niveles jerárquicos que representan entre ellos. Para la pala-bra Coca-cola ES_UN tipo de refresco y a su vez refresco ES_UN tipo de bebida. Las combinaciones encontradas en el proceso de inferencia son sustituidas por su correspon-diente hipónimo o hiperónimo para formar las nuevas combinaciones como se muestra en la figura 5.19.

Figura 5.18 Relaciones sintácticas y semánticas para bebidas

Page 164: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 5. RESULTADOS DEL SISTEMA CROSSLEXICA-ESP

148

En la figura 5.19 se muestra la inferencia de nuevas colocaciones para Coca-Cola. Se ve que las colocaciones fueron generadas a través de sus hiperónimos bebidas y refrescos.

Figura 5.19 Inferencia de colocaciones para Coca-Cola

Page 165: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

149

Capítulo 6. Conclusiones

En este capítulo se presentan las conclusiones de la tesis, se enumeran las contribuciones y se proporcionan algunas sugerencias para trabajo futuro.

En esta tesis se demostró que para el aprendizaje informatizado de un idioma extranjero, así como para resolver algunas tareas de lingüística computacional: desambiguación de senti-dos de palabras, traducción automática, analizadores sintácticos, etc., es necesario el cono-cimiento de las colocaciones.

Para español no existía ninguna base de colocaciones. Con el presente trabajo, ya se tiene una base de más de 10 millares de colocaciones que fueron recopiladas de forma manual. Se tiene un promedio de 4.5 palabras relacionadas por palabra clave.

Se desarrollaron los herramientas necesarias para el formateo de los tres tipos de colocacio-nes con relaciones sintácticas (modificadores, valencias verbales y valencias sustantivales) y para la relación semántica de hipónimos / hiperónimos.

Las herramientas de formateo son esenciales para la obtención de la información morfoló-gica para cada componente de la colocación. Se demostró que la morfología de las palabras es necesaria para la correcta presentación de las combinaciones, esto se llevó acabo hacien-do uso de la concordancia sintáctica.

Se proporcionaron las tablas de desinencias y archivos auxiliares (preposiciones, adverbios, excepciones a las reglas generales propuestas, etc.) necesarios para la determinación morfo-lógica de las colocaciones.

Se compilaron las colocaciones formateadas y se generaron dos bases de datos. Una base de datos que contiene los componentes de las colocaciones (el diccionario general) y otra base que contiene los enlaces sintácticos y semánticos entre los componentes de la colocación (base de enlaces entre palabras).

Se desarrolló la interfaz del sistema CrossLexica-Esp para la demostración de las coloca-ciones y los papeles sintácticos y semánticos que desempeñan las palabras en las combi-naciones.

Se demostró que la inferencia es una característica más del sistema, por medio de la cual se generan colocaciones que no han sido explícitamente capturadas. Sin embargo, estas colo-

Page 166: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

CAPÍTULO 6. CONCLUSIONES

150

caciones generadas no son absolutamente confiables, es decir, que se usen con alta frecuen-cia por una persona nativa del lenguaje; en general, las colocaciones generadas son buenas. Las colocaciones generadas mediante la inferencia sólo están disponibles en tiempo de eje-cución del sistema.

6.1 Contribuciones

Con base a los resultados obtenidos, podemos considerar que las principales contribuciones de la presente tesis son las siguientes:

1. Las herramientas que transforman las colocaciones a una forma secundaria con los rasgos morfológicos y semánticos de cada uno de sus componentes.

2. El sistema que maneja las colocaciones y la morfología para generar las combina-ciones de palabras en concordancia correcta. Además de la inferencia de nuevas co-locaciones con base a las clases y subclases de las palabras.

3. Un esquema para español que representa los enlaces sintácticos y semánticos entre las combinaciones de palabras.

4. Un diccionario pequeño de colocaciones para la demostración del funcionamiento de la interfaz y de las herramientas de formateo.

6.2 Publicaciones

Miranda-Jiménez S., Bolshakov I. Base de datos de un diccionario combinatorio para Es-pañol: Utilitaria para modificadores. Memorias del Congreso Internacional de Computa-ción CIC’2002, Vol. 2, México, pp 267-278.

6.3 Trabajo futuro

Dentro de las tareas futuras consideramos que es importante agregar otras relaciones se-mánticas como son los sinónimos y antónimos. Por medio de los cuales la propiedad de inferencia enriquecería aún más nuestra base de colocaciones. Por ejemplo, haciendo uso de los sinónimos más cercanos para realizar la inferencia. El verbo mover dentro de sus sinó-nimos se encuentra agitar. En combinaciones como mover la mano, mover la cabeza y mo-ver la bandera se inferirían nuevas combinaciones sustituyendo el verbo y obteniéndose combinaciones como: agitar la mano, agitar la cabeza y agitar la bandera.

Page 167: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

151

Agregar otras relaciones sintácticas también importantes para español tales como verbo → verbo: comenzar (→ a) → trabajar, terminar (→ de) → trabajar, saber → ver; pares coordinados de palabras como: (a) diestra y siniestra, (a) pan y agua, ahora y siempre; y algunas otras.

También se puede vincular a un diccionario bilingüe (por ejemplo, inglés-español), para traducir las colocaciones a sus equivalentes ingleses, al tomar en consideración las bases de colocaciones para inglés.

Se puede vincular el diccionario de colocaciones con EuroWordNet español, que se basa en su antecesor WorNet [15], para obtener las relaciones de sinonimia, antonimia, y parte_de (las partes que tienen un concepto como árbol que tiene raíz, hojas, ramas, etc. ) y dar po-siblemente explicaciones de la palabra consultada con base a los componentes semánticos en que se estructura WordNet.

Page 168: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

155

Anexos

Anexo A. Bases primarias de colocaciones

Anexo A.1 Base primaria de colocaciones modificadoras

absolutismo ilustre impuesto francés provincial real acceso aleatorio directo exclusivo eficaz fácil gratuito libre permitido público principal privado prohibido restringido rápido accidente aéreo casual cruel estúpido fatal geográfico general grave humano industrial involuntario mortal natural peligroso penoso terrible serio acción armada buena

combinada de gracias democrática deshonesta destructora dramática directa educativa ejecutada física gubernamental humana inmediata judicial jurídica libre militar nacional nacionalista natural penal popular perfecta pública prometida social verbal acciones arbitrarias correctivas ordinarias concretas bélicas políticas violentas militares específicas individuales penales puntuales mineras heroicas

Page 169: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.1 BASE PRIMARIA DE COLOCACIONES MODIFICADORAS

156

encaminadas necesarias previstas indignas simples inútiles positivas unilaterales especiales implícitas urbanas delictivas irregulares constructivas aceite de anís de bacalao de cañadón de girasol de hígado de linaza de maíz de máquinas de oliva de ricino quemado esencial comestible producido barato vegetal puro mineral vegetal aceites pesados volátiles utilizados industriales acero colado cromado inoxidable martín templado pulido caliente forjado recubierto ácido arsénico bórico carbónico

cianhídrico cítrico clorhídrico fénico láctico nítrico sulfúrico acoger con brazos abiertos favorablemente acostarse terriblemente actitud crítica agresiva benévola expectante expectativa negligente negativa pacífica política positiva hostil heroica actividad bélica bulliciosa científica deportiva económica física mecánica tecnológica vital ganadera política humana comercial industrial cultural artística profesional laboral agrícola musical productiva militar sexual cerebral biológica petrolera mental

Page 170: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.1 BASE PRIMARIA DE COLOCACIONES MODIFICADORAS

157

actividades científicas deportivas económicas manufactureras tecnológicas culturales comerciales políticas agrícolas humanas sociales productivas educativas musicales religiosas ilícitas paralelas terroristas importantes laborales financieras recreativas públicas caritativas concretas programadas principales empresariales gubernamentales conjuntas bancarias estudiantiles inmediatas acto a la bandera brutal cívico de violencia delictivo grandote proselitista público reclamado religioso sexual seguido único segundo primero solemne social político

oficial central realizado terrorista ilícito importante relevante precioso ilegal violento actos delictivos públicos reclamados religiosos conjuntos humanos culturales terroristas oficiales judiciales centrales violentos musicales contrarios formales criminales aislados heroicos incalificables inconscientes indebidos perversos prohibidos acuerdo bilateral común condicional eventual final parlamentario político zonal general comercial nacional firmado tácito logrado internacional mutuo definitivo global

Page 171: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.1 BASE PRIMARIA DE COLOCACIONES MODIFICADORAS

158

preliminar completo secreto formal verbal matrimonial legal parcial honorable adelantos científicos importantes serios tecnológicos técnicos logrados médicos adiestramiento básico canino militar profesional administración1 central de empresas doméstica estatal federal local municipal pública territorial centralizada general administración2 de justicia administrar bien adecuadamente libremente independientemente admiración gran profunda pública ciega absoluta amorosa extraña adornos personales corporales navideños

labrados ridículos superfluos importados grabados pequeños inútiles preciosos bellos florales orientales advertencia oportuna primera última seria previa afectar sustancialmente directamente negativamente indirectamente físicamente gravemente agente1<hombre británico de bolsa de negocios de policía del servicio de contraespionaje invasor secreto encubierto fiscal oficial infiltrado judicial político agente2<sustancia dañino de limpieza patógeno químico viral infeccioso erosivo extraño tóxico venenoso agotamiento físico mental agradecido

Page 172: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.1 BASE PRIMARIA DE COLOCACIONES MODIFICADORAS

159

muy poco sumamente eternamente agua carbónica clara corriente cristalina & de cepas & de colonia de frutas de mar de mesa de purga de régimen de roca dulce estancada fresca fría & fuerte mineral muerta & nieve & oxigenada pesada poco profunda potable purgante viva caliente salada bendita sucia pura limpia negra contaminada abundante espumosa aguardiente destilado fuerte aguas de creciente de menguante de uso frescas interiores jurisdiccionales marinas negras

pluviales residuales subterráneas termales territoriales profundas superficiales interiores corrientes estancadas salobres salvajes internacionales saladas sucias jurisdiccionales tropicales quietas aire acondicionado cálido cargado comprimido contaminado diáfano fresco húmedo libre líquido caliente puro seco cargado pesado limpio helado aires & de gran señor acondicionados marinos alambre de púas espinoso galvanizado alarma falsa contra incendio social acústica general alarmas sensibles contra incendio

Page 173: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.1 BASE PRIMARIA DE COLOCACIONES MODIFICADORAS

160

protectoras electrónicas alberca olímpica aldea perdida remota alergia de contacto respiratoria retardada alfabetización completa alfabeto cirílico fonético latino algodón en rama hidrófilo &S pólvora algoritmos S genéticos paralelos alimentación adecuada balanceada balanceada de grasa de motores grasa rigurosa vegetariana alimento vegetal alma atravesada & de caballo & de cántaro & de Dios en pena almacenes grandes almanaque de pared exfoliados alteraciones cerebrales alternativa mejor posible verdadera altura

máxima inaccesible determinada media superior total reglamentaria alusión indirecta transparente ama de casa de llaves amar apasionadamente ambiente cargado húmedo informal ruidoso sideral ámbito cultural económico educativo hispánico laboral nacional político religioso riguroso social ambulancia de asistencia pública de correos sanitaria amenaza de guerra grande grave amigo personal de la infancia mejor viejo íntimo fiel inseparable leal sincero cercano especial amistad

Page 174: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.1 BASE PRIMARIA DE COLOCACIONES MODIFICADORAS

161

de los pueblos indisoluble sincera tierna profunda pura amor carnal eterno falso filial íntimo loco maternal mutuo pasajero pasional

platónico propio recíproco sexual amplio más muy análisis1<SING clínico cualitativo cuantitativo espectral estadístico gramatical literario numérico profundo

Page 175: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

162

Anexo A.2 Base primaria de colocaciones con valencias verbales

accidente prevenir el ~ aceitunas & llegar con las ~ acertijo adivinar un ~ acontecimientos adelantarse a los ~ adivinanza contar una ~ admiración extasiarse de ~ adquisición facilitar la ~ agua diluir ... con el ~ meterse en el ~ saltar al ~ aguas curarse con ~ tomar las ~ alcohol diluir ~ ... alcoholismo combatir el ~ alegría brincar de ~ saltar de ~ sentir ~ alternativas ofrecer ~ almohada & consultar ... con la ~ alumno preguntar un ~ angustia ~ ... se oprime apoyo prestar ~ apelación interponer la ~ árbol subirse a un ~ armario rebuscar en el ~ asco dar ~ ascuas & estar en ~

asilo buscar ~ conceder ~ aspectos cubrir los ~ asuntos inmiscuirse en los ~ ataque lanzarse al ~ atención atraer ~ dedicar ~ distraer ~ prestar ~ atmósfera caldear la ~ automóvil caer bajo un ~ autoridad aplastar ... con la ~ auxilio prestar ~ aviso dar el ~ escribir el ~ ayuda prestar ~ bandera arriar la ~ enarbolar la ~ izar la ~ baño meterse en el ~ barba cortarse la ~ dejarse la ~ & hacer la ~ barrera saltar la ~ barreras poner ~ basura tirar ... a la ~ batalla ganar la ~ bienes embargar los ~ bigotes retorcerse los ~

Page 176: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.2 BASE PRIMARIA DE COLOCACIONES CON VALENCIAS VERBALES

163

tener los ~ teñir los ~ boca abrir la ~ tapar la ~ ... blanco dar en el ~ errar el ~ fallar el ~ bolas & meter ~ bolsillo rebuscar en el ~ bomba dar la ~ bombilla ~ luce borrachera andar de ~ bosque ir por el ~ bostezo lanzar un ~ botas quitarse las ~ brasero atizar el ~ brazos abrir los ~ echarse ... en los ~ retorcer los ~ broma tomar a ~ caballos domar ~ cabellos trancar los ~ cabeza acariciar la ~ agachar la ~ golpearse la ~ inclinar la ~ mover la ~ & perder la ~ rascarse la ~ volver la ~ calor & tener ~ calle ir por la ~ cajón rebuscar en el ~ cama

hacer la ~ camino ir por el ~ cántaros & llover a ~ cal revocar ... con ~ calentura tener ~ campo vivir en el ~ canal1 compartir un ~ candidato seleccionar al ~ capa cubrir ... con una ~ cara cambiar de ~ dar la ~ mentir a la ~ mudar de ~ reírse en la ~ romper la ~ cárcel extenuar ~ meter ... en el ~ cargo conquistar el ~ tener al ~ cargos desempeñar los ~ carrera hacer ~ casas instalar en las ~ instalar por las ~ categoría bajar de ~ descender de ~ celos & tener ~ ceño fruncir ~ centros ~ se establecen establecer ~ certificado obtener el ~ mostrar el ~ charla conceder una ~ conferir una ~

Page 177: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.2 BASE PRIMARIA DE COLOCACIONES CON VALENCIAS VERBALES

164

dar una ~ chispas & echar ~ ciclo cerrar el ~ clases1 dar ~ impartir las ~ & matar ~ codos & hablar por los ~ colores ~ brotaron ... sacar los ~ ... comida abalanzarse a la ~ comisión desempeñar la ~ comodidades ofrecer las ~ computadora usar una ~ conciencia remuerde la ~ concierto dar un ~ conclusión dar ~ condecoraciones aceptar ~ usar ~ conexión tener ~ confianza tener ~ conflicto poner en ~ conflictos generar ~ confusión reprimir la ~ congreso convocar un ~ conocimiento perder el ~ consecuencia sacar una ~ consecuencias sacar ~ tener ~ contactos mantener ~ contrato

expresar en el ~ expresarse en el ~ controversias dirimir las ~ convenios celebrar ~ convicción actuar por ~ convocatoria expedir ~ cooperación prestar la ~ corazón ~ brincó ~ saltó cortina bajar la ~ cosas colocar las ~ costillas & medir las ~ crédito conceder un ~ cuidado & tener ~ ciudad se edificó la ~ ciudadanía ~ se pierde perder la ~ cuchara & meter la ~ cuello bajar el ~ cuenta poner a ~ meter a ~ saldar una ~ & tener en ~ cueros ponerse en ~ culpa & tener la ~ cultura difundir la ~ cumpleaños celebrar el ~ festejar el ~ cumplido decir un ~ hacer un ~ cursos coordinar ~

Page 178: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.2 BASE PRIMARIA DE COLOCACIONES CON VALENCIAS VERBALES

165

programar ~ dados & jugar a los ~ daño hacer ~ daños indemnizar los ~ reparar los ~ datos mostrar ~ deber reconocer el ~ deberes dar ~ dedo engarabitar un ~ &C chuparse el ~ dedos mover los ~ deducción hacer ~ defensa fortalecer la ~ delito conjugar el ~ democracia lograr ~ derecho tener el ~ ganar el ~ ganarse el ~ derechos tener los ~ ganar los ~ pisotear los ~ derrota causar una ~ infligir una ~ descanso conceder el ~ privar el ~ deseos arder en ~ desorden estar en ~ destreza sobresalir ... por ~ superar ... por ~ deudas contraer ~ días & correr los ~ dientes

enseñar los ~ dificultades cansar ~ dimisión presentar la ~ dinero ganar el ~ ~ se disipó ~ se esfumó discurso concluir el ~ pronunciar un ~ disparo ~ se oyó disputa meterse a la ~ desuso caer en ~ deuda liquidar una ~ pagar una ~ dinero malgastar el ~ disponibilidad tener ~ dolor aguantar ~ causar ~ gritar de ~ & tener ~ tranquilizar ~ efecto surtir ~ ejemplo seguir el ~ ... tomar ... en ~ elecciones votar en las ~ embargo levantar el ~ enemigo aniquilar al ~ lanzarse contra ~ pasarse al ~ empleados nombrar los ~ empleo desempeñar el ~ empresa cargar la ~ enfermedad evitar la ~ preservar contra la ~

Page 179: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.2 BASE PRIMARIA DE COLOCACIONES CON VALENCIAS VERBALES

166

preservar de ~ enigma acertar un ~ dar un ~ enseñanza apoyar la ~ enfocar a la ~ entusiasmo contagiar el ~ equipos integrar a los ~ errores cometer ~

escalera bajar la ~ bajar por la ~ subir la ~ subir por la ~ escándalo provocar un ~ espaldas caer de ~ espanto causar ~ estancias organizar ~

Page 180: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

167

Anexo A.3 Base primaria de colocaciones con valencias sustantivales

adiestramiento fase del administración1 servicios de la ventaja de la ventajas de la administrador permisos del adverbio funcionalidad del agua nivel del amo dominio del análisis2<PLUR costo de los pago de los resultado de los ángel & cabello de animal naturaleza del sensibilidad del nombre del cola del año ventas del aplicación interfaz de la archivo contenido del contraseña del descripción del extensión del formato del nombre del petición del ubicación del autor nombre del aviación bombardeos de la ayer recuerdo del base información de la ubicación de la datos de la columnas de la

consulta de la campos de la salida de la registro de la ángulo de la cachorro carácter del campamento metros del campo sintaxis del parte del valor del nombre del capital1 nombre de la casa persona de la dueño de la cerebro funcionamiento del función del ciudadano deberes del garantías del obligación del obligaciones del ciudadanos deberes de los garantías de los obligaciones de los cliente obligaciones del derechos del petición del computadora configuración de la parte de la reparación de la conector funcionamiento del archivo del características del etiquetas del consulta resultados de la controlador especificación del correa

Page 181: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.3 BASE PRIMARIA DE COLOCACIONES CON VALENCIAS SUSTANTIVALES

168

extremo de la límite de la corazón sonidos del cuello piel del cuerpo material del diente extremo del extracción del superficie del dirección elementos de la disciplina resultados de la disco canciones del lado del distancia mitad de la documento construcción del empleado manual del encabezado parte del enemigo fuego contra el entrenamiento modalidad del equipo nombre del especificación revisión de la escándalo chispa del burlas por el éxito semillas del camino del fin principio del fuego1 & prueba de formato parte del formulario controles del datos del fracción párrafo de la gobierno

credibilidad del efectividad del política del vocero del grupo control del recursos del guerra comienzo de la fin de la hambre dolor del sufrimiento debido al hipótesis<SING demostración de la planteamiento de la hocico presa del infantería ataque de la retirada de la información contenido de la recuperación de la instalaciones recorrido por las instrucción formato de la ejecución de la utilización de la instrumental esterilidad del inteligencia estatus de la intervención día de la juego traducción del lengua lesiones de la línea1 parámetro de la lista elemento de la libertad amante de la clima de lucha por la mano dorso de la borde de la manos & juego de

Page 182: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.3 BASE PRIMARIA DE COLOCACIONES CON VALENCIAS SUSTANTIVALES

169

masa valores de la método detalle del estructura del explicación del pasos del miembro nombre del perfil del minerales características de los detección de los descripción de los distribución de propiedades de los procesamiento de mundo fin del partes del pueblos del resto del rincones del naturaleza armonía con la contacto con la conservación de la defensa de la elementos de la enemigo de la enlace con la fuerzas de la imágenes de la manifestación de la maravillas de la postales de la protección de la reservas de la sonidos de la odio amor al batalla contra el causas del presa del opción valores de la oración1<"lingüística" construcción de la parte de la oración2<"religión" pasos de la orden significado de la

organización informativos de la documentos de la organizaciones naturaleza de las órgano dimensiones del origen nombre del definición del página propiedades de la dirección de la país áreas del civiles del oeste del ciudades del estructura del presidente del paquete tamaño del peso del parámetro nombre del valor del parque árboles del flores del palomas del pasado tema del hechos del paz amante de la pensamiento funcionamiento del perro ánimo del transgresiones del atención del trasero del confianza del movimiento del reacción del pista inicio de la poblado habitantes del programa ejemplares del nombre del protocolo

Page 183: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.3 BASE PRIMARIA DE COLOCACIONES CON VALENCIAS SUSTANTIVALES

170

monitorización del versión del prueba descripción de la ejemplos de la explicación de la importancia de la proceso de la resultados de la publicación avance de la características de la contenido de la desarrollo de la ejemplares de la fracaso de la historia de la índice de la motivo de la retraso de la responsables de la ventajas de la pueblo canto del correo del defensor del familias del habitantes del héroes del teatro del partido del voz del puerta diseño de la manija de la marco de la red exploración de la equipo de la información de la usuarios de la paquetes de la registro copia del creación del ruta búsqueda de la continuación de la detalles de la determinación de la etapas de la evaluación de la extremo de la

inicio de la final de la mapa de la punto de la recorrido de la resto de la sección coordinadora de la índice de la información de la inicio de la ejemplo de la jefe de la objetivos de la organigrama de la personal de la serie número de la productos de la transcurso de la secuencia de la servidor nombre del variables del sistema archivos del datos del estado del nombre del presentación del sociedad aspectos de la base de la cambio de la obligaciones de la sonido importancia del información del origen del tipo de sonidos arte de los articulación de los amplificación de los característica de los creador de los descripción de los determinación de los estudio de los grabación de los mezcla de los mundos de los origen de los

Page 184: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.3 BASE PRIMARIA DE COLOCACIONES CON VALENCIAS SUSTANTIVALES

171

suscripción ampliación de la cancelación de la características de la condiciones de la confirmación de la datos de la detalles de la duración de la fecha de la importe de la pago de la período de la

precio de la renovación de la vencimiento de la vigencia de la sustancias comercialización de estudio de las manejo de las nomenclatura de las paso de las sustantivo modificación del teorema

Page 185: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

172

Anexo A.4 Base primaria de hipónimos / hiperónimos

adornos anillos aretes collares pendientes animales animales domésticos felinos reptiles roedores animales domésticos cerdo ganado gato pájaro perro antibióticos eritromicina estreptomicina penicilina aparato1 aspiradora iluminador lavadora refrigerador tostador ventilador autor crítico escritor periodista poeta baile charlestón cumbia lambada polca samba tango bayas arándano cereza frambuesa fresa grosella grosella morera zarza bebidas

bebida caliente bebida fuerte refrescos bebida caliente cacao café chocolate té bebida fuerte champán licor ron vodka whisky refrescos Coca-cola Fanta Mirinda Pepsi Cola carne bisté chuleta liebre pollo salchichas casa habitacional apartamento cabaña casa choza categoría gramatical caso género modo número cereales arroz avena cebada trigo ciencia ciencia de la humanidad ciencia exacta ciencia médica ciencia natural ciencia técnica ciencia de la humanidad antropología arqueología

Page 186: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.4 BASE PRIMARIA DE HIPÓNIMOS / HIPERÓNIMOS

173

economía filología filosofía historia jurisprudencia periodismo ciencia exacta cibernética física informática matemática ciencia natural biología botánica genética geología geografía química ciencia técnica electrónica informática metalurgia minería cítricos limones mandarinas naranjas toronjas color amarillento amarillo ámbar anaranjado azul blanco castaño crema durazno esmeralda índigo azul lavanda limón mostaza mulato negro paja púrpura rojo rosa turquesa verde verdoso violeta

combustible aceite alcohol carbono gas gasolina leña petróleo querosén constelación Cangrejo Dragón Galaxia Gemelos Pegaso Virgo construcciones casa habitacional castillo hotel kiosco pabellón residencia teatro continente África América Asia Australia Europa coordenada abscisa elevación rango cuadro grabando paisaje retrato cuerpo gobernante administración directorio gobierno deporte acrobacia atletismo gimnasia lucha libre natación deportista corredor disparador futbolista gimnasta

Page 187: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.4 BASE PRIMARIA DE HIPÓNIMOS / HIPERÓNIMOS

174

luchador nadador saltador tenista día de semana domingo jueves lunes martes miércoles sábado viernes diplomático cónsul delegado embajador dispositivo óptico microscopio prismático telescopio documento acuerdo aplicación certificado contrato declaración declaración decreto demanda diploma disertación informe inventario licencia protocolo registro tratado edad adolescencia infancia juventud niñez empresa de comida bar cafetería pizzería restaurante enfermedad apoplejía asma cáncer cólera

disentería gripe hipertensión hipotensión infarto SIDA tuberculosis venérea escuela academia instituto universidad especialista antropólogo arqueólogo artista banquero biólogo científico economista físico geógrafo geólogo historiador lingüista maestro matemático médico profesor programador químico psicólogo estación invierno otoño primavera verano estrato campesinos clase media empleados gerentes intelectuales obreros extremos máximo mínimo óptimo felinos gato león leopardo

Page 188: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.4 BASE PRIMARIA DE HIPÓNIMOS / HIPERÓNIMOS

175

lince panteras puma tigre fenómeno calma eclipse sequedad tempestad terremoto tiempo tormenta viento fenómeno social desarmamento desempleo estancamiento evolución movilización privatización prosperidad reacción represiones retroceso revolución figura de tres dimensión cilindro cono elipsoide poliedro filología lingüística flora árbol arbusto cereal césped flores flores azucenas callas dalias gardenias gladiolos lilas manzanillas margaritas rosas tulipanes violetas fondo certificado cheque

crédito forma instructiva conferencia exposición libro seminario foro conferencia congreso convención reunión simposio taller frutas bayas ciruelas cítricos duraznos manzanas peras piña plátanos uvas fuerzas armadas acorazadas armada fuerza aérea infantería función geométrica cosecante coseno cotangente seno tangente gas aire amoníaco argón hidrógeno metano neón nitrógeno oxígeno gastronomía huevos queso salchicha género1 femenino masculino neutro género2 boceto

Page 189: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.4 BASE PRIMARIA DE HIPÓNIMOS / HIPERÓNIMOS

176

ensayo folletín historia memorias narrativo novela poema poesía guarnición arroz pasta patatas fritas puro idioma Afgano Albanés Alemán Árabe Armenio Azerbaiján Bielorruso Birmano Búlgaro Catalán Checo Chino Coreano Eslovaco Español Estonio Finlandés Flamenco Francés Griego Hebreo Holandés Húngaro idioma artificial idioma extranjero Inglés Islandés Italiano Latino lenguaje de programación Lituano Mongol Noruego Polaco Portugués Rumano Ruso Serbio

Esloveno Sueco Turco Vasco iglesias católica griega ortodoxa romana inferencia lógica deducción inducción instrumento de mesa azucarero cuchara cuchillo salero servilletero tenedor intervalo de tiempo año década día época hora mes milenio minuto segundo semana siglo instrumento musical acordeón clarinete contrabajo flauta guitarra piano saxofón tambor trompeta violín violonchelo jefe decano diputado director gerente ministro presidente rector joyería

Page 190: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.4 BASE PRIMARIA DE HIPÓNIMOS / HIPERÓNIMOS

177

brillantes collar jurisprudencia abogado juez lenguaje de programación Ada Algol C C++ Cobol Fortran Java Pascal Prolog limpiador champú detergente jabón línea curva espiral hipérbola ondulada parábola recta líquido ácido agua alcalino lugar ciudad pueblo suburbio mar Mar Adriático Mar Báltico Mar Blanco Mar Caribeño Mar Mediterráneo Mar Negro Mar Rojo marinero almirante capitán compañero contramaestre material para construcción alfombra arena azulejo granito hormigón

ladrillos linóleo mármol vidrio materiales radiactivos plutonio uranio médico audiólogo cirujano dentista dermatólogo neurólogo oculista oncólogo pediatra proctólogo reumatólogo terapeuta medida de longitud centímetro decímetro kilómetro micra milímetro milla pie pulgada medida de peso gramo kilogramo libra onza tonelada mensaje carta telegrama mes mes de invierno mes de otoño mes de verano mes primaveral mes de invierno Diciembre Enero Febrero mes de otoño Noviembre Octubre Septiembre mes de verano Agosto Julio

Page 191: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO A.4 BASE PRIMARIA DE HIPÓNIMOS / HIPERÓNIMOS

178

Junio mes primaveral Abril Marzo Mayo metal metal básico metal férreo metal precioso metal básico aluminio bronce cobre estaño latón mercurio níquel titanio metal férreo acero hierro

metal precioso oro plata platino material crudo algodón forraje lana madera maíz microorganismos bacterias microbios virus miembro de frase asunto circunstancia complemento objeto predicado sujeto

Page 192: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

179

Anexo B. Bases secundarias de colocaciones

Anexo B.1 Base secundaria de colocaciones modificadoras

+11110 absolutismo -20030 ilustre -20010 impuesto -20050 francés -20020 provincial -20020 real +12120 acción -20010 armado -20010 bueno -20010 combinado -20000 de gracias -20010 democrático -20010 deshonesto -20050 destructor -20010 dramático -20010 directo -20010 educativo -20010 ejecutado -20010 físico -20020 gubernamental -20010 humano -20010 inmediato -20020 judicial -20010 jurídico -20030 libre -20020 militar -20020 nacional -20030 nacionalista -20020 natural -20020 penal -20020 popular -20010 perfecto -20010 público -20010 prometido -20020 social -20020 verbal +12220 acciones -20010 arbitrario -20010 correctivo -20010 ordinario -20040 concrete -20010 bélico -20010 político -20010 violento -20020 militar

-20010 específico -20020 individual -20020 penal -20020 puntual -20010 minero -20010 heroico -20010 encaminado -20010 necesario -20030 prevista -20010 indigno -20030 simple -20020 inútil -20010 positivo -20020 unilateral -20020 especial -20010 implícito -20010 urbano -20010 delictivo -20020 irregular -20010 constructivo +11110 aceite -20000 de anís -20000 de bacalao -20000 de cañadón -20000 de girasol -20000 de hígado -20000 de linaza -20000 de maíz -20000 de máquinas -20000 de oliva -20000 de ricino -20010 quemado -20020 esencial -20030 comestible -20010 producido -20010 barato -20020 vegetal -20010 puro -20020 mineral -20020 vegetal +11210 aceites -20010 pesado -20020 volátil -20010 utilizado -20020 industrial

Page 193: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.1 BASE SECUNDARIA DE COLOCACIONES MODIFICADORAS

180

+11110 acero -20010 colado -20010 cromado -20030 inoxidable -20020 martín -20010 templado -20010 pulido -20030 caliente -20010 forjado -20010 recubierto +11110 ácido -20010 arsénico -20010 bórico -20010 carbónico -20010 cianhídrico -20010 cítrico -20010 clorhídrico -20010 fénico -20010 láctico -20010 nítrico -20010 sulfúrico +30020 acoger -40000 con brazos abiertos -40000 favorablemente +30040 acostar -40000 terriblemente +12120 actividad -20010 bélico -20010 bullicioso -20010 científico -20010 deportivo -20010 económico -20010 físico -20010 mecánico -20010 tecnológico -20020 vital -20010 ganadero -20010 político -20010 humano -20020 comercial -20020 industrial -20020 cultural -20010 artístico -20020 profesional -20020 laboral -20030 agrícola -20020 musical -20010 productivo -20020 militar -20020 sexual -20020 cerebral -20010 biológico -20010 petrolero

-20020 mental +12220 actividades -20010 científico -20010 deportivo -20010 económico -20010 manufacturero -20010 tecnológico -20020 cultural -20020 comercial -20010 político -20030 agrícola -20010 humano -20020 social -20010 productivo -20010 educativo -20020 musical -20010 religioso -20010 ilícito -20010 paralelo -20030 terrorista -20030 importante -20020 laboral -20010 financiero -20010 recreativo -20010 público -20010 caritativo -20040 concrete -20010 programado -20020 principal -20020 empresarial -20020 gubernamental -20010 conjunto -20010 bancario -20020 estudiantil -20010 inmediato +11110 acto -20000 a la bandera -20020 brutal -20010 cívico -20000 de violencia -20010 delictivo -20040 grandote -20030 proselitista -20010 público -20010 reclamado -20010 religioso -20020 sexual -20010 seguido -20010 único -20010 segundo -20010 primero -20030 solemne -20020 social

Page 194: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.1 BASE SECUNDARIA DE COLOCACIONES MODIFICADORAS

181

-20010 político -20020 oficial -20020 central -20010 realizado -20030 terrorista -20010 ilícito -20030 importante -20030 relevante -20010 precioso -20020 ilegal -20010 violento +11210 actos -20010 delictivo -20010 público -20010 reclamado -20010 religioso -20010 conjunto -20010 humano -20020 cultural -20030 terrorista -20020 oficial -20020 judicial -20020 central -20010 violento -20020 musical -20010 contrario -20020 formal -20020 criminal -20010 aislado -20010 heroico -20030 incalificable -20030 inconsciente -20010 indebido -20010 perverso -20010 prohibido +11110 acuerdo -20020 bilateral -20020 común -20020 condicional -20020 eventual -20020 final -20010 parlamentario -20010 político -20020 zonal -20020 general -20020 comercial -20020 nacional -20010 firmado -20010 tácito -20010 logrado -20020 internacional -20010 mutuo

-20010 definitivo -20020 global -20020 preliminar -20010 completo -20010 secreto -20020 formal -20020 verbal -20020 matrimonial -20020 legal -20020 parcial -20030 honorable +11210 adelantos -20010 científico -20030 importante -20010 serio -20010 tecnológico -20010 técnico -20010 logrado -20010 médico +11110 adiestramiento -20010 básico -20010 canino -20020 militar -20020 profesional +12120 administración1 -20020 central -20000 de empresas -20010 doméstico -20020 estatal -20020 federal -20020 local -20020 municipal -20010 público -20020 territorial -20010 centralizado -20020 general +12120 administración2 -20000 de justicia +30010 administrar -40000 bien -40000 adecuadamente -40000 libremente -40000 independientemente +12110 advertencia -20010 oportuno -20010 primero -20010 último -20010 serio -20010 previo +30010 afectar -40000 sustancialmente -40000 directamente

Page 195: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.1 BASE SECUNDARIA DE COLOCACIONES MODIFICADORAS

182

-40000 negativamente -40000 indirectamente -40000 físicamente -40000 gravemente +30010 agarrar -40000 al toro por los cuernos +11110 agente1<CLASS:hombre -20010 británico -20000 de bolsa -20000 de negocios -20000 de policía -20000 del servicio de contra-espionaje -20050 invasor -20010 secreto -20010 encubierto -20020 fiscal -20020 oficial -20010 infiltrado -20020 judicial -20010 político +11110 agente2<CLASS:sustancia -20010 dañino -20000 de limpieza -20010 patógeno -20010 químico -20020 viral -20010 infeccioso -20010 erosivo -20010 extraño -20010 tóxico -20010 venenoso +11110 agotamiento -20010 físico -20020 mental +20010 agradecido -40000 muy -40000 poco -40000 sumamente -40000 eternamente +12110 agua -20010 carbónico -20010 claro -20030 corriente -20010 cristalino -20000& de cepas -20000& de colonia -20000 de frutas -20000 de mar -20000 de mesa -20000 de purga -20000 de régimen -20000 de roca

-20030 dulce -20010 estancado -20010 fresco -20010 frío -20030& fuerte -20020 mineral -20010 muerto -20030& nieve -20010& oxigenado -20010 pesado -20000 poco profunda -20030 potable -20030 purgante -20010 vivo -20030 caliente -20010 salado -20010 bendito -20010 sucio -20010 puro -20010 limpio -20010 negro -20010 contaminado -20030 abundante -20010 espumoso +12210 aguas -20000 de creciente -20000 de menguante -20000 de uso -20010 fresco -20020 interior -20020 jurisdiccional -20010 marino -20010 negro -20020 pluvial -20020 residual -20010 subterráneo -20020 termal -20020 territorial -20010 profundo -20020 superficial -20020 interior -20030 corriente -20010 estancado -20030 salobre -20030 salvaje -20020 internacional -20010 salado -20010 sucio -20020 jurisdiccional -20020 tropical -20040 quiete +11110 aire -20010 acondicionado

Page 196: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.1 BASE SECUNDARIA DE COLOCACIONES MODIFICADORAS

183

-20010 cálido -20010 cargado -20010 comprimido -20010 contaminado -20010 diáfano -20010 fresco -20010 húmedo -20030 libre -20010 líquido -20030 caliente -20010 puro -20010 seco -20010 cargado -20010 pesado -20010 limpio -20010 helado +11220 aires -20000& de gran señor -20010 acondicionado -20010 marino +11110 alambre -20000 de púas -20010 espinoso -20010 galvanizado +12110 alarma -20010 falso -20000 contra incendio -20020 social -20010 acústico -20020 general +12210 alarmas -20030 sensible -20000 contra incendio -20050 protector -20010 electrónico +12110 alergia -20000 de contacto -20010 respiratorio -20010 retardado +12120 alfabetización -20040 complete +11110 alfabeto -20010 cirílico -20010 fonético -20010 latino +11120 algodón -20000 en rama -20010 hidrófilo -20010&Spólvora +11210 algoritmos -20010 Sgenético -20010 paralelo

+11110 alimento -20020 vegetal +12110 alma -20010 atravesado -20000& de caballo -20000& de cántaro -20000& de Dios -20000 en pena +12220 alteraciones -20020 cerebral +12110 altura -20010 máximo -20030 inaccesible -20010 determinado -20010 medio -20020 superior -20020 total -20010 reglamentario +12120 alusión -20010 indirecto -20030 transparente +12110 ama -20000 de casa -20000 de llaves +30010 amar -40000 apasionadamente +11110 ambiente -20010 cargado -20010 húmedo -20020 informal -20010 ruidoso -20020 sideral +11110 ámbito -20020 cultural -20010 económico -20010 educativo -20010 hispánico -20020 laboral -20020 nacional -20010 político -20010 religioso -20010 riguroso -20020 social +12110 ambulancia -20000 de asistencia pública -20000 de correos -20010 sanitario +11110 amigo -20020 personal -20000 de la infancia -20020 mejor -20010 viejo

Page 197: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.1 BASE SECUNDARIA DE COLOCACIONES MODIFICADORAS

184

-20010 íntimo -20020 fiel -20030 inseparable -20020 leal -20010 sincero -20010 cercano -20020 especial +12120 amistad -20000 de los pueblos -20030 indisoluble -20010 sincero -20010 tierno -20010 profundo -20010 puro +11120 amor -20020 carnal -20010 eterno

-20010 falso -20020 filial -20010 íntimo -20010 loco -20020 maternal -20010 mutuo -20010 pasajero -20020 pasional -20010 platónico -20010 propio -20010 recíproco -20020 sexual +20010 amplio -40000 más -40000 muy

Page 198: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

185

Anexo B.2 Base secundaria de colocaciones con valencias verbales

+1111 accidente -3003 00ÿ103prevenir +1221 aceitunas -3001& 00›104llegar +1111 acertijo -3001 00ÿ203adivinar +1121 acontecimientos -3004 00’104adelantar +1211 adivinanza -3001 00ÿ203contar +1212 admiración -3004 00�003extasiar +1212 adquisición -3001 00ÿ103facilitar +1211 agua -3003 00›125diluir -3005 00¡104meter -3001 00’104saltar +1221 aguas -3004 00›003curar -3001 00ÿ103tomar +1112 alcohol -3003 00ÿ032diluir +1111 alcoholismo -3003 00ÿ002combatir +1211 alegría -3001 00�003brincar -3001 00�003saltar -3003 00ÿ002sentir +1221 alternativas -3002 00ÿ002ofrecer +1211 almohada -3001& 00›125consultar +1111 alumno -3001 00ÿ203preguntar +1211 angustia -3009 13ÿ021oprimir +1111 apoyo -3001 00ÿ002prestar +1212 apelación -3002 00ÿ103interponer +1112 árbol -3006 00’204subir +1111 armario -3001 00¡104rebuscar +1111 asco -3001 00ÿ002dar +1221 ascuas -3001& 00¡003estar

+1111 asilo -3001 00ÿ002buscar -3002 00ÿ002conceder +1121 aspectos -3003 00ÿ103cubrir +1121 asuntos -3006 00¡104inmiscuir +1111 ataque -3004 00’104lanzar +1212 atención -3002 00ÿ002atraer -3001 00ÿ002dedicar -3002 00ÿ002distraer -3001 00ÿ002prestar +1211 atmósfera -3001 00ÿ103caldear +1112 automóvil -3002 00™204caer +1212 autoridad -3001 00›125aplastar +1111 auxilio -3001 00ÿ002prestar +1111 aviso -3001 00ÿ103dar -3003 00ÿ103escribir +1211 ayuda -3001 00ÿ002prestar +1211 bandera -3001 00ÿ103arriar -3001 00ÿ103enarbolar -3001 00ÿ103izar +1111 baño -3005 00¡104meter +1211 barba -3004 00ÿ103cortar -3004 00ÿ103dejar -3002& 00ÿ103hacer +1211 barrera -3001 00ÿ103saltar +1221 barreras -3002 00ÿ002poner +1211 basura -3001 00’125tirar +1211 batalla -3001 00ÿ103ganar +1122 bienes -3001 00ÿ103embargar +1121 bigotes -3005 00ÿ103retorcer

Page 199: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.2 BASE SECUNDARIA DE COLOCACIONES CON VALENCIAS VERBALES

186

-3002 00ÿ103tener -3003 00ÿ103teñir +1211 boca -3003 00ÿ103abrir -3001 00ÿ143tapar +1111 blanco -3001 00ÿ103dar -3001 00ÿ103errar -3001 00ÿ103efallar +1221 bolas -3002& 00ÿ002meter +1111 bolsillo -3001 00¡104rebuscar +1211 bomba -3001 00ÿ103dar +1211 bombilla -3003 13ÿ001lucir +1211 borrachera -3001 00�003andar +1111 bosque -3003 00«104ir +1111 bostezo -3001 00ÿ203lanzar +1221 botas -3004 00ÿ103quitar +1111 brasero -3001 00ÿ103atizar +1121 brazos -3003 00ÿ103abrir -3004 00¡125echar -3002 00ÿ103retorcer +1211 broma -3001 00’003tomar +1121 caballos -3001 00ÿ002domar +1121 cabellos -3001 00ÿ103trancar +1211 cabeza -3001 00ÿ103acariciar -3001 00ÿ103agachar -3004 00ÿ103golpear -3001 00ÿ103inclinar -3002 00ÿ103mover -3002& 00ÿ103perder -3004 00ÿ103rascar -3002 00ÿ103volver +1112 calor -3002& 00ÿ002tener +1211 calle -3003 00«104ir +1112 cajón -3001 00¡104rebuscar +1211 cama

-3002 00ÿ103hacer +1111 camino -3003 00«104ir +1121 cántaros -3002& 00’003llover +1212 cal -3001 00›024revocar +1211 calentura -3002 00ÿ002tener +1111 campo -3003 00¡104vivir +1112 canal1 -3003 00ÿ203compartir +1111 candidato -3001 00’104seleccionar +1211 capa -3003 00›225cubrir +1211 cara -3001 00�003cambiar -3001 00ÿ103dar -3003 00’104mentir -3001 00�003mudar -3006 00¡104reir -3002 00ÿ103romper +1212 cárcel -3001 00ÿ002extenuar -3002 00¡125meter +1111 cargo -3001 00ÿ103conquistar -3002 00’104tener +1121 cargos -3001 00ÿ103desempeñar +1211 carrera -3002 00ÿ002hacer +1221 casas -3001 00¡104instalar -3001 00«104instalar +1211 categoría -3001 00�003bajar -3002 00�003descender +1121 celos -3002& 00ÿ002tener +1111 ceño -3003 00ÿ002fruncir +1121 centros -3008 16ÿ001establecer -3002 00ÿ002establecer +1111 certificado -3002 00ÿ103obtener -3001 00ÿ103mostrar +1211 charla -3002 00ÿ203conceder -3003 00ÿ203conferir

Page 200: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.2 BASE SECUNDARIA DE COLOCACIONES CON VALENCIAS VERBALES

187

-3001 00ÿ203dar +1221 chispas -3001& 00ÿ002echar +1111 ciclo -3001 00ÿ103cerrar +1221 clases1 -3001 00ÿ002dar -3003 00ÿ103impartir -3001& 00ÿ002matar +1121 codos -3001& 00«104hablar +1122 colores -3001 26ÿ031brotar -3001 00ÿ143sacar +1211 comida -3004 00’104abalanzar +1212 comisión -3001 00ÿ103desempeñar +1222 comodidades -3002 00ÿ103ofrecer +1211 computadora -3001 00ÿ203usar +1211 conciencia -3002 13ÿ103remorder +1111 concierto -3001 00ÿ203dar +1212 conclusión -3001 00ÿ002dar +1222 condecoraciones -3001 00ÿ002aceptar -3001 00ÿ002usar +1212 conexión -3002 00ÿ002tener +1211 confianza -3002 00ÿ002tener +1111 conflicto -3002 00¡003poner +1121 conflictos -3001 00ÿ002generar +1212 confusión -3003 00ÿ103reprimir +1111 congreso -3001 00ÿ203convocar +1111 conocimiento -3002 00ÿ103perder +1211 consecuencia -3001 00ÿ203sacar +1221 consecuencias -3001 00ÿ002sacar -3002 00ÿ002tener +1121 contactos -3002 00ÿ002mantener +1111 contrato

-3001 00¡104expresar -3004 00¡104expresar +1221 controversias -3003 00ÿ103dirimir +1121 convenios -3001 00ÿ002celebrar +1212 convicción -3001 00«003actuar +1211 convocatoria -3003 00ÿ002expedir +1212 cooperación -3001 00ÿ103prestar +1112 corazón -3001 23ÿ001brincar -3001 23ÿ001saltar +1211 cortina -3001 00ÿ103bajar +1221 cosas -3001 00ÿ103colocar +1221 costillas -3003& 00ÿ103medir +1111 crédito -3002 00ÿ203conceder +1111 cuidado -3002& 00ÿ002tener +1212 ciudad -3007 23ÿ104edificar +1211 ciudadanía -3008 13ÿ001perder -3002 00ÿ103perder +1211 cuchara -3002& 00ÿ103meter +1111 cuello -3001 00ÿ103bajar +1211 cuenta -3002 00’003poner -3002 00’003meter -3001 00ÿ203saldar -3002& 00¡003tener +1121 cueros -3005 00¡003poner +1211 culpa -3002& 00ÿ103tener +1211 cultura -3003 00ÿ103difundir +1121 cumpleaños -3001 00ÿ103celebrar -3001 00ÿ103festejar +1111 cumplido -3003 00ÿ203decir -3002 00ÿ203hacer +1121 cursos -3001 00ÿ002coordinar

Page 201: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.2 BASE SECUNDARIA DE COLOCACIONES CON VALENCIAS VERBALES

188

-3001 00ÿ002programar +1121 dados -3001& 00’104jugar +1111 daño -3002 00ÿ002hacer +1121 daños -3001 00ÿ103indemnizar -3001 00ÿ103reparar +1121 datos -3001 00ÿ002mostrar +1112 deber -3002 00ÿ103reconocer +1122 deberes -3001 00ÿ002dar +1111 dedo -3001 00ÿ203engarabitar +1121 dedos -3002 00ÿ103mover +1212 deducción -3002 00ÿ002hacer +1211 defensa -3002 00ÿ103fortalecer +1111 delito -3001 00ÿ103conjugar +1211 democracia -3001 00ÿ002lograr +1111 derecho -3002 00ÿ103tener -3001 00ÿ103ganar -3004 00ÿ103ganar +1121 derechos -3002 00ÿ103tener -3001 00ÿ103ganar -3001 00ÿ103pisotear +1211 derrota -3001 00ÿ203causar -3003 00ÿ203infligir +1111 descanso -3002 00ÿ103conceder -3001 00ÿ103privar +1121 deseos -3002 00¡003arder +1112 desorden -3001 00¡003estar +1211 destreza -3003 00«024sobresalir -3001 00«024superar +1221 deudas -3002 00ÿ002contraer +1121 días -3002& 00ÿ103correr +1121 dientes -3001 00ÿ103enseñar

+1222 dificultades -3001 00ÿ002cansar +1212 dimisión -3001 00ÿ103presentar +1111 dinero -3001 00ÿ103ganar -3007 23ÿ001disipar -3007 23ÿ001esfumar +1111 discurso -3003 00ÿ103concluir -3001 00ÿ203pronunciar +1211 disputa -3005 00’104meter +1111 desuso -3002 00¡003caer +1211 deuda -3001 00ÿ203liquidar -3001 00ÿ203pagar +1111 dinero -3001 00ÿ103malgastar +1212 disponibilidad -3002 00ÿ002tener +1112 dolor -3001 00ÿ002aguantar -3001 00ÿ002causar -3001 00�003gritar -3002& 00ÿ002tener -3001 00ÿ002tranquilizar +1111 efecto -3003 00ÿ002surtir +1111 ejemplo -3003 00ÿ143seguir -3001 00¡024tomar +1222 elecciones -3001 00¡104votar +1111 embargo -3001 00ÿ103levantar +1111 enemigo -3001 00’104aniquilar -3004 00œ003lanzar -3004 00’104pasar +1121 empleados -3001 00ÿ103nombrar +1111 empleo -3001 00ÿ103desempeñar +1211 empresa -3001 00ÿ103cargar +1212 enfermedad -3001 00ÿ103evitar -3001 00œ104preservar -3001 00�003preservar +1111 enigma -3001 00ÿ203asertar

Page 202: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.2 BASE SECUNDARIA DE COLOCACIONES CON VALENCIAS VERBALES

189

-3001 00ÿ203dar +1211 enseñanza -3001 00ÿ103apoyar -3001 00’104enfocar +1111 entusiasmo -3001 00ÿ103contagiar +1121 equipos -3001 00’104integrar

+1122 errores -3002 00ÿ002cometer +1211 escalera -3001 00ÿ103bajar -3001 00«104bajar -3003 00ÿ103subir -3003 00«104subir

Page 203: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

190

Anexo B.3 Base secundaria de colocaciones con valencias sustantivales

+1222 actividades -1111 �0cambio +1212 actitud -1111 �0cambio +1111 adiestramiento -1211 �1fase +1212 administración1 -1121 �1servicios -1211 �1ventaja -1221 �1ventajas +1112 administrador -1121 �1permisos +1111 adverbio -1212 �1funcionalidad +1211 agua -1112 �1nivel +1111 amo -1111 �1dominio +1120 análisis2 -1111 �1costo -1111 �1pago -1111 �1resultado +1112 ángel -1111& �0cabello +1112 animal -1211 �1naturaleza -1212 �1sensibilidad -1111 �1nombre -1211 �1cola +1111 año -1221 �1ventas +1212 aplicación -1113 �1interfaz +1111 archivo -1111 �1contenido -1211 �1contraseña -1212 �1descripción -1212 �1extensión -1111 �1formato -1111 �1nombre -1212 �1petición -1212 �1ubicación +1112 autor -1111 �1nombre +1212 aviación -1121 �1bombardeos +1112 ayer -1111 �1recuerdo +1211 base

-1212 �1información -1212 �1ubicación -1222 �1unidades -1121 �1datos -1221 �1columnas -1211 �1consulta -1121 �1campos -1211 �1salida -1111 �1registro -1111 �1ángulo +1111 cachorro -1112 �1carácter +1111 campamento -1121 �1metros +1111 campo -1200 �1sintaxis -1211 �1parte -1112 �1valor -1111 �1nombre +1212 capital1 -1111 �1nombre +1211 casa -1211 �1persona -1111 �1dueño +1111 cerebro -1111 �1funcionamiento -1212 �1función +1111 ciudadano -1122 �1deberes -1221 �1garantías -1212 �1obligación -1222 �1obligaciones +1121 ciudadanos -1122 �1deberes -1221 �1garantías -1222 �1obligaciones +1111 cliente -1222 �1obligaciones -1121 �1derechos -1212 �1petición +1211 computadora -1212 �1configuración -1211 �1parte -1212 �1reparación +1112 conector -1111 �1funcionamiento -1111 �1archivo -1221 �1características -1221 �1etiquetas

Page 204: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.3 BASE SECUNDARIA DE COLOCACIONES CON VALENCIAS SUSTANTIVALES

191

+1211 consulta -1121 �1resultados +1112 controlador -1212 �1específicación +1211 correa -1111 �1extremo -1111 �1límite +1112 corazón -1121 �1sonidos +1111 cuello -1212 �1piel +1111 cuerpo -1112 �1material +1111 diente -1111 �1extremo -1212 �1extracción -1211 �1superficie -1111 �1extremo -1211 �1perdida +1212 dirección -1121 �1elementos +1211 disciplina -1121 �1resultados +1111 disco -1222 �1canciones -1111 �1lado +1211 distancia -1212 �1mitad +1111 documento -1212 �1construcción +1111 empleado -1112 �1manual +1111 encabezado -1211 �1parte +1111 enemigo -1111 œ1fuego +1111 entrenamiento -1221 �1alturas -1212 �1modalidad +1111 equipo -1111 �1nombre +1212 especificación -1212 �1revisión +1111 escándalo -1211 �1chispa -1221 «1burlas +1111 éxito -1221 �1semillas -1111 �1camino +1112 fin -1111 �1principio +1111 fuego1 -1211& �0prueba

+1111 formato -1211 �1parte +1111 formulario -1122 �1controles -1121 �1datos +1212 fracción -1111 �1párrafo +1111 gobierno -1212 �1credibilidad -1212 �1efectividad -1211 �1política -1111 �1vocero +1111 grupo -1112 �1control -1121 �1recursos +1211 guerra -1111 �1comienzo -1112 �1fin +1211 hambre -1112 �1dolor -1111 E1sufrimiento +1210 hipótesis -1212 �1demostración -1111 �1planteamiento +1111 hocico -1211 �1presa +1211 infantería -1111 �1ataque -1211 �1retirada +1212 información -1111 �1contenido -1212 �1recuperación +1222 instalaciones -1111 «1recorrido +1212 instrucción -1111 �1formato -1212 �1ejecución -1212 �1utilización +1112 instrumental -1212 �1esterilidad +1211 inteligencia -1100 �1estatus +1212 intervención -1111 �1día +1111 juego -1212 �1traducción +1211 lengua -1222 �1lesiones +1211 línea1 -1111 �1parámetro +1111 lista -1111 �1elemento +1212 libertad

Page 205: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.3 BASE SECUNDARIA DE COLOCACIONES CON VALENCIAS SUSTANTIVALES

192

-1111 �1amante -1111 �0clima -1211 «1lucha +1211 mano -1111 �1dorso -1111 �1borde +1221 manos -1111& �0juego +1211 masa -1122 �1valores +1111 método -1111 �1detalle -1211 �1estructura -1212 �1explicación -1121 �1pasos +1111 miembro -1111 �1nombre -1112 �1perfil +1122 minerales -1221 �1características -1212 �1detección -1212 �1descripción -1212 �0distribución -1222 �1propiedades -1111 �0procesamiento +1111 mundo -1112 �1fin -1221 �1partes -1121 �1pueblos -1111 �1resto -1122 �1rincones +1211 naturaleza -1211 ›1armonía -1111 ›1contacto -1212 �1conservación -1211 �1defensa -1121 �1elementos -1111 �1enemigo -1111 ›1enlace -1221 �1fuerzas -1122 �1imágenes -1212 �1manifestación -1221 �1maravillas -1122 �1postales -1212 �1protección -1221 �1reservas -1121 �1sonidos +1111 odio -1112 ’1amor -1211 œ1batalla -1221 �1causas -1212 �0expresión -1211 �1presa

-1111 �0sentimiento +1212 opción -1122 �1valores +1212 oración1<"lingüística" -1212 �1construcción -1211 �1parte +1212 oración2<"religión" -1121 �1pasos +1112 orden -1111 �1significado +1212 organización -1121 �1informativos -1121 �1documentos +1222 organizaciones -1211 �1naturaleza +1111 órgano -1222 �1dimensiones +1112 origen -1111 �1nombre -1212 �1definición +1211 página -1222 �1propiedades -1212 �1dirección +1111 país -1221 �1áreas -1122 �1civiles -1111 �1oeste -1222 �1ciudades -1211 �1estructura -1111 �1presidente +1111 paquete -1111 �1tamaño -1111 �1peso +1111 parámetro -1111 �1nombre -1112 �1valor +1111 parque -1122 �1árboles -1222 �1flores -1221 �1palomas +1111 pasado -1111 �1tema -1121 �1hechos +1213 paz -1111 �1amante +1111 pensamiento -1111 �1funcionamiento +1111 perro -1111 �1ánimo -1222 �1transgresiones -1212 �1atención -1111 �1trasero -1211 �1confianza

Page 206: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.3 BASE SECUNDARIA DE COLOCACIONES CON VALENCIAS SUSTANTIVALES

193

-1111 �1movimiento -1212 �1reacción +1111 pista -1111 �1inicio +1111 poblado -1121 �1habitantes +1111 programa -1122 �1ejemplares -1111 �1nombre +1111 protocolo -1212 �1monitorización -1212 �1versión +1211 prueba -1212 �1descripción -1121 �1ejemplos -1212 �1explicación -1211 �1importancia -1111 �1proceso -1121 �1resultados +1212 publicación -1111 �1avance -1221 �1características -1111 �1contenido -1111 �1desarrollo -1122 �1ejemplares -1111 �1fracaso -1211 �1historia -1111 �1índice -1111 �1motivo -1111 �1retraso -1122 �1responsables -1221 �1ventajas +1111 pueblo -1111 �1canto -1111 �1correo -1112 �1defensor -1221 �1familias -1121 �1habitantes -1121 �1héroes -1111 �1teatro -1111 �1partido -1213 �1voz +1211 puerta -1111 �1diseño -1211 �1manija -1111 �1marco +1212 red -1212 �1exploración -1111 �1equipo -1212 �1información -1121 �1usuarios -1121 �1paquetes +1111 registro

-1211 �1copia -1212 �1creación +1211 ruta -1211 �1búsqueda -1212 �1continuación -1122 �1detalles -1212 �1determinación -1221 �1etapas -1212 �1evaluación -1111 �1extremo -1111 �1inicio -1112 �1final -1111 �1mapa -1111 �1punto -1111 �1recorrido -1111 �1resto +1212 sección -1211 �1coordinadora -1111 �1índice -1212 �1información -1111 �1inicio -1111 �1ejemplo -1111 �1jefe -1121 �1objetivos -1111 �1organigrama -1112 �1personal +1211 serie -1111 �1número -1121 �1productos -1111 �1transcurso -1211 �1secuencia +1112 servidor -1111 �1nombre -1122 �1variables +1111 sistema -1121 �1archivos -1121 �1datos -1111 �1estado -1111 �1nombre -1212 �1presentación +1212 sociedad -1121 �1aspectos -1211 �1base -1111 �1cambio -1222 �1obligaciones +1111 sonido -1211 �1importancia -1212 �1información -1112 �1origen -1111 �0tipo +1121 sonidos -1111 �1arte -1212 �1articulación

Page 207: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.3 BASE SECUNDARIA DE COLOCACIONES CON VALENCIAS SUSTANTIVALES

194

-1212 �1amplificación -1211 �1característica -1112 �1creador -1212 �1descripción -1212 �1determinación -1111 �1estudio -1212 �1grabación -1211 �1mezcla -1121 �1mundos -1112 �1origen +1212 suscripción -1212 �1ampliación -1212 �1cancelación

-1221 �1características -1222 �1condiciones -1212 �1confirmación -1121 �1datos -1122 �1detalles -1212 �1duración -1211 �1fecha -1111 �1importe -1111 �1pago -1111 �1período -1111 �1precio -1212 �1renovación -1111 �1vencimiento

Page 208: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

195

Anexo B.4 Base secundaria de hipónimos / hiperónimos

+1121adornos -1121anillos -1121aretes -1122collares -1121pendientes +1122animales -0000animales domésticos -1121felinos -1122reptiles -1122roedores +0000animales domésticos -1111cerdo -1111ganado -1111gato -1111pájaro -1111perro +1121antibióticos -1211eritromicina -1211estreptomicina -1211penicilina +1111aparato1 -1211aspiradora -1112iluminador -1211lavadora -1112refrigerador -1112tostador -1112ventilador +1112autor -1111crítico -1112escritor -1111periodista -1111poeta +1111baile -1112charleston -1211cumbia -1211lambada -1211polca -1211samba -1111tango +1221bayas -1111arándano -1211cereza -1211frambuesa -1211fresa -1211grosella -1211grosella -1211morera -1211zarza +1221bebidas

-0000bebida caliente -0000bebida fuerte -1121refrescos +0000bebida caliente -1111cacao -1111café -1111chocolate -1111té +0000bebida fuerte -1112champán -1112licor -1112ron -1111vodka -1112whisky +1121refrescos -1211Coca-cola -1211Fanta -1211Mirinda -1200Pepsi Cola +0000casa habitacional -1111apartamento -1211cabaña -1211casa -1211choza +0000categoría gramatical -1111caso -1111género -1111modo -1111número +1122cereales -1113arroz -1211avena -1211cebada -1111trigo +1211ciencia -0000ciencia de la humanidad -0000ciencia exacta -0000ciencia médica -0000ciencia natural -0000ciencia técnica +0000ciencia de la humanidad -1211antropología -1211aequeología -1211economía -1211filología -1211filosofía -1211historia -1211jurisprudencia -1111periodismo

Page 209: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.4 BASE SECUNDARIA DE HIPÓNIMOS / HIPERÓNIMOS

196

+0000ciencia exacta -1211cibernética -1211física -1211informática -1211matemática +0000ciencia natural -1211biología -1211botánica -1211genetica -1211geología -1211geografía -1211química +0000ciencia técnica -1211electrónica -1211informática -1211metalurgia -1211minería +1121cítricos -1122limones -1221mandarinas -1221naranjas -1221toronjas +1112color -1111amarillento -1111amarillo -1112ambar -1111anaranjado -1112azul -1111blanco -1111castaño -1211crema -1111durazno -1211esmeralda -1000índigo azul -1211lavanda -1112limón -1211mostaza -1111mulato -1111negro -1211paja -1211purpura -1111rojo -1211rosa -1211turquesa -1111verde -1111verdoso -1211violeta +1111combustible -1111aceite -1112alcohol -1111carbono -1121gas -1211gasolina

-1211leña -1111petroleo -1112querosén +1212constelación -1111Cangrejo -1112Dragón -1211Galaxia -1121Gemelos -1111Pegaso -1111Virgo +1222construcciones -0000casa habitacional -1111castillo -1112hotel -1111kiosco -1112pabellón -1211residencia -1111teatro +1111continente -1211África -1211América -1211Asia -1211Australia -1211Europa +1211coordenada -1211abscisa -1212elevación -1111rango +1111cuadro -1111grabando -1111paisaje -1111retrato +0000cuerpo gobernante -1212administración -1111directorio -1111gobierno +1111deporte -1211acrobacia -1111atletismo -1211gimnasia -1000lucha libre -1212natación +1111deportista -1112corredor -1112disparador -1111futbolista -1111gimnasta -1112luchador -1112nadador -1112saltador -1111tenista +0000día de semana -1111domingo

Page 210: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.4 BASE SECUNDARIA DE HIPÓNIMOS / HIPERÓNIMOS

197

-1100jueves -1100lunes -1100martes -1100miércoles -1111sábado -1100viernes +1111diplomático -1112cónsul -1111delegado -1112embajador +0000dispositivo óptico -1111microscopio -1111prismático -1111telescopio +1111documento -1111acuerdo -1212aplicación -1111certificado -1111contrato -1212declaración -1212declaración -1111decreto -1211demanda -1111diploma -1212disertación -1111informe -1111inventario -1211licencia -1111protocolo -1111registro -1111tratado +1212edad -1211adolescencia -1211infancia -1212juventud -1213niñez +0000empresa de comida -1112bar -1211cafetería -1211pizzeria -1111restaurante +1212enfermedad -1211apoplejía -1211asma -1112cáncer -1211cólera -1211disentería -1211gripe -1212hipertensión -1112hipotension -1111infarto -1111sida -1200tuberculosis

-1211venérea +1211escuela -1211academia -1111instituto -1212universidad +1111especialista -1111antropólogo -1111arqueólogo -1111artista -1111banquero -1111biólogo -1111científico -1111economista -1111físico -1111geógrafo -1111geólogo -1112historiador -1111lingüista -1111maestro -1111matemático -1111médico -1112profesor -1112programador -1111químico -1111sicólogo +1212estación -1111invierno -1111otoño -1211primavera -1111verano +1111estrato -1121campesinos -1000clase media -1121empleados -1121gerentes -1122intelectuales -1121obreros +1121estremos -1111máximo -1111mínimo -1111óptimo +1121felinos -1111gato -1112león -1111leopardo -1111lince -1221panteras -1111puma -1111tigre +1111fenómeno -1211calma -1111eclipse -1212sequedad

Page 211: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.4 BASE SECUNDARIA DE HIPÓNIMOS / HIPERÓNIMOS

198

-1212tempestad -1111terremoto -1111tiempo -1211tormenta -1111viento +0000fenómeno social -1111desarmamento -1111desempleo -1111estancamiento -1212evolución -1212movilización -1212privatización -1212prosperidad -1212reacción -1222represiones -1111retroceso -1212revolución +0000figura de tres dimensión -1111cilindro -1111cono -1111elipsoide -1111poliedro +1211filología -1211lingüística +1211flora -1112árbol -1111arbusto -1112cereal -1212césped -1222flores +1222flores -1221azucenas -1221callas -1221dalias -1221gardenias -1221gladiolas -1221lilas -1221manzanillas -1221margaritas -1221rosas -1122tulipanes -1221violetas +1111fondo -1111certificado -1111cheque -1111crédito +0000forma instructiva -1211conferencia -1212exposición -1111libro -1111seminario +1111foro -1211conferencia

-1111congreso -1212convención -1212reunión -1111simposio -1112taller +1221frutas -1221bayas -1221ciruelas -1121cítricos -1121duraznos -1221manzanas -1221peras -1211piña -1121plátanos -1221uvas +0000fuerzas armadas -1221acorazadas -1211armada -1000fuerza aérea -1211infantería +0000función geométrica -1211cosecante -1111coseno -1211cotangente -1111seno -1111tangente +1121gas -1111aire -1111amoníaco -1112argón -1111hidrógeno -1111metano -1112neón -1111nitrógeno -1111oxígeno +1211gastronomía -1121huevos -1111queso -1211salchicha +1111género1 -1111femenino -1111masculino -1111neutro +1111género2 -1111boceto -1111ensayo -1112folletín -1211historia -1221memorias -1111narrdtive -1211novela -1211novella -1111poema

Page 212: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.4 BASE SECUNDARIA DE HIPÓNIMOS / HIPERÓNIMOS

199

-1211poesía +1212guarnición -1113arroz -1211pasta -1000patatas fritas -1111puro +1111idioma -1111Afgano -1111Albanés -1112Alemán -1111Árabe -1111Armenio -1112Azerbaijan -1111Beloruso -1111Birmano -1111Búlgaro -1112Catalán -1111Checo -1111Chino -1111Coreano -1111Eslovaco -1112Español -1111Estonio -1111Finlandés -1111Flamenco -1111Francés -1111Griego -1111Hebreo -1111Holandés -1111Húngaro -0000idioma artificial -0000idioma extranjero -1111Inglés -1111Islandés -1111Italiano -1111Latino -0000lenguaje de programación -1111Lituano -1112Mongol -1111Noruego -1111Polaco -1111Portugués -1111Rumano -1111Ruso -1111Serbio -1111Slovenio -1111Sueco -1111Turco -1111Vasco +1221iglesias -1211católica -1211griega -1211ortodoxa

-1211romana +1000inferencia lógica -1212deducción -1212inducción +0000instrumento de mesa -1111azucarero -1211cuchara -1111cuchillo -1111salero -1111servilletero -1112tenedor +0000intervalo de tiempo -1111año -1211década -1111día -1211época -1211hora -1121mes -1111milenio -1111minuto -1111segundo -1211semana -1111siglo +0000intrumento musical -1112acordeón -1111clarinete -1111contrabajo -1211flauta -1211guitarra -1111piano -1112saxofón -1112tambor -1211trompeta -1112violín -1111violoncello +1111jefe -1111decano -1111diputado -1112director -1111gerente -1111ministro -1111presidente -1112rector +1211joyería -1121brillantes -1112collar +1211jurisprudencia -1111abogado -1113juez +1112limpiador -1111champoo -1111detergente -1112jabón

Page 213: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO B.4 BASE SECUNDARIA DE HIPÓNIMOS / HIPERÓNIMOS

200

+1211línea -1211curva -1212espiral -1211hipérbola -1211ondulada -1211parábola -1211recta +1111líquido -1111ácido -1211agua -1111alcalino +1112lugar -1212ciudad -1111pueblo -1111suburbio +1112mar -1100Mar Adriático -1100Mar Báltico -1100Mar Blanco -1100Mar Caribeño -1100Mar Mediterráneo -1100Mar Negro -1100Mar Rojo +1111marinero -1111almirante -1112capitán -1111compañero -1111contramaestre

Page 214: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

201

Anexo I. Preposiciones

######################################################################## ## Centro de Investigación en Computación - IPN ## Autor : Sabino Miranda ## Archivo: HUPREPO.txt ## Creado : 10-SEP-2002 ## Descripción: ## Este archivo contiene las preposiciones extendidas para español ## el orden es descendente debido a que algunas preposiciones se veri-ficarían ## antes que otras con características similares ## (Obs) ## Ejemplo: ## de ## de cara a ## de parte de ## Correcto: ## de parte de ## de cara a ## de ## ########################################################################## 1. tras de 2. tras 3. tocante a 4. sobre 5. so pretexto de 6. so pena de 7. so capa de 8. so 9. sin 10. según 11. salvo 12. pro 13. por medio de 14. por lo que respecta a 15. por intermedio de 16. por entre 17. por encima de 18. por debajo de 19. por cuenta de 20. por conducto de 21. por arriba de 22. por amor de 23. por amor a 24. por 25. pese a que 26. para con

27. para 28. menos 29. mediante 30. luego de 31. lejos de 32. junto con 33. junto a 34. incluso 35. hasta 36. hacia 37. gracias a 38. fuera de 39. frente a 40. extra 41. excepto 42. entre 43. enfrente de 44. encima de 45. en virtud de 46. en vez de 47. en torno de 48. en torno a 49. en relación con 50. en razón de 51. en razón a 52. en pro de

Page 215: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO I. PREPOSICIONES

202

53. en pos de 54. en orden a 55. en obsequio de 56. en obsequio a 57. en nombre de 58. en mitad de 59. en memoria de 60. en medio de 61. en materia de 62. en lugar de 63. en los limites de 64. en igual de 65. en gracia a 66. en función de 67. en fuerza de 68. en favor de 69. en dirección a 70. en descargo de 71. en derredor de 72. en defecto de 73. en cuanto a 74. en consideración a 75. en concordancia con 76. en cambio de 77. en calidad de 78. en atención a 79. en aras de 80. en 81. durante 82. donde 83. detrás de 84. después de 85. desde 86. dentro de 87. delante de 88. debido a 89. debajo de 90. de parte de 91. de frente a 92. de entreguerras 93. de entre 94. de cara a 95. de acuerdo con 96. de 97. contra 98. conforme a 99. con vista a 100. con respecto a 101. con referencia a 102. con motivo de 103. con lo dispuesto en 104. con idea de 105. con honores de

106. con fundamento en 107. con el fin de que 108. con el fin de 109. con cargo a 110. con carácter de 111. con arreglo a 112. con 113. comparativamente a 114. cerca de 115. cara a 116. cabe 117. bajo 118. apud 119. aparte de 120. antes de 121. ante 122. amén de 123. allende 124. alrededor de 125. al nivel de 126. al modo de 127. al lado de 128. al frente de 129. al filo de 130. al decir de 131. al calor de 132. al cabo de 133. al borde de 134. adonde 135. además de 136. ad 137. acerca de 138. abajo de 139. ab 140. a través de 141. a título de 142. a ruego de 143. a retaguardia de 144. a reserva de 145. a razón de 146. a raíz de 147. a propósito de 148. a pesar de 149. a partir de 150. a modo de 151. a merced de 152. a manera de 153. a lo largo de 154. a la vuelta de 155. a la vista de 156. a la manera de 157. a la altura de 158. a instancias de

Page 216: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO I. PREPOSICIONES

203

159. a instancia 160. a fuerza de 161. a flor de 162. a fin de que 163. a fin de 164. a favor de 165. a expensas de 166. a eso de 167. a diferencia de

168. a despecho de 169. a cuenta de 170. a costa de 171. a consecuencia de 172. a causa de 173. a cargo de 174. a cambio de 175. a base de 176. a

255 *No existe preposición

Page 217: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

204

Anexo II. Adverbios

######################################################################## ## Centro de Investigación en Computación - IPN ## Autor : Sabino Miranda ## Archivo: HUAdv.txt ## Creado : 10-Dic-2001 ## Descripción: ## Este archivo contiene todos los adverbios: ## lugar, tiempo, cantidad, modo, afirmativos, negativos, duda y cantidad. ## Las locuciones adverbiales se determinan en el programa son las construcciones adver-biales. ############################################################################ Adverbios de lugar ########################################################################## abajo acá acullá adelante adentro adónde afuera ahí alrededor allá allí

aparte aquí arriba atrás cerca debajo delante dentro detrás dónde dondequiera

doquier doquiera encima enfrente extramuros fuera intramuros junto lejos

########################################################################### Adverbios de tiempo ######################################################################## ahora ahorita anoche antaño anteayer antes aún ayer cuando

cuando quiera después entonces entremedias entremedio hogaño hoy luego mañana

mientras nunca pasado mañana pronto siempre tarde temprano todavía ya

########################################################################### Adverbios de cantidad

Page 218: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO II. ADVERBIOS

205

########################################################################## algo bastante casi cuan cuán cuánto cuasi demasiado

excepto harto más medio menos mero mucho muy

nada poco salvo sobremanera tan tanto

########################################################################### Adverbios de modo #########################################################################adrede anteanoche apenas aposta aprisa así bajo bien como como quiera

claro cual deprisa despacio enhoramala enseguida exclusive expreso gratis inclusive

incluso mal máxime presto recién sólo tal verbigracia

########################################################################### Adverbios de afirmación ########################################################################## asimismo cierto

sí siquiera

también viceversa

########################################################################### Adverbios de negación ########################################################################## jamás nanay ni

ni siquiera no nunca jamás

tampoco

########################################################################### Adverbios de duda #########################################################################acaso quizá quizás

Page 219: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO II. ADVERBIOS

206

########################################################################### Adverbios diversos #########################################################################mediante

Page 220: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

207

Anexo III. Archivos Auxiliares

Los archivos auxiliares están compilados en este anexo. Cada archivo inicia con su respec-tivo encabezado seguido de su contenido. ######################################################################## ## Centro de Investigación en Computación - IPN ## Autor : Sabino Miranda ## Archivo: HUAPOCO.txt ## Creado : 6-May-2002 ## Descripción: ## Este archivo contiene las palabras apócopes ## ########################################################################## algún buen mal cien

cualquier gran ningún primer

tercer san

######################################################################## ## Centro de Investigación en Computación - IPN ## Autor : Sabino Miranda ## Archivo: HUEADJ.txt ## Creado : 10-Dic-2001 ## Descripción: ## Este archivo contiene la lista de palabras que son excepciones a la regla general ## para identificar adjetivos tales como: clemente, vehemente, etc. ## ########################################################################## # SUFIJO -ado ########################################################################## agrado alumnado apostolado arado archiducado arcontado arzobispado bocado brazado brocado calafateado campesinado carbonado catecumenado cayado collado

condado consulado contrapicado costado dado damasquinado dechado desagrado desaguisado desenfado ducado electorado emparrado emperchado empiñonado enfado

entarimado entorchado entramado envarado episcopado estado estrado estudiantado externado fado fotograbado grado granado hado hígado hipermercado

Page 221: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO III. ARCHIVOS AUXILIARES

208

huecograbado lado legado lenguado mantecado marquesado matriarcado mercado noviciado obispado palatinado papado párpado patriarcado pecado pensionado

pescado pirograbado pontificado prado prelado primado principado proconsulado profesorado proletariado protectorado puñado recado rectorado reinado sábado

salariado secretariado senado sotechado supermercado tablado teclado tejado terrado tinglado vado venado voluntariado campesinado ganado

########################################################################## ## SUFIJO -ido ########################################################################## ácido alarido aminoácido anhídrido apellido aullido balido berrido bióxido bólido bramido bufido chasquido chiflido chillido chirrido colorido contrasentido crujido descuido despido

dióxido ejido estallido estampido fosfolípido glúcido glucósido graznido hidrácido hidróxido hipido infrasonido ladrido libido malentendido marido maullido monóxido mugido nido nucleótido

olvido óxido péptido peróxido pitido pórfido prótido quejido resoplido ronquido ruido sacárido sarpullido silbido sonido soplido tronido ultrasonido vagido zumbido

########################################################################## ## SUFIJO -nte ########################################################################## accidente agente aguante aguardiente

aliciente almirante ambiente apunte

arconte atlante bacante barrunte

Page 222: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO III. ARCHIVOS AUXILIARES

209

bergante bisonte bogavante cabrestante cante cociente comandante contingente contracorriente cosecante cotangente desmonte desplante detergente diamante diente elefante ente estante excipiente expediente frente fuente

gente gradiente guante horizonte iguanodonte inconveniente ingrediente levante lobagante lubigante mastodonte mente montante monte nepente occidente oriente oropimente pescante pespunte piedemonte plante polizonte

poniente puente recipiente relente remanente remonte repente rinoceronte rocinante semblante serpiente sextante simiente sobrestante somonte subafluente subconsciente talante tinte torrente trasplante tridente turbante

########################################################################## # SUFIJO -ustre -estre ########################################################################## aligustre balaustre bimestre burgomaestre contramaestre lustre maestre semestre trimestre ######################################################################## ## Centro de Investigación en Computación - IPN ## Autor : Sabino Miranda ## Archivo: HUEMASC1.txt ## Creado : 10-Dic-2001 ## Descripción: ## ## Este archivo contiene la lista de palabras que son excepciones al paradigma propuesto para ## identificar el género masculino tales como: flor, foto, polio, mano, rima, prima, pluma, etc. ##

Page 223: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO III. ARCHIVOS AUXILIARES

210

## GÉNERO MASCULINO Excepciones FEMENINAS ## Considerado: MASCULINO ## Excepcion: FEMENINAS ## ########################################################################## ########################################################################## ## SUFIJO -ma ########################################################################## aguagoma alarma alharma alhucema alisma alma ama amalgama ánima antefirma apostema apotema arma asma bizma broma bruma caguama calma cama carcoma cataplasma categorema chusma cima coima coma contrarreforma crema crisma cuaresma dama décima derrama diadema

doma dracma enjalma epifonema escama esgrima espuma estima estratagema fama firma flama flema forma gama gamma gema goma gomaespuma grama grima horma lágrima lama lástima legítima lima llama loma lúcuma luma mama marisma maroma máxima

merma mojama morisma norma palma paloma pamema pantomima plataforma pluma pócima poma postema prima proclama quema rama redoma reforma resma retama rima saloma séptima sigma sima soflama suma tarima toma trama víctima yema zalema zeugma

########################################################################## ## SUFIJO -o ########################################################################## mano

Page 224: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO III. ARCHIVOS AUXILIARES

211

foto mano moto polio ########################################################################## ## SUFIJO -e ########################################################################## aeronave aguachirle aguanieve altiplanicie anafase apócope argemone ascáride astronave ave bacante barbarie base birreme bocacalle boutique calígine calle calvicie canicie cariátide cariópside carne catástrofe cédride chinche cicloide clámide clase clave cohorte comadre contracorriente cosecante costumbre cotangente cumbre cúspide diástole duramadre

efeméride efigie elipse elite esfinge especie estirpe falange faringe fase fe fiebre frase frente fuente galliforme gente gradiente gripe hambre hecatombe hélice hemorroide herrumbre higiene hipérbole hueste incertidumbre índole ingle intemperie landre laringe leche legumbre libídine liebre liendre llave lumbre

madre mansedumbre masacre medianoche ménade mente metafase miente mole molicie muchedumbre muerte mugre nave náyade nieve noche nube nurse paragoge parte pepónide pesadumbre peste pirámide planicie plebe pléyade podredumbre pose pringue probóscide profase progenie prole psique quejumbre raigambre reciedumbre roulotte

Page 225: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO III. ARCHIVOS AUXILIARES

212

sangre sede semiconsonante serie serpiente servidumbre sierpe sílfide sílice simiente

sinécdoque sinusoide siringe sístole subespecie suerte suite superficie tarde techumbre

telofase tilde toilette torre tournée trirreme ubre urbe urdimbre varice

########################################################################## ## SUFIJO -or ########################################################################## coliflor flor labor prensor sor ########################################################################## ## SUFIJO -os ########################################################################## tos ########################################################################## ## SUFIJO -l ########################################################################## aguamiel bacanal besamel cal cañamiel capital cárcel catedral col

coniferal diagonal espiral factorial hiel miel multinacional piel sal

semifinal semivocal señal sucursal versal vertical vestal vocal central

######################################################################## ## Centro de Investigación en Computación - IPN ## Autor : Sabino Miranda ## Archivo: HUNUMCOM.txt ## Creado : 10-Dic-2001 ## Descripción: ## Este archivo contiene la lista de palabras que son de número común tales como: análisis, ## isósceles, judas, lunes, páncreas, tenis, etc. ## #########################################################################alias análisis cascarabias

Page 226: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO III. ARCHIVOS AUXILIARES

213

corta cabezas déficit guardacostas guardaespaldas guardagujas jueves lanzagranadas lanzallamas lavafrutas limpiabotas limpiaparabrisas lunes manitas martes matamoscas mataratas

mecenas mesías miércoles milhojas montacargas páncreas parabrisas paracaídas paraguas pasamontañas perdonavidas pesacartas portalámparas portaminas portamonedas quitamanchas

rabioles ras recogepelotas rompecabezas rompeolas rubiales sacapuntas salvavidas tenis trabalenguas viejales viernes vivales beige bíceps

########################################################################### -os ######################################################################### albatros alisios amnios añicos argos bártulos bentos besamanos burdeos buscapleitos buscarruidos cachelos calabobos calzonazos caos catavinos comecocos comicios correcaminos cortacircuitos cosmos cuentakilómetros cumpleaños engañabobos equiúridos escurreplatos

espantapájaros etnos extramuros friegaplatos friegasuelos guardabarros guardafrenos intramuros lanzatorpedos lavamanos lavaplatos lejos matamoros matasanos matasellos metemuertos nemertinos pararrayos pelagatos pertrechos picamaderos picapleitos pinchadiscos polisacáridos portafolios portahelicópteros

portalibros portaobjetos portarretratos posavasos pronaos quebrantahuesos quevedos quitamiedos rascacielos rompehielos sacabocados sacacorchos sacadineros sacaromicetos sacatrapos salvabarros secamanos soplamocos tapacubos taparrabos tétanos tocadiscos trepatroncos trotaconventos trotamundos zampabollos

########################################################################

Page 227: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO III. ARCHIVOS AUXILIARES

214

## Centro de Investigación en Computación - IPN ## Archivo: HUNUMCOM.txt ## Creado : 10-Dic-2001 ## Descripción: ## Este archivo contiene la lista de palabras que son de número común para adjetivos tales ## como: isósceles, judas, perdonavidas, etc. ######################################################################## cascarabias corta cabezas guardacostas guardaespaldas guardagujas isósceles judas mataratas mecenas milhojas narizotas páncreas perdonavidas viejales vivales ultravioleta clave beige

Page 228: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

ANEXO III. ARCHIVOS AUXILIARES

215

######################################################################## ## Centro de Investigación en Computación - IPN ## Autor : Sabino Miranda ## Archivo: HUEGENCOM1.txt ## Creado : 10-Dic-2001 ## Descripción: ## Este archivo contiene la lista de palabras femeninas que son excepciones al paradigma ## propuesto para identificar el género común tales como: vista, pista, lista, etc. ## ######################################################################### ## SUFIJO -ista femeninos #########################################################################vista pista lista ######################################################################## ## Centro de Investigación en Computación - IPN ## Autor : Sabino Miranda ## Archivo: HUEGENCOM2.txt ## Creado : 10-Dic-2001 ## Descripción: ## Este archivo contiene la lista de palabras masculinas que son excepciones al paradigma ## propuesto para identificar el género común tales como: cliente, accidente, etc. ## ######################################################################### ## SUFIJO -ente masculinos ######################################################################### cliente accidente ######################################################################## ## Centro de Investigación en Computación - IPN ## Autor : Sabino Miranda ## Archivo: HUADJ.txt ## Creado : 10-Dic-2001 ## Descripción: ## Este archivo contiene los adjetivos demostrativos, posesivos, etc. ## ########################################################################## mío mía tuyo tuya suyo suya

nuestro nuestra vuestro vuestra este esta

ese esa aquel aquella

Page 229: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

xi

Glosario de términos Artículo del diccionario Conjunto de palabras (una palabra clave y múltiples palabras rela-

cionadas) que se encuentran en un archivo de texto.

Base primaria o archivo primario

Conjunto de artículos del diccionario en un archivo de texto.

Base secundaria o archivo secundario

Conjunto de artículos del diccionario formateados en un archivo de texto.

Caracterización morfológica

Proceso que obtiene los rasgos morfológicos y semánticos de los componentes de las colocaciones.

Clase de inclinación Conjunto de posibles desinencias de una palabra.

Colocación Combinación de dos palabras adyacentes, o a través de una palabra funcional, que aparecen en los textos con alta frecuencia.

Colocado Palabra que se combina con otra considerada como la palabra cla-ve.

Corpus Colección de piezas del leguaje que son seleccionadas y ordenadas de acuerdo a criterios explícitos lingüísticos para utilizarse como muestras del lenguaje.

DEC Diccionario Explicativo Combinatorio.

Formateo Proceso que transforma un archivo de entrada con colocaciones a una estructura secundaria con las posiciones morfológicas y se-mánticas correspondientes de cada componente de la colocación.

MTT Meaning ⇔ Text Theory (Teoría Significado ⇔ Texto).

MB Unidad de medida (Mega Bytes).

Palabra base Véase palabra clave.

Palabra clave Palabra considerada como el encabezado del artículo del dicciona-rio.

Palabra relacionada Véase colocado.

RAM Memoria de acceso aleatorio.

Page 230: T E S I S - repositoriodigital.ipn.mx 9151... · INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN Laboratorio de Lenguaje

xii

Tesauro Diccionario muy grande jerarquizado.

Usuario Persona que opera el sistema.

WordNet Base de datos muy grande con relaciones semánticas entre pala-bras.

Utilería Programa que realiza un tarea específica.