Upload
elizaveta-rumyantseva
View
67
Download
9
Embed Size (px)
DESCRIPTION
Aproximacion a la linguistica computacional
Citation preview
Departamento de Filologa Hispnica y Clsica
APROXIMACIN A LA
LINGSTICA COMPUTACIONAL
Milka Villayandre Llamazares
Len, 2010
www.revistacontextos.es
Milka Villayandre Llamazares
www.revistacontextos.es
Milka Villayandre Llamazares
Tesis doctoral dirigida por los doctores D. Salvador Gutirrez
Ordez y D. Manuel Iglesias Bango, y defendida en la Universidad de
Len el 13 de julio de 2010 ante el tribunal constituido por los doctores:
D. Guillermo Rojo Snchez (presidente)
D. Marina Maquieira Rodrguez (secretaria)
D. Emilio Prieto de los Mozo (vocal 1)
D. Jos Ramn Morala Rodrguez (vocal 2)
D. Mercedes Snchez Snchez (vocal 3)
Milka Villayandre Llamazares
www.revistacontextos.es
Milka Villayandre Llamazares
www.revistacontextos.es
Milka Villayandre Llamazares
NDICE DE CONTENIDOS
Pg.
0. Introduccin 7
1. Qu es la Lingstica Computacional (LC) 15
1.1. El estatus de la LC en el conjunto de las ciencias 17
1.1.1. La LC como parte de la Lingstica 22
1.1.2. La LC como rama de la Informtica 24
1.1.3. La LC entre la Lingstica y la
Informtica
27
1.1.4. La LC en conexin con otras ciencias 29
1.2. Los objetivos de la LC: LC terica y LC aplicada 34
1.3. Lingstica Computacional y Lingstica: el
carcter aplicado
39
1.3.1. Orientacin prctica 45
1.3.2. Base terica 47
1.3.3. Interdisciplinariedad 49
1. 4. Principales lneas de investigacin 52
1.4.1. Procesamiento del Lenguaje Natural
(PLN)
55
1.4.2. Inteligencia Artificial (IA) 61
1.4.3. Lingstica Informtica (LI) 70
www.revistacontextos.es
Milka Villayandre Llamazares
1.4.4. Industrias de la lengua, ingeniera
lingstica y tecnologas del lenguaje
(humano) o de la lengua
73
1.4.4.1. Industrias de la lengua 73
1.4.4.2. Ingeniera lingstica 75
1.4.4.3. Tecnologas del lenguaje 78
1.4.5. Otras lneas de investigacin 82
1.4.5.1. Las tecnologas del habla 82
1.4.5.2. La lingstica de corpus 83
1.5. Evolucin histrica 85
1.5.1. Los orgenes 85
1.5.2. Primera etapa: aos cuarenta y
cincuenta
100
1.5.3. Segunda etapa: aos sesenta 105
1.5.4. Tercera etapa: aos setenta 111
1.5.5. Cuarta etapa: aos ochenta 121
1.5.6. Quinta etapa: aos noventa 124
2. reas de trabajo de la LC 127
2.1. reas de la LC 129
2.2. Morfologa computacional 140
2.2.1. Las tareas de la morfologa
computacional
147
2.2.2. Estrategias en morfologa
computacional
164
www.revistacontextos.es
Milka Villayandre Llamazares
2.3. Sintaxis computacional 184
2.3.1. Gramticas formales y sus tipos 199
2.3.2. Analizadores 217
2.4. Semntica computacional 234
2.4.1. Los formalismos para la representacin
del significado
241
2.4.2. El tratamiento del lxico 252
2.4.3. El factor discursivo 279
2.5. Aplicaciones de la LC 282
2.5.1. Aplicaciones basada en el tratamiento
de informacin textual
284
2.5.2. Las tecnologas del habla 285
2.5.3. Aplicaciones basadas en el dilogo 287
2.5.4. Otras aplicaciones 288
2.5.5. Recursos lingsticos 289
3. Los corpus 291
3.1. Hitos en la lingstica de corpus 295
3.1.1. Precedentes en el uso de corpus 295
3.1.2. Primera lingstica de corpus 296
3.1.3. Crticas a la primera lingstica de corpus 298
3.1.3.1. Crticas tericas (Chomsky) 299
3.1.3.2. Crticas prcticas (Abercrombie) 301
3.1.4. Segunda generacin de lingstica de corpus 302
www.revistacontextos.es
Milka Villayandre Llamazares
3.1.5. Revisin de las crticas de Chomsky y
Abercrombie
308
3.1.6. Renacer actual de la lingstica de corpus 310
3.2. Ventajas e inconvenientes del trabajo con corpus 319
3.3. El concepto de corpus 322
3.4. Clasificacin de los corpus 349
3.5. El desarrollo de un corpus (I): diseo y constitucin 364
3.5.1. Criterios internos o lingsticos 364
3.5.2. Criterios externos o situacionales 366
3.5.3. Otras cuestiones de diseo 369
3.5.4. Representatividad del corpus y muestreo 375
3.6. El desarrollo de un corpus (II): codificacin y
anotacin
380
3.6.1. Codificacin: estndares 381
3.6.2. Anotacin: tipos 389
4. Conclusiones 413
5. Anexos 421
5.1. Anexo I: Lingstica computacional 425
5.1.1. Asignaturas 425
5.1.2. Estructura del curso 427
5.1.3. Contenidos tericos 442
5.1.4. Actividades 444
5.1.5. Evaluacin del curso 477
www.revistacontextos.es
Milka Villayandre Llamazares
5.2. Anexo II: Lingstica de corpus 478
5.2.1. Presentacin 478
5.2.2. Esquema del tema 480
5.2.3. Prcticas y actividades 481
6. Bibliografa 491
6.1. Referencias bibliogrficas 493
6.2. Otra bibliografa consultada 513
www.revistacontextos.es
Milka Villayandre Llamazares
No puedo combinar unos caracteres
dhcmrlchtdj
que la divina Biblioteca no haya previsto y que en alguna de sus
lenguas secretas no encierren un terrible sentido. Nadie puede articular
una slaba que no est llena de ternuras y de temores; que no sea en
alguno de esos lenguajes el nombre poderoso de un dios. Hablar es
incurrir en tautologas. Esta epstola intil y palabrera ya existe en uno
de los treinta volmenes de los cinco anaqueles de uno de los
incontables hexgonosy tambin su refutacin. (Un nmero n de
lenguajes posibles usa el mismo vocabulario; en algunos, el smbolo
biblioteca admite la correcta definicin ubicuo y perdurable sistema de
galeras hexagonales, pero biblioteca es pan o pirmide o cualquier otra
cosa, y las siete palabras que la definen tienen otro valor. T, que me
lees, ests seguro de entender mi lenguaje?).
(Jorge Luis Borges, La biblioteca de Babel)
www.revistacontextos.es
Milka Villayandre Llamazares
0. INTRODUCCIN
www.revistacontextos.es
Milka Villayandre Llamazares
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 9
0. INTRODUCCIN
Esta tesis surge con el objetivo de intentar dar respuesta a preguntas
bsicas planteadas a raz de una primera toma de contacto con el campo
de la Lingstica Computacional (en adelante LC):
1) Qu implica tratar el lenguaje con ordenadores?
2) Cul es su finalidad?
3) Qu requisitos previos exige?
4) Cmo se lleva a cabo tal tarea?
5) Por qu surgi este acercamiento al tratamiento del lenguaje?
Caben dos perspectivas de aproximacin al objeto de estudio: la
lingstica y la informtica. Como no poda ser de otra forma, el
acercamiento que realizamos a esta disciplina parte de nuestra
formacin lingstica, aunque, no obstante, se harn referencias a la
perspectiva de la Informtica cuando as lo requiera el tema.
Por otra parte, nos interesa sobre todo su estatus en Espaa, pero sin
dejar de lado los referentes internacionales que han sentado las bases
tericas sobre las que se sustenta la LC, porque, como bien dice G. Rojo
en el prlogo a un libro de reciente aparicin, las publicaciones sobre
LC an son escasas en nuestro pas: No disponemos todava de
bibliografa suficiente en espaol sobre temas de Lingstica
Informtica y Computacional, sobre Traduccin Automtica o
Generacin del Lenguaje (Lavid 2005:23).
Precisamente, esa fue la situacin que me encontr hace ya algunos
aos cuando por primera vez me acerqu a este campo de
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 10
investigacin, en torno a 1996. El material disponible era muy escaso,
pero en un par de aos, entre 1998 y 2000 aparecieron en el mercado
varios manuales. Poco antes, a principios de los 90, se haba creado un
programa de Tecnologa Lingstica en el rea de Industrias de la
Lengua de la Sociedad Estatal Quinto Centenario, se editan recursos
lingsticos como el Archivo Digital de Manuscritos y Textos Espaoles
(ADMYTE), asistimos a las primeras etapas de los corpus acadmicos,
CREA y CORDE, o la puesta en marcha del Seminario de Industrias de
la Lengua de la Fundacin Duques de Soria (vid. Llisterri y Almiana
1998), por mencionar algunas de las iniciativas ms destacadas.
No es de extraar que este campo suscitara el inters de algunos
investigadores, al conjugar dos ingredientes tan atractivos como el
lenguaje y una herramienta relativamente nueva, los ordenadores.
Como dice M. Bates (1994:239), el lenguaje es tan importante en
nuestras vidas que su uso fluido es casi sinnimo de inteligencia1.
El lenguaje ha sido el centro de atencin de diversas disciplinas
cientficas: filosofa, lgica, psicologa, biologa, antropologa y, por
supuesto, lingstica. Cada una ha aportado sus mtodos y teoras para
su descripcin. Desde el momento en que se utiliza el ordenador para el
estudio de una conducta en general y el lenguaje en particular, se puede
hablar de un nuevo paradigma de investigacin (Winograd 1972:ix):
This book is part of a newly developing paradigm for looking at human
behaviour, which has grown up from working with computers. When faced
with highly complex and organised behaviour like language, we ask 'What
kind of process could be going on to produce that behaviour?' Computers and
computer language give us a formal metaphor, within which we can model the
processes and test the implications of our theories.
1 Language is so fundamental to humans, and so ubiquituous, that fluent use of it is often considered almost synonymous with intelligence.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 11
Our models are of necessity incomplete. It is not yet clear what connections they
have with the processes going on in the human mind. Yet they give us a clear
framework for thinking about what it is we do when we understand and
respond to natural language.
En este nuevo paradigma los ordenadores proporcionan una
metfora formal para modelar y probar las teoras que tratan de dar
cuenta del funcionamiento del lenguaje, de cmo somos capaces de
entender, qu procesos subyacen a la conducta lingstica. Como afirma
T. Winograd (vid. supra), esos modelos formales para describir el
funcionamiento del lenguaje no tienen por qu reproducir exactamente
el funcionamiento de la mente humana. Basta con que nos faciliten una
plataforma para acercarnos a la comprensin de un fenmeno tan
complejo a la vez que tan cotidiano como es el lenguaje.
Lgicamente, la tarea entraa no pocas dificultades, debido a la
complejidad inherente a las propias lenguas naturales, tal y como lo
expresan Edwards y Kingscott (1997:16-18), cuando dicen que dominar
el lenguaje natural es una de las tareas ms difciles que se le puede
pedir a un ordenador; jugar al ajedrez como un gran maestro resulta, en
comparacin, relativamente simple. El lenguaje humano es con
frecuencia alusivo y ambiguo. Alusivo, porque las palabras pueden
incorporar referencias a mltiples niveles. Las personas, al leer o
escuchar, nos hemos acostumbrado a detectar indicios y pistas. Pero los
ordenadores no tienen ese sexto sentido. La ambigedad es, quizs, un
problema aun mayor. Muchas frases, hasta el 40% en ciertos tipos de
textos, pueden resultar ambiguas para un ordenador, incluso aunque
tengan sentido para un traductor humano, porque este tiene su
conocimiento extratextual.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 12
Esta dificultad inherente al lenguaje se convierte en un obstculo
cuando intentamos definir un campo de estudio en el que este juega un
papel central. En palabras de H. Cunningham: Attempting to define
something as dynamic and multi-faceted as a research field concerned
with human language is a difficult task; given ten researchers there will
likely be ten definitions, all using similar terminology (1999:1).
Este problema se complica cuando entran en juego dos o ms
lenguas, cuanto ms alejadas, ms acentuadas las diferencias y por
tanto las formas de mirar el mundo; cuando hay que conocer los puntos
de vista, los conocimientos, las tcnicas y estrategias que desde otras
disciplinas se han propuesto, ya que la lengua no solo ha sido objeto
de inters para los lingistas, junto a ellos estn los filsofos,
psicolingistas e ingenieros (Moreno et al. 1999:1); cuando desde la
propia ciencia del lenguaje no existe acuerdo sobre unidades de trabajo,
teoras explicativas de los fenmenos lingsticos; o, simplemente,
cuando nuestras limitaciones humanas no nos permiten llegar a
comprender en ltima instancia cmo funciona nuestro cerebro y, por
tanto, cmo se procesa el lenguaje cuando hablamos, cuando
escuchamos, cuando escribimos o leemos.
No obstante, pese a las dificultades y desconocimiento de los que
partamos, nos pareci atractivo por lo menos esbozar una pequea y
modesta aproximacin a lo que poda dar de s este nuevo campo de
trabajo, intentar estructurar, en la medida de nuestras posibilidades y
disponibilidad de tiempo, los contenidos surgidos de las
investigaciones en forma de dos cursos2 y, finalmente, compartir a
2 Distribuidos en las asignaturas de la licenciatura de Lingstica Lingstica
Computacional y Lingstica Computacional II impartidas en la Universidad de Len.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 13
travs de Internet3 esas conclusiones parciales a las que pudiramos
llegar, por si resultaran de inters para alguien ms4.
Si se han logrado o no las metas propuestas, no me corresponde a m
juzgarlo, aunque en el apartado final de Conclusiones expondr las
ventajas e inconvenientes encontrados durante el desarrollo del
presente proyecto, apoyndome en la propia experiencia y en las
aportaciones, sugerencias y comentarios de los diferentes usuarios.
3 URL: http://www3.unileon.es/dp/dfh/Milka/Milka.htm, en concreto:
http://www3.unileon.es/dp/dfh/Milka/LC.htm y http://www3.unileon.es/dp/dfh/Milka/LCII.htm
4 Se incluyen como anexos algunos de los materiales utilizados, a modo de ejemplo.
www.revistacontextos.es
Milka Villayandre Llamazares
www.revistacontextos.es
Milka Villayandre Llamazares
1. QU ES LA LINGSTICA COMPUTACIONAL
www.revistacontextos.es
Milka Villayandre Llamazares
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 17
1. QU ES LA LINGSTICA COMPUTACIONAL
De acuerdo con las consideraciones previas y con vistas a la meta que
nos proponemos, parece de rigor, cuando nos acercamos a un campo
que desconocemos, saber en qu consiste el mismo, qu rasgos lo
caracterizan, cul es su objeto de estudio, qu objetivos se plantea
alcanzar y qu mtodos de trabajo emplea para lograrlo. Una ciencia no
es tal si no delimita previamente estas cuestiones y otras conexas5.
La respuesta a estas preguntas nos permitir efectuar una primera
aproximacin al concepto de Lingstica Computacional y a otros
relacionados con el fin de intentar una acotacin inicial de la materia
que nos ocupa.
El punto de partida para llevar a cabo esta toma de contacto lo
constituye una serie de definiciones del trmino lingstica
computacional extradas de diccionarios generales y especializados,
manuales, artculos sobre el tema, etc. De su consulta hemos colegido
algunas reflexiones sobre la LC que pasamos a comentar a
continuacin.
5 Vid. MOURE (2002), quien destaca, entre los rasgos que deben estar presentes en
toda investigacin que aspire a ser considerada ciencia, los siguientes (ibid.:15): Contar con el aval de una tradicin de estudios e investigadores. Delimitar un objeto real que sea descriptible mediante una serie de leyes. Adecuar las ideas a los hechos, es decir, ser verdad. Buscar conocimiento, ser crtica. Emplear un mtodo que trabaje con hiptesis y datos cuya verificacin o
falsacin permita el progreso. Tener como objetivo la sistematizacin de los conocimientos y la formulacin
de leyes, no la obtencin de productos.
A lo largo de nuestro trabajo y, en especial, en el apartado dedicado a las conclusiones, veremos en qu medida la LC cumple estos requisitos y puede, por tanto, ser calificada como ciencia o, por el contrario, no los satisface y es ms apropiado, en consecuencia, otorgarle el estatus de tecnologa.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 18
1.1. El estatus de la LC en el conjunto de las ciencias
Lo primero que observamos es que no existe unanimidad a la hora de
ubicar la LC en el conjunto de las ciencias. As, junto a definiciones que
la sitan claramente en el terreno de la Lingstica en general6 y de la
Lingstica Terica7 o de la Lingstica Aplicada8 en particular, otras se
decantan por el de la Informtica, en especial por el de una de sus
subdisciplinas, la Inteligencia Artificial9, o por otra de sus reas, el
6 As lo hace, p. ej., D. CRYSTAL en su Diccionario de lingstica y fontica (2000
[1980]:345):
Lingstica computacional: Rama de la lingstica en la que se emplean tcnicas y conceptos computacionales para la elucidacin de problemas lingsticos y fonticos. Se han desarrollado varias reas de investigacin entre las que se incluyen el procesamiento del lenguaje natural, la sntesis del habla, el reconocimiento del habla, la traduccin automtica, la creacin de concordancias, la evaluacin de las gramticas y muchas otras reas en las que se requieren clculos y anlisis estadsticos (p. ej. en los estudios de textos literarios).
7 J. GMEZ GUINOVART (1998:135), en uno de los varios trabajos que ha dedicado a
la delimitacin de la LC, Fundamentos de Lingstica Computacional: bases tericas, lneas de investigacin y aplicaciones, estima que desde el punto de vista de su vinculacin a la lingstica, la lingstica computacional puede ser considerada una subdisciplina de la lingstica terica, en tanto que uno de sus objetivos es la elaboracin de modelos formales (e implementables informticamente) del lenguaje humano.
8 Es la postura que encontramos en el Encyclopedic Dictionary of Applied Linguistics de K. JOHNSON y H. JOHNSON (1998:81-82):
Computational linguistics can be seen as a branch of applied linguistics, dealing with computer processing of human language. Automatic translation between natural languages, text processing and communication between people and computers are among its central concerns. Speech recognition and understanding and speech synthesis allow people to communicate with computers using spoken language. Computational grammars with top-down and bottom-up processing capabilities have been developed in this connection. Computer-assisted language learning programmes are among numerous applications of the new technology. Computerized corpora of written and spoken texts facilitate research on usage using concordances.
9 Es el caso de P.-K. HALVORSEN (1991 [1988]:252) en el apartado dedicado a Las
aplicaciones informticas de la teora lingstica en el vol. II del Panorama de la Lingstica Moderna de la Universidad de Cambridge, compilado por F. J. NEWMEYER:
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 19
Procesamiento del Lenguaje Natural10; sin faltar aquellas que optan por
el espacio conformado por la interseccin de las anteriores11, es decir,
La lingstica computacional est considerada como una rama de la inteligencia artificial (IA). Como todos los campos dentro de la IA, se ocupa de la investigacin y sistematizacin de una capacidad cognitiva. En el caso de la lingstica computacional, el objetivo central es la capacidad lingstica. Sin embargo, su preocupacin no es necesariamente construir un modelo psicolgicamente realista del comportamiento lingstico humano. Su objetivo es identificar y caracterizar las clases de procesos y los tipos de conocimiento que estn implicados en la habilidad de comunicar y asimilar informacin por medio del lenguaje natural, sin tomar en consideracin su status psicolgico. Una de las contribuciones de la lingstica computacional consiste en un conjunto de tcnicas que capacitan al conocimiento lingstico para guiar y constreir el procesamiento lingstico realizado por un sistema de procesamiento del lenguaje natural.
O tambin de J. VIDAL y J. BUSQUETS (1996:393-394) en el captulo dedicado a la Lingstica computacional dentro del manual Elementos de lingstica editado por C. MARTN VIDE:
La LC es una rama de la inteligencia artificial (en adelante IA). Si bien las opiniones entre los especialistas divergen, se asume que el principal objetivo de la LC es la investigacin y sistematizacin de la capacidad lingstica entendida como una capacidad cognitiva fundamental. Sucintamente, la LC se orienta hacia el estudio del conocimiento lingstico obtenido a partir de la aplicacin de un conjunto de formalismos y tcnicas de representacin. Con ello se pretende el procesamiento del LN [lenguaje natural] mediante un ordenador. [] No se trata de elaborar modelos que posean realidad psicolgica, sino ms bien de construir modelos que simulen los tipos de conocimiento y los procesos que intervienen en la habilidad de transmitir e interpretar informacin a travs del LN. En otras palabras, simular un conocimiento inteligente. Desde este punto de vista, se atribuye una cierta racionalidad a la computadora, aunque es, por supuesto, estrecha y artificial.
J. GMEZ GUINOVART (1998:135), por su parte, en el mismo artculo mencionado con anterioridad (vid. supra), considera que desde el punto de vista de su vinculacin a la informtica, y tambin por motivos histricos, la lingstica computacional suele ser considerada como una subdisciplina de la inteligencia artificial.
En este sentido, la propia REAL ACADEMIA ESPAOLA (DRAE-01), en un artculo recientemente modificado y como avance de la 23 edicin de su diccionario, ha incluido el trmino lingstica computacional dentro de la entrada lingstica y, a la hora de definirlo, parece inclinarse por su vinculacin a la Informtica y la Inteligencia Artificial: 1. f. Inform. Aplicacin de los mtodos de la inteligencia artificial al tratamiento de cuestiones lingsticas.
10 Es el caso de la definicin que proporciona W. ARMS (2000 [1999] en su libro Digital Libraries: Computational linguistics: The branch of natural language processing that deals with grammar and linguistics.
11 As la define J. KLAVANS (1997:665) en el captulo dedicado a la LC en el manual de Lingstica editado por W. OGRADY, M. DOBROVOLSKY y F. KATAMBA: Computational linguistics is a relatively new discipline that lies in the intersection of the fields of linguistics and computer science. It is but one of many new hybrid
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 20
de la Lingstica y de la Informtica, o por un mbito interdisciplinario
o multidisciplinar, en conexin con diversos campos cientficos, sobre
todo con la Ciencia Cognitiva12, de la que algunos autores, desde esta
perspectiva ms general, la hacen depender en ltima instancia.
disciplines involving computers that require computational expertise as well as a background in another field.
12 Es lo que hacen M A. MART e I. CASTELLN (2000) en la Introduccin a su manual Lingstica Computacional:
La Lingstica Computacional s una rea de coneixement interdisciplinari on conflueixen la Lingstica Terica i Aplicada, la Informtica, la Intelligncia Artificial i la Cincia Cognitiva. Encara que amb aquest terme es fa referncia sovint a tota mena de processos informtics que sapliquen sobre dades lingstiques, lobjectiu ltim de la Lingstica Computacional s la modelitzaci del comportament lingstic del parlant i de loient, s a dir la construcci de programes informtics que simulin els processos que tenen lloc en els individus quan ens comuniquem.
O ms adelante (MART y CASTELLN ibid.:1), cuando dicen: La Lingstica Computacional (a partir dara LC) s una nova disciplina que ha sorgit de la collaboraci entre la Lingstica, la Informtica i altres rees de coneixement com la Intelligncia Artificial (des dara IA) i la Cincia Cognitiva.
Las definiciones que encontramos en la enciclopedia de contenido libre WIKIPEDIA inciden en el carcter inter y multidisciplinar de la LC:
La lingstica computacional es un campo multidisciplinar de la lingstica y la informtica que utiliza la informtica para estudiar y tratar el lenguaje humano. Para lograrlo, intenta modelar de forma lgica el lenguaje natural desde un punto de vista computacional. Dicho modelado no se centra en ninguna de las reas de la lingstica en particular, sino que es un campo interdisciplinar, en el que participan lingistas, informticos especializados en inteligencia artificial, psiclogos cognoscitivos y expertos en lgica, entre otros [URL: http://es.wikipedia.org/wiki/Portada]. Computational linguistics is an interdisciplinary field dealing with the statistical and/or rule-based modeling of natural language from a computational perspective. This modeling is not limited to any particular field of linguistics. Traditionally, computational linguistics was usually performed by computer scientists who had specialized in the application of computers to the processing of a natural language. Recent research has shown that human language is much more complex than previously thought, so computational linguists often work as members of interdisciplinary teams, including linguists (specifically trained in linguistics), language experts (persons with some level of ability in the languages relevant to a given project), and computer scientists. Computational linguistics draws upon the involvement of linguists, computer scientists, experts in artificial intelligence, cognitive psychologists, mathematicians, and logicians, amongst others [URL: http://en.wikipedia.org/wiki/Computational_linguistics].
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 21
Como se puede inferir de las definiciones que hasta ahora hemos
enumerado, no es descabellado concluir que la LC, en su afn por
comprender el lenguaje y simularlo en una computadora objetivo ms
ambicioso al que aspira, ana los intereses de la Lingstica y de la
Informtica. Es decir, necesita los conocimientos que ambas le
suministran, pero no solo estos. Si bien estas dos disciplinas son los
pilares sobre los que se sustenta, es importante destacar el hecho de que
la LC se mueve en un marco interdisciplinar, por lo que tambin acude
a la Psicologa, las Matemticas, la Lgica, la Ciencia Cognitiva, etc. en
H. USZKOREIT (1996, 2000), en un texto introductorio, sita la LC en un espacio
intermedio entre la Lingstica y la Informtica, aunque destacando sus conexiones con la Ciencia Cognitiva y la Inteligencia Artificial:
Computational linguistics (CL) is a discipline between linguistics and computer science which is concerned with the computational aspects of the human language faculty. It belongs to the cognitive sciences and overlaps with the field of artificial intelligence (AI), a branch of computer science aiming at computational models of human cognition. Computational linguistics has applied and theoretical components.
J. GMEZ GUINOVART tambin insiste en varias ocasiones en el artculo ya referido
(vid. supra) y en el captulo sobre Lingstica computacional del Manual de Ciencias da Linguaxe editado por F. RAMALLO, G. REI-DOVAL y X. P. RODRGUEZ YEZ en la interdisciplinariedad como rasgo caracterstico de la LC:
La lingstica computacional (o lingstica informtica) es un campo cientfico interdisciplinar relativamente reciente cerca de cincuenta aos de investigacin y desarrollo cuyo objetivo radica en incorporar en los ordenadores la habilidad en el manejo del lenguaje humano (GMEZ GUINOVART 1998:135).
A lingstica computacional constite un eido cientfico interdisciplinario vinculado lingstica e informtica, e encamiado a incorporar nos ordenadores a habilidade no manexo da linguaxe natural humana e a facilita-lo tratamento informatizado das linguas e do seu estudio (GMEZ GUINOVART 2000a:1).
J. LAVID (2005:73), en su libro Lenguaje y nuevas tecnologas, se expresa en trminos
parecidos: La Lingstica Computacional es un rea interdisciplinaria entre la Lingstica y la Informtica que se ocupa de la construccin de sistemas informticos capaces de procesar el lenguaje humano. Y, ms adelante (ibid.:76):
[] la Lingstica Computacional es un rea interdisciplinaria que se crea y desarrolla gracias a las contribuciones de diferentes disciplinas. En este sentido, la LC forma parte de las Ciencias Cognitivas y se solapa en sus objetivos con los del campo de la Inteligencia Artificial (IA), una rama de la Informtica cuyo objetivo es la simulacin de modelos computacionales de la cognicin humana.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 22
busca de soluciones alternativas. Sin embargo, existen matices que la
diferencian de todas ellas y que, por lo tanto, justifican su estatus
independiente como saber cientfico.
De forma esquemtica, podramos resumir de la siguiente manera las
distintas posturas evidenciadas en las definiciones que hemos tomado
como punto de partida:
1.1.1. La LC como parte de la Lingstica
Desde el momento en que el lenguaje13 aparece implicado de una o de
otra manera en el quehacer de la LC, la vinculacin de esta con la
Lingstica es incuestionable. Ambas disciplinas se ocupan de
investigar los mecanismos que posibilitan la comunicacin entre las
personas por medio del lenguaje, aunque en el caso de la LC con la
ayuda que le proporcionan los ordenadores, que es su rasgo
caracterstico14. Resulta evidente, as pues, que el lenguaje, como
capacidad general del ser humano, y las lenguas naturales, como
producto de dicha capacidad, son el objeto de estudio de la LC. Por lo
tanto, comparte con la Lingstica el inters por descubrir y describir
13 En forma de elucidacin de problemas lingsticos y fonticos (vid. supra CRYSTAL 2000 [1980]), elaboracin de modelos formales del lenguaje humano (vid. supra GMEZ GUINOVART 1998), computer processing of human language (vid. supra JOHNSON Y JOHNSON 1998), procesos y los tipos de conocimiento que estn implicados en la habilidad de comunicar y asimilar informacin por medio del lenguaje natural (vid. supra HALVORSEN 1991 [1988]), investigacin y sistematizacin de la capacidad lingstica entendida como una capacidad cognitiva fundamental (vid. supra VIDAL Y BUSQUETS 1996), aplicacin de los mtodos de la inteligencia artificial al tratamiento de cuestiones lingsticas (vid. supra RAE 2001), modelitzaci del comportament lingstic del parlant i de loient (vid. supra MART Y CASTELLN 2000), modeling of natural language from a computational perspective (vid. supra WIKIPEDIA), construccin de sistemas informticos capaces de procesar el lenguaje humano (vid. supra LAVID 2005), etc.
14 El simple hecho de emplear medios informticos en la investigacin lingstica no convierte esta en LC, como veremos ms adelante (vid. 1.4. Principales lneas de investigacin), pero de momento basta para establecer la distincin entre Lingstica y LC.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 23
cmo funciona el lenguaje, cmo podemos comunicarnos las personas a
travs de l, qu elementos y procesos intervienen cuando actuamos
como emisores y cules cuando lo hacemos como receptores... Y difiere
de la Lingstica, entre otros aspectos, en las herramientas que emplea
para llevar a cabo sus investigaciones.
Ilustracin 1. La LC como parte de la Lingstica.
Ahora bien, la vinculacin puede establecerse, adems de con la
Lingstica directamente, en tanto que ciencia del lenguaje, a travs de
la Lingstica Terica o de la Lingstica Aplicada. En el primero de los
casos, se pone el nfasis en la vertiente ms cientfica de la LC,
aquella que tiene como objetivo elaborar modelos formales sobre el
lenguaje o probar y evaluar las teoras que le suministra la Lingstica
Terica o que ella misma disea, sin importar de forma inmediata las
repercusiones prcticas que se puedan derivar. En el segundo caso, el
peso recae sobre la orientacin ms tecnolgica de la LC, aquella cuya
finalidad es, sin menospreciar la fundamentacin terica, desarrollar
aplicaciones concretas en las que el lenguaje humano desempee un
papel central y que tengan trascendencia en la sociedad, tales como la
traduccin automtica, el procesamiento de informacin textual, la
comunicacin entre personas y ordenadores, la sntesis y el
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 24
reconocimiento del habla, el aprendizaje/enseanza de lenguas asistido
por ordenador, etc., entre las ms destacadas.
Ilustracin 2. La LC como rama de la LT y de la LA.
1.1.2. La LC como rama de la Informtica
Si el lenguaje es el vnculo de la LC con la Lingstica, el empleo de los
ordenadores como herramienta fundamental de trabajo conecta la LC
con la Informtica. No se trata solo de estudiar el lenguaje y las lenguas,
sino de hacerlo con la ayuda que suponen hoy en da los ordenadores15.
Adems, hay que tener en cuenta que la LC, en su empeo por dominar
el lenguaje, no se limita a la mera indagacin labor que por s sola no
la diferenciara de la Lingstica, sino que comprende una meta ms
15 USZKOREIT (1996, 2000), ms que de ayuda, habla de necesidad. En su opinin, la
complejidad que estn alcanzando en la actualidad los formalismos gramaticales exige el recurso a programas informticos para poder manipularlos adecuadamente:
Theoretical CL takes up issues in theoretical linguistics and cognitive science. It deals with formal theories about the linguistic knowledge that a human needs for generating and understanding language. Today these theories have reached a degree of complexity that can only be managed by employing computers. Computational linguists develop formal models simulating aspects of the human language faculty and implement them as computer programmes. These programmes constitute the basis for the evaluation and further development of the theories.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 25
ambiciosa: reproducir una capacidad cognitiva, la lingstica en este
caso, en programas informticos, con algn fin prctico.
Ilustracin 3. La LC como parte de la Informtica.
Para alcanzar esta pretensin tambin le resultan imprescindibles las
aportaciones de la Informtica, en especial de una de sus subdisciplinas,
la Inteligencia Artificial (en adelante IA), que precisamente estudia
todas las conductas inteligentes del ser humano, entre las que ocupa un
lugar destacado el lenguaje. De esta forma, tanto la Informtica como la
IA proporcionan a la LC tcnicas, estrategias, formalismos de
representacin y otras herramientas que puedan contribuir, desde una
orientacin eminentemente aplicada, a ese objetivo de lograr
ordenadores capaces de hablar.
Ilustracin 4. La LC como rama de la IA.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 26
Desde la perspectiva de la Informtica y de forma paralela a como
sucede en el caso de la Lingstica, hay que destacar tambin que no es
extrao hacer depender la LC, no directamente de la Inteligencia
Artificial, sino de la parte de la IA que se ocupa especficamente del
lenguaje humano, el Procesamiento del Lenguaje Natural (en adelante
PLN), subdisciplina que se caracteriza en general por presentar una
orientacin prctica y por estar centrada en el tratamiento de la lengua
escrita.
Adems, como comentaremos ms adelante, en muchos casos la LC
se llega a identificar con el PLN, hasta el punto de que ambos trminos
se toman como sinnimos, ya que, por lo dems, sus intereses coinciden
plenamente: el primero, ms habitual en el mbito de la Lingstica y el
segundo, en el de la Informtica. Asimismo, la posicin de la LC
respecto a la Inteligencia Artificial puede interpretarse tambin como
un solapamiento o coincidencia de objetivos, ms que como una
dependencia16.
16 Vid. supra definiciones de USZKOREIT (1996, 2000) y LAVID (2005).
Ilustracin 5. La LC como PLN. Ilustracin 5. La LC como PLN.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 27
Ilustracin 6. La relacin de la LC con el PLN y la IA.
1.1.3. La LC entre la Lingstica y la Informtica
Como se desprende de lo dicho hasta aqu, ni la Lingstica ni la
Informtica por s solas permiten definir la LC, sino que es la suma de
las aportaciones de ambas la que ha propiciado el surgir de este nuevo
mbito del saber. Adems, no se puede pasar por alto que esta
oscilacin entre Lingstica e Informtica se manifiesta ya en la propia
denominacin del campo, dado que tanto el lenguaje (Lingstica)
como los ordenadores (Computacional) estn implicados en l, por lo
que su interseccin parece conformar el mbito especfico de trabajo de
la LC.
As pues, Lingstica e Informtica se suman e integran en un
enfoque mixto que sirve como punto de partida a la LC en su
pretensin de emular en un programa informtico la capacidad
lingstica humana en su totalidad en tanto que capacidad cognitiva
Procesamiento del Lenguaje
Natural
Lingstica Computacional
Inteligencia Artificial
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 28
bsica17. En aras de lograr esta meta, la LC centra gran parte de sus
esfuerzos en la elaboracin de formalismos o modelos formales, en lo
que sera un acercamiento bsicamente terico y, por tanto, lingstico.
Pero no basta con disponer de descripciones del lenguaje en sus
diferentes niveles (fonolgico, morfolgico, sintctico, etc.), sino que
estas, adems, han de ajustarse a los requisitos que imponen las
herramientas de trabajo que emplea la LC, los ordenadores, ya que de
otra manera dichas descripciones no podran ser implementadas en un
programa informtico, de ah la necesidad de que la descripcin
lingstica sea formal, es decir, est formulada mediante reglas claras,
precisas y despojadas de toda ambigedad, de manera similar a como
sucede en Matemticas o en Lgica.
Por otra parte, la LC, a la hora de abordar su objeto de estudio, no
siempre lo hace desde una perspectiva terica o cientfica, sino que
tambin est interesada en buscar la aplicacin de esos conocimientos al
logro de productos finales que tengan una finalidad prctica concreta,
lo que entronca con las motivaciones de la Informtica y la Inteligencia
Artificial en torno al lenguaje. No obstante, ambas partes, teora y
prctica, Lingstica e Informtica, son necesarias por igual en el
camino hacia el objetivo ltimo que comparten lingistas e informticos
a propsito del lenguaje, que no es otro que comprender su
funcionamiento, aunque en el caso concreto de la LC, como paso previo
para desarrollar ordenadores capaces de utilizar el lenguaje igual que
las personas.
17 Aunque, a veces, este ambicioso objetivo se ve limitado a abordar aspectos
parciales del lenguaje p. ej., la morfologa en funcin de la aplicacin concreta que se quiera dar a las investigaciones (como incorporar un conjugador verbal en un diccionario en lnea), ya que en muchos casos las aplicaciones no requieren un tratamiento integral, sino solo considerar un fenmeno lingstico determinado (en el ejemplo, la conjugacin verbal).
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 29
Ilustracin 7. La LC entre la Lingstica y la Informtica.
En palabras de R. Hausser (2001:1):
The goal of computational linguistics is to reproduce the natural transmission
of information by modeling the speakers production and the hearers
interpretation on a suitable type of computer. This amounts to the
construction of autonomous cognitive machines (robots) which can
communicate freely in natural language.
1.1.4. La LC en conexin con otras ciencias
Por ltimo, para finalizar este apartado, nos queda por sealar que,
precisamente, este carcter hbrido que acabamos de comentar,
sumado a la complejidad inherente al lenguaje, que se concibe como
una parte fundamental del sistema cognitivo humano, es el que, para
algunos autores (cf. p. ej. Uszkoreit 1996, 2000), sita la LC en un marco
de confluencia ms amplio que el de la mera interseccin de Lingstica
e Informtica: el que le proporciona en la actualidad la Ciencia
Cognitiva18 que, tomando como punto de referencia el objetivo comn
18 O Ciencias Cognitivas, dada la multitud de disciplinas que abarca la etiqueta,
como podemos observar en la siguiente definicin tomada de WIKIPEDIA:
Lingstica
Informtica
LC
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 30
de estudiar la mente humana19, aglutina reas del saber tan diversas
como la Lingstica, la Psicologa, la Neurociencia, la Antropologa, la
Filosofa y la propia Inteligencia Artificial, entre otras.
Ilustracin 8. La LC en conexin con otras disciplinas.
Se denomina ciencia cognitiva al estudio cientfico de la mente humana. Su enfoque y su rea de investigacin es marcadamente multidisciplinar, fruto de la confluencia entre la lingstica, la psicologa cognitiva, la neurociencia, la filosofa (en particular la filosofa de la ciencia y la filosofa de la mente) y la inteligencia artificial, por todo lo cual a menudo se designa en plural como ciencias cognitivas.
19 As lo proclama la Cognitive Science Society en su presentacin:
The Cognitive Science Society, Inc. brings together researchers from many fields who hold a common goal: understanding the nature of the human mind. The Society promotes scientific interchange among researchers in disciplines comprising the field of Cognitive Science, including Artificial Intelligence, Linguistics, Anthropology, Psychology, Neuroscience, Philosophy, and Education.
[URL: http://cognitivesciencesociety.org/index.html] Por otro lado, como veremos ms adelante, Ciencia Cognitiva y LC comparten,
adems de intereses, unas mismas races.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 31
En concreto, el punto de unin fundamental entre LC y Ciencia
Cognitiva lo constituye la metfora del cerebro como un ordenador
capaz de manipular smbolos y de ejecutar complejos procesos basados
en el conocimiento almacenado en su interior20. De hecho, esta imagen
ha sido adoptada como uno de los axiomas centrales de la Ciencia
Cognitiva en su intento por caracterizar la inteligencia humana. Dada la
imposibilidad de acceder directamente a ella para su estudio emprico,
recurre a los ordenadores como herramienta de experimentacin que le
permite su modelado mediante el diseo de programas informticos y
bases de conocimiento a medida, segn las especificaciones de los
investigadores. De esta forma, la Ciencia Cognitiva pretende encontrar
una explicacin para los procesos responsables de toda conducta
inteligente y, en especial, la lingstica, lo que conlleva explorar y
entender los tipos de conocimiento que subyacen a dicha conducta as
como la forma en que estn organizados en la mente. Al estar
involucrado el cerebro, las aportaciones de la Neurociencia y de la
Psicologa resultan imprescindibles para comprender su
funcionamiento y estructura, pero tambin las de la Psicolingstica por
lo que concierne especficamente al lenguaje, o de disciplinas como la
Antropologa o la Filosofa, que aportan reflexiones generales de inters
sobre los debates ticos que tales cuestiones suscitan.
En este contexto, hay que destacar que el bagaje que la Lingstica
proporciona a la LC resulta insuficiente o inadecuado en muchos casos,
de ah la necesidad de acudir a los conceptos, mtodos, etc.
desarrollados en otros mbitos de trabajo que de una u otra manera
tocan el lenguaje en alguna de sus facetas. Entre ellos sobresale la
Inteligencia Artificial, rea en la que todo lo concerniente a la
organizacin del conocimiento es un tema central de investigacin, de
20 Cf. WINOGRAD (1983), en su obra Language as a Cognitive Process.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 32
ah las estrechas conexiones, o solapamientos21, que se establecen entre
ambas: a la Inteligencia Artificial le interesa la interaccin del
conocimiento propiamente lingstico con el conocimiento de
naturaleza ms general, compartido con otras tareas cognitivas.
Ilustracin 9. La LC como Ciencia Cognitiva.
As pues, este terreno multidisciplinar en el que se mueve la LC se
deriva directamente de la envergadura de la tarea a la que se enfrenta e
implica un gran nmero y variedad de conocimientos, lo que justifica el
mencionado carcter interdisciplinar de la LC, destacado en las
diferentes definiciones. Adems de las aportaciones de la Lingstica y
de la Informtica, que seran las que le proporcionan las bases sobre las
que se cimienta, la LC se beneficia de los descubrimientos procedentes
de mltiples reas, desde la Lgica a la Psicologa, pasando por las
Matemticas, la Psicolingstica, la Inteligencia Artificial, etc. en el
marco general de lo que se viene denominando Ciencia(s) Cognitiva(s).
Es ms, segn A. K. Joshi (2002 [1999]:745), al poner en contacto los
campos de la ciencia computacional y la lingstica que estn
ntimamente relacionados, la LC desempea un papel central en la
ciencia cognitiva.
21 Cf. USZKOREIT (1996, 2000) y LAVID (2005).
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 33
Por lo tanto, la situacin que nos encontramos es que el estudio de
los contenidos a los que se refiere la etiqueta Lingstica
Computacional es posible efectuarlo desde diferentes perspectivas,
que resumiremos en dos: la de la Lingstica y la de la Informtica, con
la Ciencia Cognitiva como teln de fondo. Como es lgico, cada una lo
aborda con presupuestos tericos, objetivos, mtodos y herramientas
muy distintos.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 34
1.2. Objetivos de la LC: LC Terica y LC Aplicada
Como se ha podido observar en el apartado anterior, la LC aglutina los
intereses de la Lingstica y de la Informtica, hecho patente en la
propia denominacin del campo, dado que tanto el lenguaje
(Lingstica) como los ordenadores (Computacional) estn implicados
en ella. Para algunos autores, este hecho sita la LC en un marco de
interseccin ms amplio que el de la propia Lingstica o la Informtica,
el que le proporciona la Ciencia Cognitiva.
No obstante, puesto que tanto el lenguaje como los ordenadores
estn implicados en la definicin de LC, se suelen distinguir dos
posibles acercamientos a este mbito de confluencia:
1) Acercamiento de la Lingstica
2) Acercamiento de la Informtica
Desde la perspectiva de la Lingstica, se considera que:
La LC es una rama de la Lingstica Aplicada.
Su objeto es el estudio del lenguaje en sus diferentes niveles y
procesos (fontica, morfologa, sintaxis, semntica, pragmtica, etc.)
desde una perspectiva global que los integre, ya que su objetivo
ltimo es emular la conducta lingstica en su totalidad.
Lo que la diferencia de la Lingstica Terica es que la LC se sirve de
formalismos y tcnicas computacionales.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 35
Desde la perspectiva de la Informtica, se considera que:
La LC es una rama de la Inteligencia Artificial.
Su objeto es simular la conducta lingstica humana en cuanto
capacidad cognitiva bsica, aunque no necesariamente teniendo en
cuenta su fundamentacin psicolgica. Es decir, lo importante es
desarrollar programas informticos capaces de hablar: reconocer,
comprender y producir enunciados, imiten o no la forma en que
funciona nuestro cerebro cuando ejercitamos la capacidad
lingstica.
Se integra en un proyecto ms ambicioso, el de simular la
inteligencia humana en general.
Esta doble vertiente, lingstica e informtica, se observa en los dos
objetivos o motivaciones con los que se puede abordar el trabajo en LC,
objetivos tericos y objetivos aplicados, que han dado lugar a que se
establezca una distincin paralela entre:
1) LC Terica, ms vinculada a la Lingstica.
2) LC Aplicada, ms relacionada con la Informtica y la IA.
Lingstica Computacional (LC) LC Terica LC Aplicada Objetivos tericos Objetivos aplicados Perspectiva de la Lingstica Perspectiva de la Informtica
Tabla 1. LC Terica vs. LC Aplicada.
Los objetivos tericos, tambin llamados cientficos, son
independientes de cualquier aplicacin y constituyen el mbito de
trabajo de la LC Terica.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 36
Segn R. Grishman (1991 [1986]:16-17), se concretan en:
Probar las gramticas que propone la Lingstica Terica.
Investigar los procesos psicolgicos que intervienen en la
produccin y comprensin del lenguaje dentro del marco general
de la Ciencia Cognitiva.
Estudiar la forma de representar el conocimiento general o del
mundo.
Los objetivos aplicados, tambin llamados tecnolgicos o
aplicaciones orientadas a la ingeniera, tienen que ver con sistemas
prcticos o programas informticos especficos y constituyen el mbito
de trabajo de la LC Aplicada.
Segn R. Grishman (1991 [1986]:15-16), las tres aplicaciones
principales de la LC son:
Traduccin automtica.
Recuperacin de informacin.
Interfaces hombre-mquina.
Cuando nos referimos a la Lingstica Computacional Terica, estamos
ante lo que se entiende por LC en sentido estricto o LC por
antonomasia. Esta toma sus temas de trabajo de la Lingstica Terica y
de la Ciencia Cognitiva. Las aportaciones de la Psicologa Cognitiva, en
especial de la Psicolingstica, tambin son de especial relevancia, lo
que se ha traducido en el surgimiento de una nueva ciencia, la
Psicolingstica Computacional. El objetivo de esta vertiente de la LC es
proporcionar una explicacin del funcionamiento del lenguaje en sus
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 37
diferentes niveles: fontico, morfolgico, sintctico, semntico,
pragmtico, etc.
Este objetivo general, segn X. Gmez Guinovart (2000a:223), se
concreta en:
La elaboracin de teoras o modelos lingsticos generales que
cumplan dos requisitos:
Ser formales.
Ser adecuados para su implementacin en un programa
informtico.
La descripcin de fenmenos lingsticos concretos en el marco
de las teoras o modelos anteriores.
La comprobacin automatizada de la consistencia de una teora
lingstica.
Por su parte, la Lingstica Computacional Aplicada es una vertiente de
la LC que posee una clara orientacin tecnolgica, lo que ha provocado
que hoy en da con frecuencia se aluda a ella con nombres como
ingeniera lingstica o tecnologa del lenguaje humano. Se centra en los
aspectos prcticos que se puedan derivar de la simulacin de la
conducta lingstica con medios informticos y su objetivo es crear
productos informticos que incorporen algn componente en el que
intervenga el lenguaje, oral o escrito. Uno de sus principales retos es
mejorar la comunicacin entre personas y ordenadores mediante el uso
del lenguaje. En concreto, consiste en mtodos, tcnicas, herramientas y
aplicaciones en las que el lenguaje desempea un papel central.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 38
Segn X. Gmez Guinovart (2000a:223-224), las principales
aplicaciones, que este autor agrupa en cuatro categoras, son:
Programas para la comprensin y generacin de enunciados:
consulta a bases de datos, sistemas de dilogo, etc.
Programas relacionados con las tecnologas del habla: dictado
automtico, conversin de texto en voz, etc.
Herramientas para el procesamiento documental: correctores
ortogrficos y estilsticos, programas para la generacin
automtica de resmenes, sistemas de extraccin y recuperacin
de informacin textual, etc.
Herramientas para el procesamiento plurilinge: programas para
la enseanza de lenguas asistida por ordenador o para la
creacin de ejercicios, programas de ayuda a la traduccin, etc.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 39
1.3. Lingstica Computacional y Lingstica: el carcter aplicado
Quisiramos ahora detenernos un momento a reflexionar sobre las
implicaciones que, desde la Lingstica, tiene la aplicacin de los
ordenadores al estudio del lenguaje.
Desde que a principios del siglo XX F. de Saussure, en su Curso de
lingstica general (1916), estableciera las bases de la llamada
Lingstica cientfica, esta ha experimentado una evolucin y un
crecimiento espectaculares. No obstante, es lgico que, en esos
momentos fundacionales, la recin inaugurada ciencia del lenguaje
dirigiera su atencin hacia s misma22, hacia el estudio de la estructura
interna de las lenguas, defendiendo a toda costa su inmanencia,
contemplada como un aval de cientificidad.
Sin embargo, una vez consolidada esta Lingstica Terica, pronto,
en torno a los aos sesenta, empezaron a surgir otros puntos de vista
que desbordaban esos lmites esbozados por F. de Saussure y
proclamaban la necesidad de aproximaciones mixtas, que conjugaran
ideas propias con otras ajenas en principio al mundo de la Lingstica.
La explicacin hay que buscarla en que la realidad primera que
muestran los hechos lingsticos en sus manifestaciones es su
diversidad (Fernndez 1999:21), su complejidad. Por lo tanto, cuando
se pasa de contemplar el objeto de estudio como una abstraccin
inmutable a considerarlo algo concreto y dinmico, sujeto a diferentes
tipos de variaciones, el lenguaje revela su carcter polifactico y
22 Es la denominada Microlingstica, Lingstica interna o Lingstica del
cdigo, que se ocupara de la Fontica y Fonologa, la Morfologa, la Sintaxis y la Semntica, disciplinas que constituiran el ncleo de la Lingstica (cf. ROJO 1986:53 y ss.) o lo que M. FERNNDEZ (cf. 1986, 1996, 1999) llama divisiones de la Lingstica, centradas en la dimensin simblica del lenguaje y que consideran los fenmenos lingsticos en s mismos, sin atender a factores externos de tipo social, cultural, biolgico... Adems, son las que han sido objeto de una mayor atencin y cuentan con una larga tradicin de estudios que las sustentan.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 40
multidimensional y, en consecuencia, se resiste a encajar en las
categoras preestablecidas y rgidas de la lingstica de corte
estructural. Se pone entonces de relieve que en su caracterizacin no
solo se debe atender a la forma y a la sustancia de los signos lingsticos
en el marco del sistema concreto de una lengua, sino que tambin se
deben incorporar saberes perifricos a ese ncleo de la Lingstica (cf.
Moure 2002:48), tales como los aspectos psicolgicos subyacentes al
lenguaje, los procesos neuronales implicados, su dimensin social y
cultural, las consecuencias derivadas de su uso por parte de los
hablantes, etc23. As pues, para dar cuenta de todas estas caras de su
objeto, la Lingstica se vio obligada a abrir sus puertas a otros mbitos
del saber Psicologa, Neurologa, Sociologa, Antropologa, Filosofa
del lenguaje, como nica va para poder ofrecer descripciones y
explicaciones ms exhaustivas. De esta forma, se consolidan toda una
serie de disciplinas lingsticas, marcadas por la integracin en sus
investigaciones de perspectivas y enfoques procedentes de otros
campos cientficos, y tambin una nueva visin del quehacer
lingstico, aquella que a grandes rasgos comprende el funcionalismo
(cf. Moure 2002:104 y ss.). Por otra parte, el trmino ciencias del lenguaje,
de moda en los ltimos aos (cf. Payrat 1998:25), viene precisamente a
poner el acento en el intercambio de conocimientos que se da en la
actualidad entre la Lingstica y estas relativamente nuevas disciplinas.
23 Estas otras dimensiones del lenguaje se suelen recoger bajo etiquetas como
Macrolingstica, Lingstica externa o, en trminos de M. FERNNDEZ (cf. 1986, 1996, 1999), ramas de la Lingstica, que incluiran los entonces nuevos campos de la Psicolingstica, la Neurolingstica, la Sociolingstica, la Antropologa lingstica o la Pragmtica, respectivamente. G. ROJO (1986:51 y ss.) las engloba bajo el rtulo de disciplinas no nucleares, puesto que se ubican en un crculo ms externo en relacin con el central o ncleo (vid. nota anterior). Hay que sealar que G. ROJO establece diferentes crculos en torno al nuclear, segn el grado de alejamiento o de vinculacin que mantienen las distintas disciplinas no nucleares con la Lingstica. Las ms prximas seran la Psicolingstica, la Etnolingstica y la Sociologa del lenguaje, por actuar como puentes entre la Lingstica y otras ciencias de tipo cultural, mientras que la Neurolingstica, en su esquema, ocupa una posicin ms distanciada, por acercarse al lenguaje desde la perspectiva propia de otra ciencia.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 41
Este hecho obedece a la imposibilidad de describir y explicar el lenguaje
desde un nico punto de vista: es preciso reconocer la diversidad
interna del campo.
Por otra parte, casi al mismo tiempo o incluso antes24 que el
horizonte de los conocimientos en torno al lenguaje se ampliara de esta
manera, se empezaron a vislumbrar tambin nuevos caminos en otra
direccin, la de las aplicaciones de la Lingstica. La meta ya no es solo
observar, describir y establecer generalizaciones lo que conformara la
labor de la lingstica que ha sido calificada como terica, bsica o
pura, sino que el lingista debe ir ms all y aportar soluciones a las
situaciones que le va planteando la sociedad, es decir, la investigacin
debe tener una finalidad prctica. Como dice M. Fernndez (1999:34):
[] no solo las motivaciones de curiosidad ante los hechos han
empujado el crecimiento de la Lingstica, sino que el campo
disciplinar en su progresin y debido al conocimiento logrado ha
permitido delimitar nuevos problemas y ha facilitado la aproximacin
a circunstancias peculiares, ya no solo con objeto de describirlas sino
porque ha de resolverlas. Este panorama es especialmente notable en el
mbito ya asentado de la Lingstica aplicada.
24 As, p. ej. K. JOHNSON Y H. JOHNSON (1998:9), en su Encyclopedic Dictionary of
Applied Linguistics, retrotraen el surgimiento de la Lingstica Aplicada a finales de los cuarenta y principios de los cincuenta del pasado siglo XX en centros de Estados Unidos y del Reino Unido, aunque la fecha oficial se suele hacer corresponder con el Coloquio Internacional de Lingstica Aplicada celebrado en la Universidad de Nancy, Francia, en 1964, primer encuentro cientfico consagrado especficamente al nuevo conjunto de saberes y en el que, adems, se acord la fundacin de la Association Internationale de Linguistique Applique (AILA). Vid. URL: http://www.aila.info/index.htm. En Espaa, esta institucionalizacin debera esperar casi veinte aos, hasta 1982, ao en que se crea la Asociacin Espaola de Lingstica Aplicada (AESLA). Vid. URL: http://www.aesla.uji.es/
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 42
Si bien en un principio la Lingstica Aplicada nace25 estrechamente
vinculada a la enseanza y aprendizaje de segundas lenguas y de
lenguas extranjeras, rea con la que se llega a identificar, sobre todo en
la tradicin anglosajona, a partir de los ochenta experimenta un rpido
desarrollo que da lugar a la sucesiva inclusin en su seno de nuevas
materias aunque reservando un lugar preponderante a ese ncleo
inicial, hasta el punto de constituirse en un dominio cientfico con
entidad propia, independiente en cierta medida de la Lingstica
Terica26 y caracterizado por la variedad de sus intereses, que giran
siempre en torno a problemas reales. Surge as toda una serie de
disciplinas aplicadas en Lingstica, con objetivos muy concretos en
torno al lenguaje, que incluyen desde cuestiones relacionadas con el
aprendizaje y enseanza de lenguas hasta temas de normalizacin o de
desarrollo de polticas lingsticas, pasando por mbitos como el de la
traduccin, la elaboracin de diccionarios, el tratamiento automatizado
de textos o las patologas lingsticas. En palabras de T. Moure
(2002:130):
Se trata de una proyeccin, recientemente desarrollada, de los estudios
lingsticos y que abarca aquellas investigaciones donde los
conocimientos lingsticos se ponen al servicio de un objetivo prctico,
de modo que pretenden resolver un problema material e inmediato.
Los trabajos en didctica de lenguas, teora de la traduccin, lingstica
clnica, planificacin lingstica y lingstica computacional entran en
este dominio.
25 En este sentido hay que tener en cuenta, como dice L. PAYRAT (1998:20), que en definitiva, ms que del nacimiento repentino de una disciplina (o subdisciplina, en relacin con la gran lingstica), deberamos hablar de continuum de confluencias en tradiciones diferentes, que representan una dimensin aplicada de la lingstica. Este mismo autor (ibid.:19) alude a cmo ya en 1925, en el primer volumen de la revista Language, se hace mencin a una dimensin aplicada de la lingstica.
26 Esta ha contemplado con cierto desprecio y distancia todo lo relacionado con la vertiente aplicada (cf. MOURE Y LLISTERRI 1996:212), por lo que no hay que extraarse del tiempo transcurrido hasta la consolidacin de la Lingstica Aplicada.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 43
Lingstica Aplicada
As pues, es precisamente en este marco de la Lingstica Aplicada27
donde la LC encuentra su razn de ser en el terreno de los estudios
lingsticos28, junto a otra serie de subdisciplinas derivadas cada una de
problemas materiales especficos (cf. Fernndez 1996:22 y ss.).
Es ms, la presencia de la LC en este nuevo mbito disciplinario se
remonta a la propia institucionalizacin de la Lingstica Aplicada, en
1964, ya que el encuentro celebrado en la Universidad de Nancy (vid.
nota 24), que se toma como representativo del inicio oficial de la
Lingstica Aplicada, estuvo promovido por el Groupe de traduction
automatique de dicha universidad francesa (cf. Slama-Cazacu 1984:44).
La traduccin automtica, rea de investigacin destacada dentro de la
LC29 que consiste en el empleo de sistemas informticos que llevan a
cabo traducciones de una lengua a otra, con o sin intervencin humana
(Hutchins y Somers 1995:27), fue uno de los campos pioneros en los que
27 En la concepcin de G. ROJO (1986), la Lingstica Aplicada que define como
una especie de tecnologa lingstica (ibid.:51), ya que busca la forma de aprovechar en trminos prcticos los conocimientos obtenidos del estudio de las lenguas se sita entre las disciplinas no nucleares, en un crculo intermedio entre las disciplinas puente y la Neurolingstica.
28 Lgicamente, hasta que no existi la tecnologa necesaria fue impensable plantear la existencia de la LC como un rea del saber distinta.
29 Vid. p. ej. las definiciones ya mencionadas de D. CRYSTAL (vid. nota 6) y K. JOHNSON y H. JOHNSON (vid. nota 8).
Didctica de lenguas
Teora de la traduccin
LC Planificacin lingstica
Lingstica clnica
Ilustracin 10. La LC en el marco de la Lingstica Aplicada.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 44
se centraron los primeros trabajos en LC propiamente dicha (vid. ms
adelante). No obstante, tuvo que pasar un par de dcadas hasta que los
avances tecnolgicos y cientficos proporcionaron nuevas y mejores
posibilidades para el tratamiento de las lenguas con medios
informticos, y estas posibilidades se concretaron en productos tiles
para la sociedad. As lo resume M. Fernndez (1999:36):
El despegue tecnolgico de los ltimos aos, asociado con el propio
devenir metodolgico en el campo de la Lingstica, ha provocado la
atencin al procesamiento artificial de las lenguas, al tratamiento
informtico de ingentes bases de datos lingsticos, o a los medios
automticos de traduccin (mbito de la Lingstica computacional).
Por lo tanto, la LC es una disciplina aplicada30. Como tal, participa de
las mismas caractersticas que definen la Lingstica Aplicada y que son
comunes a todas las reas que esta comprende, aunque tambin se
define por un objeto, una metodologa y unos objetivos especficos, que
le permiten erigirse en subdisciplina independiente dentro del marco
de aquella.
Para T. Slama-Cazacu (1984:22 y ss.; 96 y ss.), la especificidad de la
Lingstica Aplicada frente a la Lingstica Terica reside en: i) su
orientacin o finalidad prctica, ii) su necesidad de una base terica y
30 As de explcitamente lo proclamaba A. M. GARRIDO MORAGA (1984:213) en su
artculo La lingstica y los ordenadores. Consideraciones sobre lingstica mecanizada, cuando afirmaba que La LM [lingstica mecanizada] hay que situarla en una de las varias direcciones de la Lingstica Aplicada y en un contexto ideolgico que podemos calificar de neopositivista tal como se ha desarrollado en los ltimos tiempos. Ms recientemente A. MORENO SANDOVAL (1998:30), en su manual Lingstica Computacional, tambin se manifiesta con contundencia a este respecto: La Lingstica Computacional es una disciplina aplicada. Entre sus usos principales figuran, entre otros, la traduccin automtica, los [sic] interfaces hombre-mquina, la recuperacin y extraccin de informacin y los correctores sintcticos y estilsticos.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 45
iii) su interdisciplinariedad. Ll. Payrat (1998:24) sintetiza este
programa as:
En definitiva, pues, la lingstica aplicada puede concebirse como una
orientacin o dimensin de la investigacin lingstica, propia de todos
los campos de estudio incluidos en las ciencias del lenguaje, que,
partiendo de marcos (tericos) interdisciplinarios, persigue como
objetivo la resolucin de problemas (prcticos) derivados de la praxis
lingstica, del uso lingstico en que se concreta la capacidad humana
del lenguaje.
1.3.1. Orientacin prctica
En cuanto a la primera de las caractersticas sealadas, la Lingstica
Aplicada presenta una clara orientacin hacia una finalidad prctica, ya
que guarda estrecha relacin con situaciones concretas de la vida en las
que interviene el lenguaje. Estas imponen la seleccin de los hechos que
han de ser objeto de estudio, as como el objetivo que ha de perseguir la
investigacin. Por este motivo, se pueden reconocer tantas reas dentro
de la Lingstica Aplicada como problemas materiales se identifiquen,
de ah la heterogeneidad propia del campo. No obstante, esta tendencia
obedece a un principio que parece gobernar la ciencia hoy en da, el de
la especializacin de los conocimientos en funcin de los nuevos
aspectos de la realidad que se van descubriendo en su mayora, se
pueden reducir a problemas de comunicacin que surgen en la
sociedad actual (cf. Payrat 1998:27) y que requieren un tratamiento
por parte del lingista, del que se espera que encuentre una solucin
que redunde en el beneficio de la comunidad de que forma parte. No se
trata, por tanto, de obtener nuevos conocimientos sin ms meta que
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 46
lograr una mejor comprensin del lenguaje y de las lenguas, como hace
la Lingstica Terica, sino que el logro de esos conocimientos est
condicionado por su aplicacin: los conocimientos han de tener una
finalidad prctica (cf. Fernndez 1996:20-21).
En este sentido, la Lingstica Computacional se encuadra en el
grupo de las disciplinas aplicadas porque proyecta determinados
conocimientos sobre el funcionamiento de las lenguas a la resolucin de
problemas concretos (Moure y Llisterri 1996:210).
Los avances tecnolgicos ocurridos durante la segunda mitad del
siglo XX han marcado el nacimiento de la denominada sociedad de la
informacin. Al triple eje conformado por lenguaje, sociedad e
informacin (cf. Llisterri 1999; Mart y Llisterri 2001), los tres pilares
sobre los que se sustenta el origen mismo de las diferentes
civilizaciones pues se asocia el desarrollo de la capacidad lingstica
con la aparicin de la vida grupal, como un medio para transmitir los
conocimientos de unos individuos a otros y de una generacin a otra,
han venido a sumarse, como elemento definidor del nuevo modelo
social, los ordenadores y las nuevas tecnologas asociadas a ellos, que se
han erigido en una herramienta bsica.
Pronto se hizo evidente la conexin que se poda establecer entre los
ordenadores y las lenguas naturales, pues estas son el instrumento que
solemos emplear para intercambiar con ms eficacia informacin. Por
este motivo, no es pues extrao que, desde que los ordenadores
llegaron a alcanzar un grado suficiente de complejidad, surgiera un
inters en tratar el lenguaje, en tanto que portador de informacin, de
un modo automtico (Llisterri 1999:2). Es decir, el nuevo reto que la
Informtica planteaba a la sociedad ha sido respondido por el
surgimiento de la Lingstica Computacional, que ha proporcionado los
tiles necesarios para poder manejar ingentes cantidades de
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 47
informacin expresada en una lengua natural. As, disponemos de
programas informticos que nos permiten introducir, buscar,
manipular, etc. informacin. Para R. Grishman (1991 [1986]), la
traduccin automtica, la recuperacin y extraccin de informacin y
las interfaces hombre-mquina son los campos que ms esfuerzos han
concentrado en LC.
Adems, la faceta prctica se manifiesta en otro orden de cosas: el
ahorro de tiempo y dinero, as como la eficacia que las herramientas
informticas aplicadas al lenguaje aportan en determinadas tareas.
1.3.2. Base terica
Por otra parte, la Lingstica Aplicada no carece de unos
planteamientos tericos previos ni se limita a la mera aplicacin de
conocimientos sin ms, a aplicar teoras lingsticas a un dominio
prctico (Slama-Cazacu 1984:14; Payrat 1998:18), sino que se sustenta
en una base terica propia, conformada por principios generales que se
caracterizan por tomar siempre la realidad como punto de referencia.
Por este motivo, no le sirve cualquier teora, sino que para ser vlida
esta debe considerar la lengua como un fenmeno concreto y dinmico.
Estos aspectos tericos se conjugan perfectamente con los aplicados, ya
que elabora sus propios modelos o, como mnimo, reelabora las teoras
lingsticas existentes (cf. Slama-Cazacu 1981:15), de acuerdo con sus
necesidades, lo que, a su vez, puede revertir en la investigacin terica
dentro de la propia Lingstica. El objetivo de estos constructos tericos
no es el de la investigacin en s, sino el de proporcionar una respuesta
a determinadas demandas de la sociedad.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 48
La LC no es ajena a esta preocupacin. R. Grishman (1991 [1986]:16)
hace referencia a la forma como combina objetivos cientficos o
tericos con aquellos de una orientacin ms tecnolgica o prctica.
Desde esa perspectiva cientfica, a los conocimientos que le aportan la
Lingstica y otras disciplinas (Inteligencia Artificial, Informtica,
Lgica, Matemticas, Psicologa, Procesamiento de Seales, etc.), se
suman formalismos y conceptos propios que la propia LC desarrolla,
sobre todo en el tratamiento de la sintaxis y para la descripcin del
lxico, segn las situaciones concretas a las que tenga que atender (cf.
Moure y Llisterri 1996:152). De estos, en una relacin de reciprocidad,
se beneficia tambin la Lingstica Terica, pues hay casos en los que
la Lingstica computacional est de hecho pesando en los desarrollos
tericos de la Gramtica, de la Lexicologa e incluso de la Pragmtica,
en donde las formalizaciones vuelven a estar de moda (Fernndez
1996:28). Es ms, el peso de la vertiente terica es tal que algunos
autores (por ejemplo Cunninghan 1999) consideran la LC una disciplina
bsicamente terica, aspecto que la diferenciara de la lnea de
investigacin representada por el Procesamiento del Lenguaje Natural o
PLN (vid. infra).
A propsito de los fundamentos tericos, con frecuencia se ha
achacado a la LC que sus desarrollos cientficos son ms bien localistas
(cf. Moure y Llisterri 1996:211), centrados en dominios restringidos del
lenguaje o planteados ad hoc para solventar una cuestin determinada.
Como bien sealan T. Moure y J. Llisterri (1996:211), no hay que
perder de vista el hecho de que:
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 49
si la investigacin en este terreno no ha avanzado con mayor rapidez
no es a causa de limitaciones de tipo terico, sino porque nuestros
conocimientos sobre el lenguaje son todava ms pobres de lo que
suponemos. Las aplicaciones computacionales dependen, hoy ms que
nunca, de una teora lingstica que las avale y les proporcione el
apoyo formal imprescindible para la gestin de sus datos.
Por otra parte, las teoras lingsticas desarrolladas desde la LC se
caracterizan por la necesidad de una formalizacin, requisito que no
cumplen ni buscan muchas de las teoras propuestas desde la
Lingstica Terica.
1.3.3. Interdisciplinariedad
Se puede decir que esta es una constante de la Lingstica en la
actualidad: participacin de diferentes ciencias y saberes tanto
lingsticos como no lingsticos en la caracterizacin del objeto de
estudio, del lenguaje, lo que se ha traducido en un cambio en el perfil
del lingista, quien:
ha dejado de ser un profesional especializado en un conocimiento que
solo interesa a sus colegas (el modelo tpico de la ciencia) para pasar a
construir y elaborar teoras de amplio alcance, con repercusiones en su
campo y en campos ajenos, con proyecciones aplicadas y dimensiones
tericas, con inters divulgativo y general (el modelo tpico de la
filosofa) (Moure 2002:90-91).
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 50
Y es que la Lingstica Aplicada y, por tanto la LC, se caracteriza por
su interdisciplinariedad, ya que es un dominio cientfico que utiliza los
conocimientos de la Lingstica pero tambin de otras disciplinas con
las que intersecciona. Este acercamiento est motivado por la
necesidad que existe hoy en da de contar con medios complejos para
el estudio de un fenmeno tambin complejo como es el lenguaje. En lo
que a la LC se refiere, el conocimiento sobre el lenguaje se integra []
junto con elementos procedentes de otras disciplinas, tanto en la teora
de la lingstica computacional como en la concepcin de sistemas y
herramientas y en la creacin de recursos lingsticos (Moure y
Llisterri 1996:152). Es decir, la colaboracin se produce no solo en
cuestiones de ndole terica, sino que tambin comparte tcnicas,
herramientas y mtodos con otras ciencias:
la integracin de conocimientos procedentes de la inteligencia artificial,
de la informtica, de los programas cognitivos, etc. resulta
fundamental para el trazado y la determinacin del mbito de la
Lingstica computacional, en cuyo marco se hace en mayor medida
imprescindible la consideracin unitaria y conjunta de aspectos que de
alguna forma son reinterpretados desde la rbita del rea (Fernndez
1996:26).
El resultado es que con ello:
se est consolidando un campo de trabajo caracterizado
principalmente por la interdisciplinariedad y por ofrecer la posibilidad
de convertir las teoras en realidades, materializadas en productos que,
en ltima instancia, tienen como objeto ayudar a las personas en
aquellas tareas en las que el lenguaje juega un papel preponderante
(Moure y Llisterri 1996:153).
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 51
Ahora bien, la LC, adems de estas caractersticas comunes a todas
las subdisciplinas aplicadas31, ha de poseer algn matiz diferenciador.
En su caso, la parcela de la realidad de la que se ocupa es aquella
formada por:
el conjunto de aspectos, factores, procesos, elementos, etc. que
intervienen en la computacin del lenguaje; de lo que se trata es de
elaborar modelos y tcnicas que permitan procesar las lenguas
naturales en lenguaje mquina, con objeto de hacer posible no solo el
reconocimiento sino tambin la generacin y produccin desde la
misma computadora (Fernndez 1996:25-26).
Y, en definitiva, se define por su propio objeto (elaborar teoras y
procedimientos para conseguir el tratamiento automtico de las
lenguas), metodologa (hbrida, a medio camino entre informtica y
lingstica) y finalidad: obtener productos tecnolgicos relacionados
con las industrias de la lengua (Moure y Llisterri 1996:209).
31 M. FERNNDEZ (1996:25) justifica perfectamente el carcter aplicado de la LC:
Finalmente, tambin la Lingstica computacional y la Planificacin lingstica son mbitos de la Lingstica aplicada admitidos por su entidad sobre la base de sus objetos de estudio y sus propsitos resolutivos respecto a determinados problemas materiales. En los dos casos, adems, se plantean necesidades de integracin de aspectos y factores multidisciplinares; y, naturalmente, existen en ambos terrenos desarrollos tericos evaluados por su grado de aplicabilidad y alcance sobre los problemas materiales.
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 52
1.4. Principales lneas de investigacin
Como detallaremos a continuacin y como ya hemos apuntado en
apartados previos, el campo de la LC, desde sus inicios, ha contado con
numerosas vertientes o lneas de investigacin, tericas y aplicadas,
que tienen en comn la integracin de conceptos y procedimientos
informticos en el tratamiento del lenguaje y del habla. De aqu el
trmino Lingstica informtica que otros autores utilizan (Moure y
Llisterri 1996:151-152).
Dentro de un contexto general dominado por una creciente
necesidad de adquirir, procesar y transmitir informacin es donde
surgen los trabajos de lo que se llam Lingstica Computacional en torno
a la dcada comprendida entre 1940 y 1950 en Estados Unidos,
centrados, por una parte, en los cmputos de apariciones as como en la
elaboracin de ndices y concordancias; y por otra, en la traduccin
automtica. En este sentido, se concibe la LC como un campo muy
amplio:
Bajo la denominacin de Lingstica computacional es posible agrupar
un conjunto relativamente heterogneo de teoras, mtodos,
herramientas, aplicaciones y productos que tienen en comn la
consideracin de la lengua como un objeto susceptible de ser tratado
mediante procedimientos informticos (Moure y Llisterri 1996:147),
en el que se integra cualquier tarea lingstica para la cual se utilicen
medios informticos. Sin embargo, esta tradicin (en lo referente a los
cmputos de frecuencias, etc.; no en lo que concierne a la traduccin
automtica) se ha venido a identificar ms tarde con lo que se conoce
como literary and linguistic computing y ya no se considera LC en
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 53
sentido estricto. Se trata de meros clculos estadsticos que puede
realizar cualquier procesador de textos actual.
Sin embargo, ahora, el trmino de LC se usa de forma ms
restringida, como sinnimo o al lado de Procesamiento del Lenguaje
Natural, rea que se ocupa de la modelizacin o emulacin con medios
informticos de la conducta lingstica en toda su complejidad y, por lo
tanto, est integrada en la Inteligencia Artificial, ciencia o subdisciplina
de la Informtica que persigue la construccin de sistemas
computacionales inteligentes que simulen toda conducta cognitiva
humana en general, la lingstica entre ellas32, por lo que tambin entra
en contacto con la Psicolingstica:
Computational linguistics: 1. (formerly, and still occasionally) A very broad
label covering virtually any activity involving computers and natural
language, such as machine translation of natural-language texts, computer
searching of texts or the preparation of concordances for literary works by
computer. Now usually called literary and linguistic computing. 2. (more
usually today) A synonym for natural-language processing (Trask 1993:53).
Es decir, se presenta como un rea de interseccin con numerosas
disciplinas, con las que comparte parte de su objeto. Hay que destacar
que este marco de interdisciplinariedad en el que se mueve es
caracterstico tambin de la ciencia cognitiva con la que se solapa en
ocasiones. Superado el optimismo triunfalista de los primeros tiempos,
32 Computational linguistics is best viewed as a branch of artificial intelligence (AI). As all fields within AI, it is concerned with the investigation and modeling of a cognitive capacity. In the case of computational linguistics it is the language capacity that is in focus. (...) The goal is rather to identify and characterize the classes of processes and the types of knowledge which are implied by the ability to communicate and assimilate information using natural language regardless of their psychological status. One of the contributions of computational linguistics is a set of techniques which make it possible for linguistic knowledge to guide and constrain the linguistic processing performed in a natural language system (HALVORSEN 1991 [1988]:202-203).
www.revistacontextos.es
Milka Villayandre Llamazares
P g i n a | 54
lo mismo que ocurrir con la IA, se ha llegado a una postura ms
realista y prctica, que ha transcendido hasta alcanzar el mercado
comercial y el terreno industrial.
Pues bien, como ya se ha sealado en los apartados previos, la de
Lingstica Computacional no es la nica denominacin que se utiliza
para aludir al campo que nos ocupa, sino que es habitual re