torruella_llisterri_99.pdf

7/25/2019 torruella_llisterri_99.pdf

1/34

TORRUELLA, J.- LLISTERRI, J. (1999) Diseo de corpus textuales y orales, in BLECUA, J.M.-CLAVERA, G.- SNCHEZ, C.- TORRUELLA, J. (Eds.)Filologa e informtica. Nuevas tecnologas enlos estudios filolgicos. Barcelona: Seminario de Filologa e Informtica, Departamento de FilologaEspaola, Universidad Autnoma de Barcelona - Editorial Milenio. pp. 45-77.http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf

1

Diseo de corpus textuales y orales

Joan Torruella y Joaquim Llisterri

Seminari de Filologia i InformticaDepartament de Filologia EspanyolaUniversitat Autnoma de Barcelona

A la memoria de nuestro buen amigo Giovanni Pontiero.

1. INTRODUCCIN

Cada vez parece ms evidente la conveniencia de utilizar recursos informticos en lasinvestigaciones humansticas. Pero para poder utilizar estos recursos es necesario disponerde un material donde aplicarlos; este material, en el caso de la filologa, son los textos,orales o escritos, y los documentos que los contienen, los cuales, debidamente recopilados,forman los llamados corpus.

Actualmente, en muchas ramas de las humanidades, y sobretodo en lingstica aplicada,

se pretende trabajar con datos reales y lo ms exhaustivos posibles que permitan reproducircon la mxima fidelidad las caractersticas del objeto de estudio. Esto implica que, dealgn modo, hay que recopilar, en cantidades ms o menos grandes, muestras de loselementos que constituyen la realidad que se quiere observar. El auge que ltimamente hatenido la aplicacin de la informtica y su inevitable presencia en cualquier campo de lainvestigacin ha facilitado enormemente las tareas mecnicas de recopilacin yorganizacin en formato electrnico de los textos, lo cual ha provocado que el investigadorse pueda encontrar delante de cantidades considerables de documentos que aportan unnmero de datos tan grande que slo una codificacin, ordenacin y organizacin de estosdatos en la proporcin adecuada pueden salvarlo del naufragio en un mar inmenso de

informacin. De ah que, en este captulo, ms que describir investigaciones concretas quese han llevado a cabo en el rea de los corpus o a partir de ellos, presentamos las pautas

para obtener un corpus suficientemente organizado y representativo de la realidad quequiera reflejar, para que pueda ser explotado con ciertas garantas de xito

1.

Ya J. Svartvik (1992) seal que la lingstica basada en los corpus haca posiblenuevas aproximaciones a viejos problemas, y no solamente esto sino que, en muchos casos

permite poner en el terreno de las afirmaciones ideas que antes solo eran conjeturas oespeculaciones provenientes de impresiones ms o menos fundadas de los lingistas. Unacaracterstica importante de los corpus es que estan compuestos por datos reales y, por lo

1Para una presentacin general de la lingstica de corpus vase, por ejemplo, Leech (1991), Leech y

Fligelstone (1992) o McEnery y Wilson (1996).
http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdfhttp://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf


2/34


2

tanto, sus resultados son empricos, a diferencia de otras metodologas de anlisis

lingstico en las que se parte de hiptesis ms intuitivas. La funcin principal de uncorpus, tanto textual como oral, es establecer la relacin entre la teora y los datos; elcorpus tiene que mostrar a pequea escala cmo funciona una lengua natural; pero paraello es necesario que est diseado correctamente sobre unas bases estadsticas apropiadasque aseguren que el resultado sea efectivamente un modelo de la realidad. Si el corpustiene que ser un modelo de la realidad lingstica, o de una parte de esta realidad, esnecesario que sea neutro, o sea, que recoja muestras proporcionales de todos sus aspectos(niveles, temticas, registros, etc.). En la medida en que un corpus sea neutro, es decir, nomarcado, se podr explotar posteriormente para trabajos y enfoques diferentes: fonticos,fonolgicos, morfolgicos, sintcticos, semnticos, pragmticos, etc., siendo

constantemente un producto actualizable y reutilizable, dos conceptos importantsimos dela investigacin de hoy, ya que si la tarea de confeccin de un corpus es considerable, apesar de la ayuda informtica, lo mnimo que hay que asegurar es que el resultado searentable, y lo ser en la medida en que pueda ser utilizado en diversos medios y paradiversos fines. De todos modos, hay que aceptar el hecho de que la neutralidad es unatendencia y no una realidad ya que siempre dirigimos la mirada o el pensamiento haciaaquello que, consciente o inconscientemente, queremos ver o demostrar; no deberamosolvidar que lo que observamos no es la naturaleza misma, sino la naturaleza determinada

por la ndole de nuestras preguntas2.

Por eso hay que tener siempre presente que un corpus nunca puede ser la realidad sino

solamente un modelo de sta, modelo que debera mostrar sus aspectos ms destacados yms caractersticos. Cuanto ms grande sea el corpus y el nmero de niveles, tipologas,etc. de textos que lo integren ms posibilidades habr de asegurar la presencia de todos losaspectos de la lengua y, por lo tanto, de acercarse a la realidad. Pero un corpus siempretiene que ser selectivo ya que no es posible (y de serlo tampoco sera rentable), recopilartodo lo escrito y/o hablado de una lengua, y, de hecho, operativamente, es preferible uncorpus bien seleccionado y representativo a un corpus exhaustivo, que lo quiera recogertodo. El carcter selectivo de los corpus puede limitar algunas veces las posibilidades deextraer conclusiones, ya que, por ejemplo, en la lista de frecuencias de las unidades lxicas

presentes en cualquier corpus, por grande que este sea, un nmero bastante elevado de

unidades (la mitad aproximadamente) tienen frecuencia absoluta de aparicin 1, con locual no es posible extraer segn que tipo de informaciones referentes a estas unidades ni

poder explicar su funcionamiento dentro de la lengua. Y lo mismo podramos decir de laspalabras con un ndice de frecuencia absoluta de aparicin superior a 1 pero sin llegar a serlo suficientemente grandes como para permitir deducir generalizaciones.

Para que los corpus faciliten la extraccin de datos homogneos y cuantificables demanera que permitan elaborar teoras empricas, es necesario restringir las diferentesocurrencias lxicas a ocurrencias formales comunes (unidades estandarizadas); para ello es

2Cita tomada de Marina (1993: 38).


3/34


3

necesario reducir las variantes a invariantes3. Y no debemos entender estas variantes solo

como las puramente grficas, las de carcter fontico o las de naturaleza diatpica, sinotambin las producidas por la polisemia de las lenguas (en muchas de ellas la mitad de laspalabras tienen ms de una acepcin). Otro paso tambin necesario de cara a reducir a uncomn denominador las diferentes formas flexivas que adquieren las palabras cuando sontratadas nicamente como cadenas de caracteres delimitadas entre espacios en blanco, esagrupar bajo de un lema todas sus formas flexionadas. Pero todos estos procesos suponenya una teora previa de la morfologa.

Todo esto ha hecho que la creacin y el mantenimiento o actualizacin de los corpus sehaya convertido en una ciencia interdisciplinar en la que no solamente tienen queintervenir los lingistas sino tambin historiadores, sociolingistas, matemticos,

informticos, tericos de la literatura, etc. Decidir el tamao que tiene que tener un corpustextual u oral y cada una de las muestras que van a configurarlo para que ste sea un reflejode la lengua que pretende representar no es nada fcil, como tampoco lo es definir lasdiferentes etapas diacrnicas posibles, la variedad temtica que ha de contemplar o laconveniencia de trabajar con documentos enteros o con fragmentos de cada uno de ellos.Establecer los documentos y las ediciones ms representativas para incluirlas en el corpus

puede ser algo muy subjetivo si no se hace siguiendo algn criterio mnimamenteimparcial: se han de escoger los textos ms ledos?, los ms reconocidos?,seleccionados al azar?, etc.; quin se atreve a priorizar obras de tanto prestigio como elQuijoteo Cien aos de soledadfrente a otras con tanta difusin como pueden ser las de

Corn Tellado, J.J. Bentez o Vizcano Casas?, y con qu criterio?Actualmente existe un gran nmero de corpus, muy variados por lo que respecta a la

extensin, al diseo y a las finalidades4. El hecho es que los corpus informatizados han

demostrado ser unas herramientas excelentes para muchos tipos de investigaciones;principalmente en el campo de la investigacin lingstica porque, como ya se ha dicho,proporcionan bases mucho ms reales para el estudio de las lenguas que los mtodosintuitivos tradicionales. A partir de los corpus podemos disponer de bases muy

provechosas para comparar diferentes variedades de una lengua o para explotar susaspectos cuantitativos y probabilsticos. Efectivamente, los corpus informatizados hanvenido a dar un nuevo impulso a los estudios descriptivos de los diferentes aspectos de la

lengua: prosodia, lxico, morfologa, sintaxis, historia de la lengua, etc5

.A parte de estas cuestiones ms generales, los corpus informatizados han influido y

cambiado bastante los mtodos de investigacin e, incluso, han propiciado el nacimiento

3Para este tema en concreto y otros relacionados con los corpus, vase el excelente captulo de Blecua

(en prensa).4Algunos inventarios de corpus existentes pueden encontrarse en Cole (ed.) (1996), Edwards (1993),

McEnery y Wilson (1996) y en los catlogos de ELRA (European Language Resources Association) o de LDC (Linguist ic Data Consortium)< http://www.ldc.upenn.edu/ldc/catalog/index.html>. Vanse tambin Taylor et al. (1991) para el

ingls, Fernndez y Llisterri (1996a) o Llisterri (1996) para el espaol y Badiaet al.(1994) para elcataln.5Una muestra reciente de ello la constituyen los trabajos recogidos en Thomas y Short (eds.) (1996).
http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdfhttp://www.icp.grenet.fr/ELRA/catalog.htmlhttp://www.ldc.upenn.edu/ldc/catalog/index.htmlhttp://www.ldc.upenn.edu/ldc/catalog/index.htmlhttp://www.icp.grenet.fr/ELRA/catalog.htmlhttp://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf


4/34


4

de nuevas tendencias lingsticas. Muchos trabajos que antes tenan que hacerse a mano,

empleando mucho tiempo y esfuerzo leyendo y repasando textos para encontrar datosconcretos que sirvieran para demostrar nuestras hiptesis, hoy, con la ayuda de lainformtica, se pueden hacer no solamente con menos tiempo sino tambin ms ordenada yexhaustivamente, o sea, con mayor eficacia y eficiencia. Los avances ms significativos enel campo de la lingstica de corpus se han producido en el rea de la creacin de modelos

probabilsticos de la lengua y como pruebas para verificar estos modelos; ello ha permitidoavanzar significativamente en el campo de los anlisis gramaticales automticos de textos,tanto en sus aspectos morfolgicos (tagging) como en sus aspectos sintcticos (parsing).Pero ltimamente se han producido avances considerables en reas ms aplicadas, como lade la traduccin automtica o la del reconocimiento y sntesis del habla.

La ventajas de trabajar con corpus informatizados, sobre todo con aquellos que estnanotados, es tan grande, que est obligando a los lingistas tradicionales a trabajarconjuntamente con lingistas computacionales. La finalidad ltima, sin embargo, essiempre la misma: entender mejor cmo funciona el lenguaje humano, a pesar de que lafinalidad inmediata pueda ser obtener datos para preparar un curso de lengua paraextranjeros, para confeccionar un programa de traduccin automtica, para construir unconversor de texto a habla, etc

6.

La lexicografa y la terminologa son dos de los campos de investigacin y de estudioque ms se benefician de las informaciones que los corpus textuales y los corpus de lenguaoral aportan. stos son de gran ayuda para configurar el lemario de los diccionarios (tanto

para incluir nuevas palabras como para excluir las desusadas), as cmo para separar lasdistintas acepciones de cada lema, para detectar las palabras co-ocurrentes, lascombinaciones sintcticas, etc. Los corpus tambin proporcionan material muy til paratrabajar sobre fraseologa, la deteccin de neologismos y la obtencin de ejemplos realessusceptibles de aparecer en los diccionarios

7.

Este mtodo de trabajo tambin resulta muy productivo en el campo de la estadsticalingstica donde se utiliza para establecer ndices de frecuencias tanto de palabras,morfemas, slabas, letras, etc., como de combinaciones lxicas de distinta naturaleza. Asse pueden definir las reglas combinatorias de los formantes lxicos, el grado de vitalidadde los elementos de formacin de palabras, la frecuencia de aparicin de diferentes tipos de

vocablos (tecnicismos, barbarismos, neologismos, etc.) o de diferentes niveles del lenguaje(vulgar, culto, literario, etc.), datos, estos ltimos, muy interesantes no solo para losestudios lexicgrafos sino tambin para los estudios sociolingsticos y estilsticos.

6Un til resumen de las aplicaciones de los corpus se encuentra en el captulo 4 de McEnery y Wilson

(1996). Pueden encontrarse ejemplos especficos en Aarts y Meijs (eds.) (1986), (1990), Oostdijk y deHaan (eds.) (1994) y Svartvik (ed.) (1992). Especficamente dedicadas al ingls son las recopilacionesde Aarts y Meijs (eds.) (1984), Aarts et al. (eds.) (1993), Aijmer y Altenberg (eds.) (1991), de Haan yOostdijk (eds.) (1993), Fries et al. (eds.) (1994), Johansson (ed.) (1982), Johansson y Stenstrm (eds.)(1991), Kyt et al.(eds.) (1988), Leitner (ed.) (1992), Meijs (ed.) (1987). Para el espaol, vase Alvary Villena (Coord.) (1994) y Snchez et al. (1995).7

Uno de los ejemplos ms clsicos de la aplicacin de los corpus a la lexicografa lo constituye elCollins-COBUILD English Language Dictionary (Sinclair (ed.), 1987). Puede encontrarse msinformacin sobre este proyecto en .
http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdfhttp://titania.cobuild.collins.co.uk/%3E.http://titania.cobuild.collins.co.uk/%3E.http://titania.cobuild.collins.co.uk/%3E.http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf


5/34


5

En el terreno de la gramtica histrica y la historia de la lengua, los corpus

proporcionan datos referentes a la formacin de palabras, a los cambios de significadoproducidos en un vocablo, a las diferentes reas de utilizacin de una voz, a lasevoluciones formales de una palabra, a la introduccin de palabras no normativas en lalengua, etc

8.

Otro campo en el que los corpus aportan grandes ventajas es el de la confeccin deherramientas lingsticas informatizadas. Una de las ms importantes es la de losdiccionarios-mquina, de usos tan diversos como la correccin de textos informatizados ola segmentacin de las palabras por slabas. Estas herramientas son importantsimas para latraduccin automtica y otras tareas basadas en el tratamiento automtico del lenguaje

9.

En el campo de la fontica, los corpus constituidos por grabaciones de laboratorio son

herramientas imprescindibles para el estudio experimental del habla, mientras que los quecontienen registros menos formales son necesarios para la caracterizacin de diversosestilos. En el mbito de las tecnologas del habla, las bases de datos orales proporcionandatos importantes para la modelizacin de los fenmenos segmentales y suprasegmentalesen la conversin de texto a habla y son esenciales para el entrenamiento y la validacin delos sistemas de reconocimiento y de dilogo en entornos de comunicacin personamquina, cuyas aplicaciones se extienden desde la oferta de servicios telefnicosautomatizados hasta las ayudas para personas con discapacidades.

Los corpus tambin pueden proporcionar elementos muy tiles en el campo de laenseanza de lenguas

10, sobre todo a la hora de preparar materiales o ejercicios de trabajo

en clase basados en un uso real de la lengua. Del contenido de los corpus puededesprenderse informacin tanto de uso (palabras y construcciones ms frecuentes en loslibros de texto y lecturas recomendadas en relacin con los materiales autnticos) como decorreccin de barbarismos o malos usos lingsticos (errores ms repetidos, construccionesno normativas, lxico mal usado, grafas incorrectas, etc.). La recopilacin de corpus de

producciones de estudiantes de lengua extranjera constituye tambin una fuente de datossobre la interferencia entre la primera y la segunda lengua en todos los niveles del anlisislingstico y una base emprica importante para el anlisis de errores y de las estrategiascomunicativas de los alumnos.

En cuanto a las utilidades de los corpus en otros campos de las humanidades que no

sean los estrictamente lingsticos cabe mencionar las posibilidades que ofrecen para losestudios histricos, para los de la teora de la literatura, etc. Si los textos que componen uncorpus estn asociados a una documentacin detallada de sus rasgos externos: fecha, tema,regin, edad del autor, estatussocial, sexo, etc., stos pueden convertirse en fuente dedatos para aquellas personas interesadas en los aspectos de contenido textual los

8Sobre las aplicaciones de los corpus a la diacrona vanse, por ejemplo, los estudios reunidos en

Kyt et al.(eds.) (1994) o en Rissanen et al. (eds.) (1993).9Para un tratamiento ms detallado de los usos de los corpus en la lingstica computacional vase el

captulo 5 de McEnery y Wilson (1996); trabajos ms especficos pueden encontrarse en Souter yAtwell (eds.) (1993).10

Vase, por ejemplo, Knowles (1990) o Mindt (1996).


6/34


6

historiadores, por ejemplo, pueden seguir la evolucin de opiniones e ideas mediante el

estudio de palabras o frases asociadas a ellas.En la sociolingstica, aunque usando parmetros diferentes de los utilizados por loshistoriadores, tambin se pueden obtener de los corpus datos de gran utilidad; al contrarioque a los estudiosos de la historia, a los sociolingistas no les interesa tanto el tema deltexto o el nombre del autor como la clase social, el sexo o el nivel cultural del receptor.Estrechamente relacionada con el uso de corpus en la sociolingstica est la utilizacin delos mismos como base de estudios dedicados a la diferenciacin entre registros o estilos -

por ejemplo entre la lengua escrita y la oral o entre diversos gneros como lacorrespondencia privada, el discurso jurdico, poltico, publicitario o religioso, incluyendoincluso trabajos sobre las caractersticas de los mensajes de correo electrnico - asociados

a variaciones en la situacin de comunicacin y a dimensiones como el grado deformalidad, el carcter pblico o privado, etc11

. Estos trabajos entroncan directamente conlos realizados desde la perspectiva del anlisis del discurso, encaminados a establecertipologas textuales.

La psicolingstica puede tambin verse beneficiada por el uso de corpus, especialmenteen campos como el anlisis de los errores de produccin del habla o el desarrollo dellenguaje infantil

12. El anlisis de las patologas del lenguaje y del habla requiere

igualmente colecciones sistemticas de muestras recogidas de personas que presentantranstornos de la comunicacin.

Tambin los estudiosos de la literatura pueden tener en los corpus una buena

herramienta para sus investigaciones. En el campo de la estilstica, por ejemplo, los corpuspueden ayudar a definir los trazos que caracterizan distintos estilos literarios o, en elterreno de la estilometra, los anlisis estadsticos del uso de las palabras en los textos

pueden dar luz a problemas de adscripcin de trabajos de dudosa autora.

2. QU ES UN CORPUS LINGSTICO (INFORMATIZADO)?

Durante los ltimos aos ha habido, tanto en Amrica como en Europa y Japn, un grancrecimiento del inters en la creacin y explotacin de corpus lingsticos como parte de la

infraestructura para el desarrollo de aplicaciones encaminadas al procesamiento dellenguaje. El tratamiento estadstico de los datos que facilitan los corpus ha demostrado sereficaz para encontrar la solucin a algunos problemas tradicionales de la lingsticacomputacional, de la traduccin automtica, etc. El auge que ha tomado esta disciplina hahecho que actualmente en casi todos los centros de investigaciones lingsticas se esttrabajando en la confeccin de algn tipo de corpus.

Pero, qu es un corpus? Entendemos todos lo mismo cuando hablamos de corpus?

11

Una revisin de los trabajos sobre registro en esta lnea puede encontrarse en Atkinson y Biber

(1994). Se enmarcan tambin en esta perspectiva Biber y Finegan (1991) o Biber (1990).12En este campo es especialmente relevante el proyecto CHILDES (MacWhinney, 1991) sobre el cualpuede obtenerse ms informacin en .
http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdfhttp://poppy.psy.cmu.edu/childes/childes.html%3E.http://poppy.psy.cmu.edu/childes/childes.html%3E.http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf


7/34


7

Segn J. Sinclair, uno de los grandes especialistas en el campo de los corpus modernos,

un corpuses:A collection of pieces of language that are selected and ordered according to explicitlinguistic criteria in order to be used as a sample of the language (Sinclair, 1994:4)

13.

Segn esta definicin la informtica no tiene que ver con el concepto de corpus, y, dehecho, as es. Pero hoy en da la informtica facilita tanto la organizacin y la explotacinde grandes cantidades de datos que sera impensable crear un corpus prescindiendo de estemedio o herramienta. Por esto, hoy ms que hablar de corpushay que hablar de corpusinformatizadosya que son dos conceptos ntimamente ligados.

As, segn el mismo J. Sinclair, un corpus lingstico informatizadoes:

... a corpus which is encoded in a standardised and homogenous way for open-endedretrieval tasks. Its constituent pieces of language are documented as to their origins and

provenance (Sinclair, 1996:4)14

.

2.1. COLECCIONES DE TEXTOS

En el campo de la lingstica, la palabra corpus es una palabra algo ambigua y queactualmente se utiliza en un sentido general para referirse a cualquier tipo de recopilacinde textos. En realidad, para ser ms exactos, en el mbito de la recopilacin de textos hay

que distinguir, segn el grado de especificacin en los criterios de seleccin, al menosentre tres tipos diferentes de recopilaciones:

Archivo/coleccin (informatizado)(Archive/Collection).- Es un repertorio detextos en soporte informtico sin buscar ningn tipo de relacin entre ellos.

Biblioteca de Textos Electrnicos(Electronic text library).- Es una coleccin detextos en soporte informtico, guardados en un formato estndar, siguiendo ciertasnormas de contenido, pero sin un criterio riguroso de seleccin.

Corpus Informatizado (Computer corpus).- Es una recopilacin de textosseleccionados segn criterios lingsticos, codificados de modo estndar y

homogneo, con la finalidad de poder ser tratados mediante procesos informticosy destinados a reflejar el comportamiento de una o ms lenguas.

Los dos primeros tipos de recopilaciones no implican una seleccin o una ordenacinhecha siguiendo criterios lingsticos, mientras que los corpus s. Estos criterioslingsticos pueden ser a) externos o b) internos (Sinclair, 1996:5).

13

(Los subrayados son nuestros).14

(Los subrayados son nuestros).


8/34


8

a) son externos cuando hacen referencia a datos de los autores, a los medios de

transmisin utilizados, al nivel social de los participantes, a la funcincomunicativa de los textos, etc.b) son internos, cuando hacen referencia a patrones lingsticos presentes en los

textos. (Sinclair, 1996:4)

2.2. NIVELES EN LOS CORPUS

En una seleccin de textos destinada a constituir un corpus propiamente dicho podemosencontrar diferentes niveles: corpus, subcorpus y componentes.

Corpus.- Un corpus es un conjunto homogneo de muestras de lengua decualquier tipo (orales, escritos, literarios, coloquiales, etc.) los cuales se tomancomo modelo de un estado o nivel de lengua predeterminado. El conjunto deenunciados incluidos en un corpus, una vez analizados, debe permitir mejorar elconocimiento de las estructuras lingsticas de la lengua que representan.

Subcorpus.- Suele ser una seleccin esttica de textos, derivada de un corpusnormalmente ms general y complejo, el cual est dividido en grupos de muestrastextuales ms especficas; pero tambin puede ser una seleccin dinmica detextos de un corpus en crecimiento: un nmero determinado de textos destinados a

aumentar algn apartado de un corpus general. Componente.- Es una coleccin de muestras de un corpus o de un subcorpus, las

cuales responden a un criterio lingstico especfico muy concreto. Loscomponentes reflejan un tipo determinado de lengua. Sobre todo los corpus, perotambin los subcorpus, son muy heterogneos, mientras que los componentes sonmuy homogneos.

2.3 C ORPUS TEXTUALES Y CORPUS ORALES

Llegados a este punto, parece conveniente detenerse brevemente en la distincin entre losllamados corpus textuales y los corpus orales. Mientras que en el caso de los primeroses claro que constituyen muestras de la lengua escrita, los segundos pueden consistir tantoen transcripciones ortogrficas de la lengua hablada como en grabaciones acompaadas dela correspondiente transcripcin. La procedencia de las grabaciones suele ser muy diversa:desde las que se realizan en laboratorios de fontica con materiales altamente controladoshasta las obtenidas en entrevistas espontneas o las recogidas de los medios decomunicacin, incluyendo tambin las interacciones ficticias usadas en el diseo de lossistemas de dilogo persona-mquina.

Mientras que en el campo de la lingstica de corpus existe una tendencia a considerar

como corpus orales (spoken corpora) las transcripciones ortogrficas del habla, tanto enfontica como en tecnologas del habla difcilmente se concibe un corpus que no vaya


9/34


9

acompaado del correspondiente registro sonoro en formato digital (speech corpus). Sin

embargo, la necesidad de obtener modelos estadsticos de la lengua en el desarrollo desistemas de reconocimiento pensados para aplicaciones como el dictado automtico hallevado a un uso cada vez ms frecuente de los corpus textuales y de las transcripciones delregistro oral espontneo en este mbito. Por otro lado, el inters por los aspectos

prosdicos del discurso y la conversacin hace que desde la lingstica de corpustradicional surja la necesidad de disponer de grabaciones sincronizadas temporalmente conla transcripcin, sea sta ortogrfica, fontica o fonolgica.

En el presente captulo, utilizaremos corpus oral para referirnos a todo tipo demateriales, tanto transcripciones como grabaciones, en los que se recoge la lenguahablada

15. Nos referiremos tambin a textos como elementos integrantes de un corpus,

tanto si constituyen material originariamente escrito como si provienen de transcripcionesde la lengua oral.

3. CLASIFICACIN DE LOS CORPUS

3.1. CRITERIOS GENERALES PARA LA CLASIFICACIN DE LOS CORPUS

Los diferentes tipos de corpus se pueden clasificar de diferentes maneras en funcin de losparmetros que se quieran utilizar: 3.1.1. segn el porcentaje y la distribucin de losdiferentes tipos de textos que lo componen; 3.1.2. segn la especificidad de los textos quelo componen; 3.1.3 segn la cantidad de texto que se recoge en cada documento; 3.1.4.segn la codificacin y las anotaciones aadidas a los textos; 3.1.5. segn ladocumentacin que le acompae.

En principio, un corpus bien estructurado ha de responder, aunque sea por defecto, aalgn parmetro de cada uno de estos grupos. Veamos ahora con ms detalle en quconsisten los criterios mencionados.

3.1.1. Segn el porcentaje y la distribucin de los diferentes tipos de texto

Los corpus pueden clasificarse segn la distribucin y el porcentaje escogido de losdiferentes tipos de texto que lo componen. Segn estos parmetros tenemos:

1. Corpus grande.- Corpus que no se plantea el lmite del volumen de textos que ha derecoger o que, si se lo plantea, lo cuantifica en un nmero de palabras muy elevado sintener en cuenta cuestiones de equilibrio, de representatividad, etc.Esta caracterstica es, en muchos casos, ambigua, ya que se habla de corpus grandes

pero sin precisar las dimensiones en nmero de unidades lxicas que un corpus ha detener para ser considerado como tal. El valor por defecto de los diferentes tipos de

15 Una elaboracin ms detallada de la distincin entre speech corporay spoken corpora puede

encontrarse en Llisterri (1996b).


10/34


10

corpus en cuanto a su extensin es grande por oposicin a corpus cuantitativamente

ms pequeos como pueden ser los corpus monitor, los corpus piramidales, etc., loscuales, a pesar de que tambin pueden ser muy extensos, tienen que tener controlado elvolumen de cada tipo de textos que los componen. De todos modos, el volumen de loscorpus crece constantemente, sobre todo gracias a las facilidades informticas para surecopilacin, manipulacin y explotacin, por lo que el trmino corpus grande se hade entender ms en el sentido de opuesto a otros tipos de corpus voluntariamentedelimitados en su extensin que en un sentido de cantidad.

2. Corpus equilibrado.- Corpus que contiene diferentes variedades de textos distribuidoscuantitativamente en proporciones parecidas para cada variedad.

3. Corpus piramidal.-Corpus en que sus componentes, o sea sus textos, estn distribuidos

en diversos estratos o niveles: un primer estrato que recoge pocas variedades temticaspero con muchos textos en cada variedad; un segundo estrato que recoge mayorvariedad de textos pero menos cantidad en cada una de ellas; un tercer estratocompuesto por muchas variedades pero con pocos textos en cada variedad; y as hastaun nmero de estratos opcional.

4. Corpus monitor.-Este tipo de corpus es consecuencia de la gran cantidad de palabrasque ltimamente estn incluyendo los corpus. Las grandes dimensiones de los corpushacen que sean difciles de controlar y de explotar. Para evitarlo, los corpus monitorquieren tener un volumen textual constante pero en continua actualizacin. El conjuntode textos que lo componen se va renovando cada cierto tiempo de manera que siempre

se van incluyendo nuevos textos al mismo tiempo que se van excluyendo otros,consiguiendo de este modo un corpus vivo y dinmico como lo es la propia lengua.

Normalmente la inclusin y exclusin de textos se hace siguiendo pautas temporales (seincluyen textos del ltimo ao y se excluyen los del primero) y conservandodebidamente ordenados los textos que se van excluyendo, de manera que podemosllegar a tener un buen material para construir un corpus diacrnico, ya que podremosdisponer de diversos grupos de textos con ms o menos las mismas proporciones y lasmismas caractersticas pero representantes de momentos sucesivos de la lengua. De estemodo se pueden establecer las frecuencias de distribucin de las palabras en diversasetapas cronolgicas, identificar neologismos, palabras que entran en desuso, nuevas

acepciones de palabras ya existentes, etc.A lo largo del tiempo, la distribucin de los distintos grupos y componentes de uncorpus monitor va cambiando porque siempre van apareciendo nuevos temas y nuevasfuentes, por lo que las distintas proporciones se han de ir ajustando para poder reflejarmejor la realidad lingstica de cada momento.

5 Corpus paralelo.-Es una coleccin de textos traducidos a una o varias lenguas. El mssencillo es el que consta del original y su traduccin a otra lengua. La direccin de latraduccin no es necesario que sea constante, un corpus paralelo puede contener tantotextos traducidos de la lengua A a la lengua B como textos traducidos de la lengua B ala lengua A. Este tipo de corpus es de gran utilidad sobre todo en el campo de la

traduccin, y principalmente de la traduccin automtica, ya que los programas suelentrabajar con datos probabilsticos que slo pueden obtenerse a partir de los corpus.


11/34


11

6. Corpus comparables.- Son corpus que seleccionan textos parecidos en cuanto a sus

caractersticas en ms de una lengua o en ms de una variedad. Una de las principalesfinalidades de este tipo de corpus es poder comparar el comportamiento de diferenteslenguas o de diferentes variedades de una lengua en circunstancias de comunicacin

parecidas pero evitando las inevitables distorsiones lingsticas introducidas en lastraducciones recogidas en los corpus paralelos.

7. Corpus multilinges.- J. Sinclair sugiere que cuando se recopilan textos de diferenteslenguas sin que sean traducciones unos de otros y sin compartir criterios de seleccin,como lo hacen los textos que componen un corpus comparable, habra que hablarse decorpus multilinges.

8. Corpus oportunista.- Corpus que recoge textos que encuentra disponibles sin seguir

ningn criterio de seleccin. Esto normalmente est motivado por la poca disponibilidadde textos en soporte electrnico (aun que cada vez se pueden encontrar en mayorcantidad) y por el elevado nmero de palabras necesarias para poder realizar muchostrabajos de investigacin y la falta de recursos para obtenerlas. En realidad, de acuerdocon lo dicho en el apartado anterior, en este caso no se debera hablar de CorpusOportonista sino que se debera hablar de Archivo de Textos Informatizado o de

Biblioteca de Textos Electrnicos.

3.1.2. Segn la especificidad de los textos

Otra clasificacin que se puede hacer de los corpus es en funcin de la especificidad de lostextos que lo componen. Atendiendo a este parmetro podemos definir cuatro tipos:

1. Corpusgeneral.-Corpus que, al pretender reflejar la lengua comn en su mbito msamplio, se interesa por recoger cuantos ms tipos de gneros mejor. Este tipo de corpuses til para describir la lengua comn de una colectividad, el lenguaje que utilizan loshablantese en situaciones comunicativas normales.

2. Corpusespecializado.- Se opone al corpus general. El corpus especializado recogetextos que puedan aportar datos para la descripcin de un tipo particular de lengua. Elcorpus especializado es diferente al corpus que contempla una o ms variedades de la

lengua general (subcorpus); un corpus que recoja conversaciones de la calle no es uncorpus especializado, como tampoco lo es uno que recoja el lenguaje de los peridicos;s que lo sera, por ejemplo, un corpus que solo recogiera textos poticos.

3. Corpusgenrico.- Corpus condicionado por el gnero de los textos que contiene,interesndose solo por algunos de ellos; por ejemplo, una recopilacin de textos derevistas cientficas especializadas o la seleccin de textos poticos.

4. Corpuscannico.- Corpus formado por todos los textos que configuran lo obracompleta de un autor, independientemente de los gneros.

5. Corpusperidicoocronolgico.- Corpus que recoge textos de unos aos determinadoso de unas pocas concretas.

6. Corpus diacrnico.- Corpus que incluye textos de diferentes etapas temporalessucesivas en el tiempo con el fin de poder observar evoluciones en la lengua.


12/34


12

3.1.3. Segn la cantidad de texto que se recoge de cada documento

Tambin se pueden clasificar los corpus segn la cantidad de texto que se escoja de cadadocumento para cada muestra. Atendiendo a este criterio los corpus se pueden dividir en:

1. Corpus textual (Whole text corpus).- Corpus que recoge ntegramente todos los textosde los documentos que lo constituyen. Se entiende como textos enteros las series defrases y/o prrafos coherentes, homogneos estilsticamente y completos en s mismos.Las novelas, por ejemplo, son un prototipo de texto que cumple estos requisitos, perohay otros tipos de documentos que tambin se adaptan a esta definicin. Atkins y otros

consideran como un texto entero las recopilaciones de pequeos anuncios de peridicoo colecciones de poemas cortos de un mismo autor. A veces incluso todos los artculosde un peridico o de una revista se han considerado como un solo texto, aunque es msrazonable considerar como un solo texto los diversos artculos de una misma seccin(economa, deportes, editoriales, etc.) aparecidos en diversos nmeros de la misma

publicacin. El caso de los textos que aparecen en la seccin de cartas al director,textos que por su procedencia pueden ser muy interesantes, es un caso algo especial quelos editores del corpus debern considerar.

2. Corpus de referencia (Reference corpora).- Corpus formado por fragmentos de lostextos de los documentos que lo constituyen. En este caso no interesa tanto el texto en s

sino el nivel de lengua que representan. En este tipo de corpus son muy importantes losaspectos de equilibrio y representatividad en la seleccin de los fragmentos.

3. Corpus lxico (Samples corpus).- Corpus que recoge fragmentos de textos muypequeos y de longitud constante de cada documento. En este caso el inters de losdiseadores del corpus est en el lxico.

3.1.4. Segn la codificacin y la anotacin

Tambin se pueden clasificar los corpus atendiendo a las etiquetas descriptivas y analticasque se han usado en la codificacin de los textos. Segn estos criterios los corpus sern:

1. Corpus simple (ono codificado ni anotado).- Corpus que ha sido guardado en formatoneutro (ASCII, tambin llamado plain text), y sin codificacin para ninguno de susaspectos.

2. Corpus codificado o anotado- Corpus formado por textos a los cuales se les ha aadido,ya sea manual o automticamente, etiquetas declarativas de algunos elementosestructurales de los documentos (indicacin de ttulo, de principio de captulo, decambio de lengua, etc.) - codificacin- o etiquetas analticas de algunos aspectoslingsticos (indicacin de frase subordinada, de aspectos pragmticos, etc.). - anotacin


13/34


13

-16

De todos modos es importante que las etiquetas usadas para codificar y anotar los

textos sean siempre extratextuales, de manera que se puedan reconocer y, si esnecesario, eliminar fcilmente. Tambin es importante que se usen sistemas decodificacin estndares para asegurar la transportabilidad y reusabilidad de los textos.

17

3.1.5. Segn la documentacin que acompaa a los textos

Otra clasificacin que se puede hacer de los corpus es en funcin de si los textos que loscomponen estn documentados o no.

1. Corpus documentado.- Corpus en el que cada documento que lo compone lleva

asociado un archivo DTD (Document Type Definition) o una cabecera header dedescripcin de su filiacin y sus constituyentes.

18

2. Corpus no documentado.- Corpus en el que sus textos constituyentes no disponen deningn apartado o archivo relacionado donde se describan sus elementos o sufiliacin.

3.2. CRITERIOS ESPECFICOS PARA LA CLASIFICACIN DE LOS CORPUS ORALES

En el apartado anterior se han definido una serie de criterios generales que permiten

establecer distinciones genricas entre diferentes tipos de corpus. Sin embargo, laespecificidad de los corpus diseados con vistas al anlisis fontico o a las aplicaciones alas tecnologas del habla requiere establecer ciertos matices, que se abordan acontinuacin

19.

Podramos considerar tres tipos de corpus: los orientados a la descripcin fontica de lalengua (3.2.1), los que se utilizan para el desarrollo de sistemas en el mbito de lastecnologas del habla (3.2.2) y los que propiamente se conocen como corpus orales,consistentes en transcripciones ortogrficas de la lengua hablada (3.2.3.)

16

Sinclair (1996:8) opina que las etiquetas estructurales no son suficientemente importantes comopara considerar que un corpus es anotado si los textos que lo componen solo llevan este tipo deetiquetado.17

En este sentido debemos recomendar el uso del sistema propuesto por las llamadas Normas TEI.Guidelines for Electronic Text Encoding and Interchange (TEI P3)presentadas en Sperberg-McQueeny Burnard (eds.) (1994). Sobre la TEI, vase tambin Burnard (1995a) y Ide y Vronis (eds.) (1995).Puede encontrarse ms informacin en las siguientes URLs: (Text

Encoding Initiative Home Page), (TEI Guidelines for ElectronicText Encoding and Interchange P3). Vase tambien el captulo de Gerardo ARRARTE en este mismolibro sobre Normas y estndares para la codificacin de textos y para la ingeniera lingstica.18

Para informacin sobre DTD ver Sperberg-McQueen y Burnard (eds.) (1994) Para informacin

sobre cabeceras (header) ver Ide (coord.) (1996).19Para una presentacin general de los corpus y bases de datos orales en el mbito de la fontica y lastecnologas del habla vase Carr (1992), Lamel y Cole (1995) y Llisterri (1996c).
http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdfhttp://www-tei.uic.edu/orgs/tei/http://etext.virginia.edu/TEI.htmlhttp://etext.virginia.edu/TEI.htmlhttp://www-tei.uic.edu/orgs/tei/http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf


14/34


14

3.2.1. Corpus para la descripcin fontica de la lengua

Aunque no constituyan exactamente corpus en el sentido en que aqu los estamosdefiniendo, cabe considerar en este apartado los inventarios de sistemas fonticos yfonolgicos de la lenguas del mundo utilizados en el estudio de los universales, integradosen bases de datos que permiten el anlisis estadstico de la frecuencia de aparicin deunidades segmentales o de rasgos fonticos.

Sin embargo, los corpus para la descripcin fontica de la lengua consistentradicionalmente en materiales grabados en condiciones acsticas ptimas que permitan su

posterior anlisis experimental en el laboratorio. En estos casos solemos encontrar desdecombinaciones de segmentos hasta fragmentos de habla espontnea, pasando por frases

aisladas o por textos ledos. Lo que caracteriza a este tipo de corpus es un cuidadoso diseodel contenido, basado en el inventario de elementos segmentales y suprasegmentales de lalengua y un tamao relativamente reducido, debido a que no suelen realizarse grabacionescon un nmero muy elevado de hablantes. An as, cada vez es mayor la tendencia aincluir producciones espontneas y a utilizar grabaciones procedentes de los medios decomunicacin por la diversidad de registos que pueden conseguirse y la relativa facilidadde obtencin.

Es posible tambin disear un corpus con materiales equivalentes para varias lenguas,en el sentido de los corpus paralelos o comparables definidos en el apartado 3.1.1, con locual es posibles realizar estudios experimentales de fontica contrastiva. Estos mismos

materiales pueden ser grabados por hablantes no nativos, con objeto de determinar losmecanismos de interferencia fontica que operan en la adquisicin de segundas lenguas, opor hablantes con patologas del habla a efectos de analizar las desviaciones con respecto alos hablantes que no presentan estos problemas.

3.2.2. Corpus para el desarrollo de sistemas en el mbito de las tecnologas del habla

El desarrollo y la validacin de los sistemas de sntesis, reconocimiento y dilogo que hansurgido en el campo conocido como las tecnologas del habla ha hecho necesario laconstitucin de corpus de naturaleza muy especfica. En el caso de la creacin de sistemas

de conversin de texto a habla, es preciso disponer tanto de inventarios grabados deunidades de sntesis a partir de los cuales se realiza el paso de una representacinortogrfica a una onda sonora, como de corpus que permitan el anlisis de los elementossuprasegmentales para dotar al conversor de un modelo prosdico. Los sistemas dereconocimiento de habla requieren tambin corpus grabados con las unidades fonticas quese utilizars en el reconocimiento, y en algunos casos corpus con materiales especficoscomo por ejemplo nmeros de telfono o de tarjetas de crdito orientados a determinadasaplicaciones del reconocimiento a lo servicios telefnicos automticos. Ambas tecnologasnecesitan tambin disponer de corpus textuales, a ser posible transcripciones de lengua orallingsticamente anotadas, para establecer los modelos probabilsticos de aparicin de

palabras sobre los que se basa el tratamiento lingstico efectuado tanto en la sntesis comoen el reconocimiento.


15/34


15

Un caso particular lo constituyen los corpus de dilogo utilizados para desarrollar y

entrenar sistemas de interaccin entre personas y mquinas, enfocados a ofrecer serviciosautomticos a travs del telfono como la venta de billetes, la consulta de horrios detransportes pblicos o los servicios bancarios. En este caso, suelen utilizarse corpusgrabados y transcritos obtenidos mediante interacciones entre personas reales y unasimulacin del sistema de dilogo que se est construyendo, aunque tambin es til elanlisis de los dilogos naturales obtenidos en las situaciones comunicativas que se

pretende modelar. En el caso de sistemas que incorporan adems la traduccin automticadel habla, es imprescindible disponer de corpus orales paralelos en dos lenguas.

3.2.3. Transcripciones ortogrficas de lengua hablada

En la lingstica de corpus tradicional se ha trabajado habitualmente con transcripcionesortogrficas de la lengua hablada, procedentes de entrevistas realizadas especialmente parael corpus, de conversaciones espontneas o de los medios de comunicacin, incluyendosetambin otros materiales propios del registro oral como discursos polticos, clases,sermones, etc. Aunque el punto de partida sea una grabacin, una vez transcrito, el corpusse trata con los mismos procedimientos que un corpus textual, enmarcndose plenamenteen las caracterizaciones definidas en el apartado 3.1.

4. PRINCIPALES ASPECTOS EN EL DISEO DE UN CORPUS

Una vez delimitados los distintos tipos de corpus y sus aplicaciones, es el momento deentrar en la discusin de los principales aspectos que deben considerarse en el diseo de uncorpus

20. Al igual que en los apartados anteriores, nos centraremos primero en las

cuestiones generales, para introducir despus aquellas que son especficas de algunas reasde aplicacin de los corpus.

4.1. ASPECTOS GENERALES

4.1.1. Finalidad

El primer aspecto que hay que definir cuando se empieza a disear un corpus es lafinalidad concreta para la que tiene que servir, aunque, como ya se ha dicho, se deba

procurar que los recursos lingsticos sean siempre reutilizables. Este punto va acondicionar todos los dems, ya que es el que servir de base para tomar las decisiones entodos ellos.

20Sobre el diseo de corpus vase, por ejemplo, Atkins et al.(1992), Leitner (1992), y Alvar y Corpas

(1994) para el espaol.


16/34


16

4.1.2. Lmites del corpus

Una vez especificada la finalidad, se han de establecer bien claramente los lmitestemporales, geogrficos y/o lingsticos que el corpus va a tener. Para ello se debermarcar una fecha de inicio y otra de final y aclarar si las fechas se van a referir a la de losdocumentos originales o a la de las posibles copias transmisoras. Asimismo es necesariodefinir las lenguas que el corpus va a incluir y/o el rea geogrfica que abarcar.

Los lmites temporales estn muy condicionados al hecho de si el corpus es diacrnico ono. Pero incluso en el caso de los corpus sincrnicos

21 estos lmites pueden variar

substancialmente. En el corpus del espaol que se est recopilando en el Kings College deLondres se recogen textos posteriores a 1990, mientras que en el corpus del espaol

realizado por Alvar y otros en Biblograf se recogen textos publicados a partir de 1950. ElLongman Lancaster English Language Corpusrecoge textos posteriores al ao 1899, y elCorpus Textual Informatitzat de la Llengua CatalanadelInstitut dEstudis Catalansempieza la recoleccin de textos a partir de 1833, como fecha simblica del inicio de lapoca moderna en cuanto al uso literario de la lengua.

Los lmites geogrficos tambin pueden variar mucho entre un corpus y otro; y nosolamente los lmites geogrficos, sino tambin las distintas zonas territoriales que semarcan y los porcentajes de textos o palabras que se toman de cada zona. Para el espaol,

por ejemplo, el corpus del Kings College recoge un 25% de espaol de la Pennsula, un25% de espaol de Argentina y un 50% del espaol de las otras zonas de Amrica del Sur,

mientras que el corpus de Biblograf recoge el 60% de espaol peninsular, el 30% deespaol de Amrica del Sur y el 10% de espaol de otras zonas.Para el ingls, en el caso del corpus realizado en Birmingham dentro del proyecto

COBUILDse ha establecido que se va a recoger un 70% de ingls de las Islas Britnicas, un20% de ingls de Estados Unidos y un 5% de ingls de otras partes (Sinclair (ed.), 1987).En cambio, elLongman Lancaster English Language Corpus ha establecido que el 50% deingls ser de las Islas Britnicas, el 40% de ingls de Estados Unidos y el 10% restante deingls de otras reas geogrficas.

4.1.3. Tipo de corpus

Una vez establecidos la finalidad y los lmites hay que determinar el tipo de corpus que seva a realizar. Para ello ser necesario definir cada uno de los parmetros siguientes: a) el

porcentaje y la distribucin de los diferentes tipos de textos que lo componen; b) laespecificidad de los textos; c) la cantidad de texto que se tome de cada documento paraformar las muestras; d) la codificacin y las anotaciones que se le aaden; e) ladocumentacin que le acompae.

Cada uno de estos puntos se ha tratado ya en el apartado anterior, pero la eleccin mscontrovertida es la referente a la cantidad de texto que se debe tomar de cada documento

21

Aunque cualquir recopilacin de textos tiene que ser obligatoriamente diacrnica porque casi nuncados textos se han escrito en el mismo momento, cuando hablamos de corpus sincrnicos nos referimosa los que recogen muestras de la lengua de nuestro siglo.


17/34


17

Este punto ha sido bastante discutido y est ntimamente ligado a las posibilidades

econmicas, temporales y fsicas (hardware) que tenga cada proyecto. Los corpusactualmente en preparacin o los ya existentes adoptan diversos soluciones. Para el Corpusdel Castellano Contemporneoque se est preparando en el Kings Collegede Londres,

bajo la direccin del profesor Ife, la extensin media que se toma de cada texto es de70.000 palabras. El Longman/Lancaster English Language Corpusincluye fragmentos detextos de unas 40.000 palabras, ya que su inters principal es el de tener muchas fuentesdiferentes ms que textos completos. Por contra, el International Corpus of English, quedirige el profesor Greenbaum, solo recoge de cada documento fragmentos de 2.000

palabras, siguiendo el ejemplo del Brown Corpusy elLOB Corpus (Lancaster Oslo /Bergen). Por otro lado, tambin tenemos bastantes casos de proyectos que han decidido

confeccionar el corpus solo con textos enteros; el ejemplo ms conocido es el del COBUILD,actualmente con ms de 20.000.000 de palabras.John Sinclair, director del COBUILD, sintetitza su posicin respeto a la conveniencia de

trabajar con corpus de un tipo o de otro asumiendo que reuniendo textos enteros se evitanlos problemas de las posibles diferencias que pueden haber entre distintas partes de unmismo texto, evitando as los inconvenientes de la validacin de las muestras. Adems,continua Sinclair, si es necesario, siempre es posible extraer muestras de una determinadalongitud si se dispone de un corpus que recoja textos enteros. A corto plazo, elinconveniente de querer reunir un corpus textual es que con el mismo esfuerzo la coberturade diferentes tipos de textos no ser tan completa como la que puede proporcionar una

coleccin de pequeas muestras. Pero, a largo plazo, las ventajas de disponer de textosenteros son mayores.

Desde un punto de vista parecido, M. Alvar Ezquerra y sus colaboradores en el proyectoNERC (Network of European Reference Corpora) (Alvar y Villena (Coord.), 1994) ,recomendaron la inclusin de textos enteros para el corpus del espaol, ya queconsideraban que con los 20 millones de palabras propuestos como objetivo se podaabarcar un nmero importante de diferentes tipos de texto.

La inclusin de textos enteros en un corpus lo convierte en ms abierto y apto para elestudio de un amplio abanico de aspectos lingsticos. Adems, siempre es ms fcilrecortar un texto entero que aadir fragmentos a los textos para completarlos.

Por otro lado, para obtener un corpus equilibrado es ms fcil si se trabaja con corpus dereferencia, sobre todo a corto plazo. Segn Pierre Guiraud, una compilacin de 300.000

palabras no ofrece garantas de ser equilibrada si las muestras son mayores de 500 palabrasporque entonces aparecen pocas muestras (unas 600); tampoco la ofrece una compilacinde 5 millones de palabras si las muestras se hacen ms grandes de 2 o 3 mil palabras (unas2.000).

Hay tambin quien opina que los corpus de referencia son poco adecuados parainvestigaciones estilsticas, pragmticas, etc. porque las caractersticas discursivas de untexto se pierden cuando slo disponemos de pequeas partes. Las palabras y, sobre todo,las unidades fraseolgicas necesitan ser examinadas dentro de la totalidad del discurso para

poder comprender sus matices semnticos y pragmticos. Pero este es un argumento msbien en contra de los corpus lxicos porque las muestras de los corpus de referencia suelen


18/34


18

ser lo suficientemente largas como para que cada una contenga todo el sentido de las

palabras o de las frases. En el caso de los corpus lxicos lo que interesa es elfuncionamiento de las unidades lxicas dentro de las frases, pero no dentro del discurso.Sinclair opina que este tipo de corpus, por el hecho de estar compuesto por fragmentosmuy escogidos y todos de la misma longitud, ms que aportar imparcialidad lo que hace esdar una falsa idea de la realidad que quiere representar.

4.1.4. Proporciones de los diferentes grupos temticos del corpus

Este es un punto bastante difcil de definir ya que las posibilidades pueden ser muchas y nohay unos criterios objetivos a los que podamos recurrir. De todos modos, es obvio que la

definicin de los diversos tipos y de las proporciones que se deben atribuir a cada uno deellos es una cuestin en la que los socilogos culturales deben tener mucho que decir. Enlos corpusBrownyLOB,por ejemplo, los textos estn repartidos en 15 gneros, con una

pequea seleccin de textos elegida al azar en cada uno de ellos. El Longman LancasterEnglish Language Corpus est basado en muestras tericas escogidas sin seguir ningnmtodo estadstico. En este corpus se estableci recoger un 60% de textos informativos yun 40% de textos de creacin, proporcin extraida de las estadsticas de los libros msledos en las bibliotecas. Las proporciones dentro de los textos escritos se establecieron enel 80% de libros, el 13,3% de peridicos y el 6,7% de otros medios. Dentro de estos

porcentajes se establecieron, siguiendo el mismo sistema de obras ms ledas, 10 grupos

temticos:

1 Ciencias purasy naturales 6,0%2 Ciencias aplicadas 4,3%3 Ciencias sociales 14,1%4 Cuestiones mundiales 10,4%5 Comercio y finanzas 4,4%6 Artes 7,9%7 Creencias y pensamientos 4,7%8 Pasatiempos 5,7%

9 Ficcin 40,0%10 Poesa, teatro y humor 2,3%

Los distintos textos de cada grupo se seleccionaron utilizando el Whitakers Books inPrint. Se dejaron de lado las traducciones, los textos no escritos totalmente en lenguainglesa, diccionarios y obras de referencia, trabajos de menos de 64 pginas, librosdestinados a nios de menos de 11 aos, obras publicadas en pases de habla no inglesa ytrabajos en los que ms del 75% del texto no era alfabtico.


19/34


19

Una de las distribuciones ms complejas pero a la vez ms justificada es la que se hizo

para el corpus de Birmingham, la cual no detallamos aqu por cuestiones de espacio.

22

El corpus del espaol de Biblograf est distribuido en los siguientes grupos yproporciones:

1. no-ficcin 25%2. ficcin 35%3. peridicos 25%4. panfletos 2,5%5. cartas 2,5%6. otros 10%

Por su parte, el corpus de espaol del Kings College ha basado su criterio de seleccinen la ltima edicin de la Dewey classifications, clasificacin utilizada en la mayora de

bibliotecas de todo el mundo. Para los libros, la seleccin principal se hizo a partir de losms vendidos, de los ms recomendados en las universidades y de los sugeridos porexpertos de cada tema.

4.1.5. Poblacin y muestra

Como la finalidad de los corpus es la de describir el funcionamiento de la lengua a partirde una seleccin de textos lingsticos, en el momento de construir uno es necesario aplicar

los principios estadsticos de obtencin de muestras representativas de una poblacin23. Desafortunadamente, en algunas ocasiones es difcil poder aplicar las frmulas de

extraccin de muestras porque es muy complejo (a veces imposible) delimitar el total de lapoblacin y adems, en el caso de que sta pueda ser delimitada, siempre habr algunacaracterstica de la poblacin que no se habr tenido en cuenta o no estar representadaadecuadamente por las muestras. Otro factor que dificulta el muestreo en los corpus es elhecho de que no haya una unidad de la lengua evidente que se pueda usar para definir la

poblacin y las muestras, sino que a veces la unidad lingstica puede ser la palabra, otrasveces la frase, otras el texto, etc.

Asimismo, todas las muestras son, de algn modo, tendenciosas. Los usuarios de los

corpus tienen que estar evaluando continuamente los resultados obtenidos y, a la vista deellos, ir corrigiendo las muestras. En todo momento, los investigadores se tienen quecuestionar cmo fueron obtenidas las muestras y hasta qu punto pueden ser vlidas lasconclusiones que de ellas se han extrado.

Un corpus siempre est construido a base de muestras con la intencin de que de suobservacin se puedan extraer generalizaciones sobre la lengua; por eso, la relacin entre

22

Esta distribucin se puede encontrar en Appendix 1: An Analysis of the Written Data in theBirmingham Main and Reserve Corpora en Sinclair (ed.) (1987).23

La cuestin de la representatividad en el diseo de un corpus se trata, por ejemplo, en Biber (1993),Clear (1992) o de Haan (1992). En estos trabajos se abordan tambin algunas de las cuestionesdiscutidas en el apartado 4.1.4.


20/34


20

las muestras y la poblacin es tan importante. De todos modos, la recopilacin de una

muestra representativa del total de la lengua es imposible. En el caso de los corpus quequieran representar la lengua general, la primera decisin que hay que tomar es la de si lamuestra se va a escoger del lenguaje que se oye y lee (lenguaje de recepcin: pocos

productores pero muchos receptores), del lenguaje que se habla y escribe (lenguaje deproduccin: muchos productores con pocos receptores) o de ambos.

Cuanto ms alto sea el grado de especializacin de los diferentes grupos de la muestrams pequeos sern los problemas para seleccionar los textos que se deben incluir en cadauno de ellos.

El constructor de un corpus tiene que estar siempre muy atento a los aspectos deproduccin y recepcin de los textos y, a pesar de que los textos de mucha recepcin como

los artculos periodsticos, son de fcil obtencin, si se quiere que el corpus sea un reflejoreal del uso de la lengua de los hablantes es necesario hacer todo lo posible para quetambin incluya textos de registros difciles de obtener, como por ejemplo correspondencia

personal. Definir la poblacin en trminos del lenguaje receptivo representa asignar muchopeso a una pequea proporcin de escritores y de hablantes cuyo out putde la lengua esrecibido por una amplia audiencia a travs de los medios de comunicacin.

La produccin puede estar muy influenciada por la recepcin, pero solo la produccindefine la variedad de la lengua.

4.1.6. Nmero y longitud de los textos de la muestra

La seleccin de las partes de los textos de las que se van a extraer las muestras para uncorpus de referenciase puede hacer de tres maneras: a) al azar; b) dividiendo los textos entres partes de extensin parecida y extrayendo de cada una de ellas las muestras en nmeroy proporciones aproximadamente iguales; c) determinando la estructura externa de lostextos y decidiendo qu niveles estructurales se usarn para el muestreo (un nmerodeterminado de palabras o de frases de cada captulo, un nmero determinado de cadaapartado, un nmero determinado de cada prrafo, etc.).

Una vez establecidas las partes de los textos que se utilizarn para la extraccin de lasmuestras, hay que acordar qu muestras se tomarn y la longitud que stas deben tener.

Las muestras dentro de cada parte o seccin definida se pueden seleccionar o bienescogiendo un nmero determinado de palabras o de oraciones a partir del inicio de cadaseccin, o bien haciendo una seleccin aleatoria entre las diferentes oraciones o losdiferentes prrafos de cada seccin. Normalmente se intenta que las muestras empiecen yterminen en un punto o en un punto y a parte.

Una vez definidas las secciones que se van a utilizar en cada texto para la extraccin delas muestras, y establecido de dnde se tomaran las muestras dentro de cada seccin, esnecesario concretar el nmero de muestras y su longitud.

En el caso de los corpus de referencia, el nmero de palabras que se aconseja recoger decada texto vara mucho segn la finalidad y, sobre todo, las posibilidades tanto econmicas

como de equipamiento del proyecto. Se ha apuntado la conveniencia de recoger muestrasde entre 2.000 y 70.000 palabras. De todos modos, los nmeros y porcentajes que se han


21/34


21

sugerido para la composicin de muestras parecen bastante gratuitos, dado que ningn

autor los ha justificado.

4.1.7. Captura de los textos y etiquetado

La introduccin en el ordenador de los textos que tienen que configurar un corpus requieretiempo, y el tiempo significa un coste considerable que puede condicionar el volumen que

podr tener el resultado final. Los textos impresos en papel pueden ser introducidos en elordenador mediante un escner y un programa informtico de reconocimiento automticode caracteres (OCR: Optical Character Recognition). Con las mejoras que hanexperimentado ltimamente los aparatos y los programas OCRsobre todo al estar

conectados a diccionarios de correccin--, la conversin de texto impreso a texto enformato electrnico est siendo cada vez ms efectiva24. Alternativamente, el texto impreso

tambin puede ser informatizado de forma manual teclendolo directamente al ordenador,pero, est claro, que sta debe ser la ltima opcin, reservada solamente para lastranscripciones de cintas o para la recuperacin de textos impresos en muy mal estado o deformato complicado, dos casos en que el escner ofrece pocas garantas y requiere muchotrabajo de revisin.

De todos modos, para dar por bueno un texto que se ha introducido en el ordenadormediante un escner se recomienda:

1.- Escanear el texto dos veces y realizar un control del resultado por parte de dospersonas distintas.2.- Comparar automticamente los dos ficheros, comprobando con el original cada

punto de divergencia.3.- Realizar una lista de frecuencias para revisar sobre todo las unidades de una sola

aparicin (no es normal cometer varias veces el mismo error).4.- Efectuar una lectura de la ltima versin entre dos personas trabajando juntas.

A veces los textos se pueden obtener directamente en formato electrnico, ya seaporque otra persona los haba introducido para un uso propio ya sea porque

originariamente se haban hecho en este formato. Actualmente, a travs de Internet sepuede acceder a gran cantidad de textos digitalizados de todo tipo. Para la confeccin decorpus textuales son especialmente interesantes los peridicos y publicaciones a los queesta red da acceso. Este sistema de captura de textos elimina costes y posibilidades deerrores, siendo solamente necesario adaptar los archivos importados a los formatos usadosen el corpus.

Los textos ya digitalizados que forman un corpus debern ser marcados condeterminados cdigos - codificacin - para sealar sus elementos estructurales, paraespecificar las caractersticas de sus fuentes originales, para marcar determinadasinformaciones importantes para su explotacin, etc. El tema de la codificacin y etiquetado

24

Vase, por ejemplo, Belad (1995).


22/34


22

de los textos es importantsimo para facilitar la posterior explotacin del corpus y, por lo

tanto, este aspecto tiene un peso considerable en la planificacin y en los costes de cadaproyecto.Precisamente el alto coste que supone la codificacin y el etiquetado de los textos (ya

sea en trminos de tiempo o en trminos econmicos) ha impulsado la idea de definirestndares de codificacin y etiquetado para facilitar el intercambio y la reusabilidad de lostextos ya preparados. Actualmente hay un consenso creciente en que las marcas SGML(Standard Generalized Markup Language) proveen una base adecuada para un esquemaestndar y que la TEI (Text Encoding Initiative), basada precisamente en este sistema

25

proporciona un buen procedimiento para la codificacin de textos en formato electrnico;las propuestas desarrolladas por Ide (Coord.) (1996) en el marco de los proyectos

EAGLES (Expert Advisory Group on Language Engineering Standards) y MULTEXT(Multilingual Text Tools and Corpora) constituyen, sin duda, una aportacin importante enel mbito de la codificacin de corpus. En lo que se refiere a la anotacin lingsticamediante etiquetas que definan, por ejemplo, partes de la oracin, existe una mayordiversidad de sistemas, entre los que cabe destacar las recogidas en las Guidelines deEAGLES

26

. Esta anotacin puede, naturalmente, llevarse a cabo utilizando los mecanismospropios del SGML.

4.1.8. Procesamiento del corpus

El corpus por s solo no es suficiente para facilitar datos exhaustivos del comportamientodel lenguaje. Para poder aprovechar al mximo las informaciones que contiene esnecesario poder disponer de herramientas adecuadas para su procesamiento y para suexplotacin. En este sentido hay que decir que tan importante es el corpus como lasherramientas. Actualmente se trabaja en programas de gran complejidad destinados a lalingstica de corpus, as que ya se dispone de un buen nmero de ellos destinados a tareasmuy especficas

27. Entre los trabajos bsicos que deben facilitar los programas para

explotacin de corpus en el campo de la lingstica cabe destacar:

frecuencia de aparicin de palabras

ndices y concordancias lematizacin

25

Sperberg-McQueen y Burnard, (eds.) (1994).26

En el marco del proyecto EAGLES se ha propuesto un esquema para la anotacin morfosintcticade textos (Leech y Wilson, 1996) y unas orientaciones preliminares para la anotacin sintctica (Leechet al., 1996). En lo que se refiere al espaol, puede verse, por ejemplo, una propuesta de codificacinen SGML de la anotacin morfosintctica desarrollada para el Corpus de Referencia del EspaolActual (CREA) de la Real Academia Espaola en Pino y Santalla (1996).27

El apndice B de McEnery y Wilson (1996) ofrece informacin sobre estas herramientas, as comoel Natural Language Software Registry, que puede consultarse en . Algunas muestras de herramientas desarrolladas para el espaol se describen en losdiversos trabajos publicados en en Procesamiento del Lenguaje Natural, revista de la SociedadEspaola para el Procesamiento del Lenguaje Natural .
http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdfhttp://cl-www.dfki.unisb.de/cl/registry/http://cl-www.dfki.unisb.de/cl/registry/http://cl-www.dfki.unisb.de/cl/registry/http://cl-www.dfki.unisb.de/cl/registry/http://cl-www.dfki.unisb.de/cl/registry/http://cl-www.dfki.unisb.de/cl/registry/http://gplsi.ua.es/sepln/%3E.http://gplsi.ua.es/sepln/%3E.http://cl-www.dfki.unisb.de/cl/registry/http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf


23/34


23

anlisis morfolgico (tagging)

anlisis sintctico (parsing) desambiguacin semntica deteccin de unidades recurrentes (collocations)

4.1.9. Crecimiento del corpus y Feedback

Con la finalidad de tener un corpus equilibrado es conveniente adoptar un mtodo deaproximaciones sucesivas. Primero, en su preparacin hay que procurar conseguir uncorpus representativo; despus, al utilizarlo, hay que analizar los resultados y detectar sus

puntos dbiles respecto de la representatividad. A la vista de estos anlisis, se debe ir

reajustando las proporciones del corpus constantemente. Para ello es necesario colaborarconjuntamente con expertos en estadstica que aporten mtodos para mejorar el equilibriodel corpus y estar en constante contacto con los usuarios ya que ellos son los que mejordetectaran sus limitaciones.

4.1.10. Hardware y software

Un aspecto tambin muy importante que hay que tratar al disear un corpus es el de laestimacin de la infraestructura informtica, tanto en su componente de hardware(aparatos) como en el de softwar e (programas), que se va a necesitar para poderdesarrollarlo y explotarlo. Las necesidades de infraestructura dependern, como es lgico,de la extensin que deba tener el corpus, de los diferentes procesos que se deban realizar yde la naturaleza oral o textual de los materiales. Almacenar simplemente los textos de uncorpus es una tarea que necesita poco equipamiento y escasos programas, pero tenerlodispuesto para una fcil recuperacin de la informacin y para la realizacin de procesosde anlisis requiere ya ordenadores preparados (generalmente estaciones de trabajo) y

programas sofisticados, en algunos casos realizados ad hoc.

4.1.11. Aspectos legales

Uno de los problemas ms difciles de resolver, principalmente por su carcter nofilolgico ni cientfico, es el de los derechos de autor (copyright). Esta cuestin seconvierte en trascendental cuando se trata de corpus que usan fuentes literarias o

periodsticas y al que se quiere dar difusin para su explotacin. El problema se hace msdifcil por el hecho de que en muchos casos la legislacin no ofrece soluciones claras; hayalgunos pases, por ejemplo, que tienen un consenso para conceder ciertos privilegios a lasuniversidades. Tampoco est bien definida la normativa a que est sujeta la reproduccin yutilizacin de los textos periodsticos capturados a travs de Internet, o el lmite de

palabras seguidas que se pueden copiar para no incumplir la normativa de los derechos deautor.

Es necesario y justo proteger, mediante el copyright, los derechos de los autores y de laseditoriales sobre los textos que ellos han creado o publicado. Es necesario revisar y ampliar


24/34


24

la normativa actual como respuesta al rpido desarrollo de las tcnicas informticas de

captura de textos. Es probable que cualquier texto editado (o parte considerable de texto)que tenga que ser computerizado e incluido en un corpus est bajo esta ley y se necesitepedir autorizacin para su uso.

Las siguientes consideraciones son importantes al tratar de los derechos de autor y elcorpus:

El texto est protegido por la ley de los derechos de autor? La legislacinvara segn los pases pero por norma general la duracin de los derechos eslimitada.

La transcripcin de textos orales registrados de un medio de comunicacin

(radio, televisin) tambin est sujeta a esta normativa. La difusin de grabaciones que no proceden de los medios de comunicacin

requiere el permiso escrito de los hablantes, obtenido en general conposterioridad a la realizacin de las mismas para no restar espontaneidad alintercambio comunicativo. Es necesario tambin proteger la intimidad de las

personas, cambiando, por ejemplo, sus nombres por iniciales. Aunque se paguen pequeas cantidades por cada texto incluido en un corpus, si

el corpus es grande, los trabajos administrativos y el total que se debe pagarpueden ser considerables, de manera que solo algunas organizaciones conimportantes medios que se aseguren su explotacin podrn justificar los costes.

En el caso de la cesin desinteresada de los derechos, los propietarios de losderechos de autor tienen que tener la seguridad de que la compilacin delcorpus no ser inconveniente para el potencial de ganancias y de que no habrninguna explotacin comercial directa del corpus.

La posible explotacin y distribucin de un corpus tiene que estarcuidadosamente pactada con los propietarios de los derechos de autor de lostextos que lo componen.

Si el corpus se ha hecho con finalidades comerciales, tienen que constar lospropietarios de los derechos de autor.

4.1.12. Presupuesto y etapas

Una vez definidas todas las cuestiones mencionadas hasta este momento slo hace faltaestablecer las diferentes etapas en que se va a realizar el proyecto y cmo se va a llevar acabo su mantenimiento (en el caso de tratarse de un corpus abierto). Ello implica larealizacin de un presupuesto teniendo en cuenta tanto los costes del personal humanocomo los de los programas y ordenadores y dems aparatos, as como los de la adquisicinde los derechos de autor en el caso de que los textos utilizados as lo requieran.


25/34


25

4.2. ASPECTOS ESPECFICOS DE LOS CORPUS ORALES

El diseo y las distintas fases de elaboracin de corpus orales que incluyen grabaciones dela seal sonora tiene algunos aspectos especficos que, complementando los ms generalesdiscutidos en el apartado anterior, se exponen a continuacin. Es preciso tener en cuentaque en lo que se refiere especialmente a la creacin de corpus para las aplicaciones propiasde las tecnologas del habla se han desarrollado propuestas de estandarizacin para cadauna de las fases de la constitucin de un corpus en el marco de los proyectos europeosSAM (Speech Assessment Methodologies) y EAGLES (Expert Advisory Group on

Language Engineering Standards), que actualmente constituyen una referencia esencial enel momento de abordar este tipo de corpus

28.

4.2.1. Adquisicin de los datos

En los corpus orales a los que aludamos en el apartado 3.2. la adquisicin de los datosrequiere necesariamente la realizacin de grabaciones o, alternativamente, su obtencin atravs de la radio y la televisin o de archivos sonoros que se encuentren disponibles. Si elobjetivo del corpus es el anlisis de la lengua oral (cf.3.2.3), es suficiente con que lagrabacin tenga la calidad necesaria para permitir una transcripcin ortogrfica sindificultades. En cambio, si pretendemos realizar un trabajo experimental en fontica (cf.3.2.1.) o desarrollar los sistemas propios de las tecnologas del habla (cf.3.2.2), el materialsonoro debe reunir unas caractersticas especficas, para lo cual la grabacin deberealizarse en un entorno acstico controlado como una cabina insonorizada o anecoica y

por procedimientos digitales.Mencin aparte merecen los corpus para el estudio articulatorio del habla, que requieren

tcnicas ms complejas para recoger los movimientos del aparato fonador; tambindebemos referirnos a los diversos mtodos desarrollados para la obtencin de produccionesorales controladas que mantengan a la vez un cierto grado de espontaneidad, como porejemplo la denominada tarea del mapa (Anderson et al., 1991), o que permitan el anlisisfontico de los diversos estilos de habla (Pan et al., 1993). Igualmente constit

Documents

torruella_llisterri_99.pdf