Una clasificación de corpus lingüísticos informatizados

1

Una clasificación de corpus lingüísticos informatizados

Gerardo Sierra Martínez y Alejandro Rosas González

Grupo de Ingeniería Lingüística

Instituto de Ingeniería, Universidad Nacional Autónoma de México

{gsierram, arosasg} @ iingen.unam.mx

1. Lingüística de corpus

Uno de los objetivos de la lingüística de corpus es buscar la sistematización en el análisis y

en la construcción de corpus lingüísticos informatizados. Si revisamos algunos trabajos,

cuya finalidad es introducirnos en esta área, podemos encontrar que coinciden en iniciar

exponiendo una definición de corpus lingüístico, ya sea que se trate de una definición

citada de alguna fuente o de alguna propia. Inmediatamente después, para reforzar y

ampliar lo dicho en la definición, suele presentarse una tipología de corpus lingüísticos,

misma que nos guía a lo largo de todo el trabajo para que, en el inicio, aprendamos lo que

es un corpus bien construido y, al final, seamos capaces de diseñar y construir nuestro

propio corpus. Durante todo ese proceso, resulta muy útil tener presente la tipología y

clasificación que se nos presentó, ya que una correcta caracterización nos permite entender

mejor el concepto corpus. Además, una bien delimitada tipología resulta útil, incluso

necesaria, para delimitar parámetros en el diseño de nuevos corpus lingüísticos.

2. Razones para tener una clasificación de corpus

Existe unanimidad entre las diferentes posturas teóricas y prácticas cuando aseveran

que es necesario definir criterios de descripción y clasificación que resulten pertinentes

tanto en la elaboración de corpus como en el análisis de corpus existentes. Estos criterios

2

deben presentarse de forma estructurada, de tal forma que cada uno de ellos indique, de

manera clara y precisa, algún rasgo que nos resulte útil para distinguir un tipo de corpus de

otro. Al mismo tiempo, los criterios de clasificación deben ser elegidos de manera

cuidadosa para que sean inclusivos; de esa forma es posible clasificar el mayor número de

corpus posible. De hecho, pensamos que una de las metas que debe tener una clasificación

es poder describir y clasificar cualquiera que sea el objeto de estudio o análisis del que se

ocupa. Una clasificación que busque describir computadoras, por ejemplo, debe incluir

criterios que sean comunes a todas las máquinas de esa índole, tales como: fabricante,

modelo, color, tipo de procesador, capacidad de almacenamiento, etc. De la misma forma,

es posible definir criterios que sean comunes a todos los corpus lingüísticos; en específico,

a los corpus lingüísticos informatizados.

Las clasificaciones y tipologías que los diferentes teóricos de los corpus proponen

concuerdan en algunos criterios y difieren en otros. Además, las diferentes necesidades y

posturas de cada autor o grupo de autores con respecto a la construcción de corpus

lingüísticos hacen que las clasificaciones sean parciales y se enfoquen a la tipificación de

determinados tipos de corpus. Por ejemplo, Mc Enery y Wilson (1996) se enfocan a la

tipificación de corpus de lengua escrita, mientras que Toruella y Llisterri (1999), aunque

clasifican tanto corpus textuales como corpus orales, prestan particular atención a describir

los segundos. De ahí que sea necesaria una clasificación incluyente y clara.

3. Propuesta de Clasificación

El objetivo de este trabajo es proponer una clasificación de corpus lingüísticos

informatizados con la que sea posible clasificar cualquier corpus ya existente, pero, sobre

todo, queremos sentar bases sólidas que sirvan como guía para la construcción y

caracterización de nuevos corpus lingüísticos informatizados.

3

3.1. Criterios de Clasificación

Para la realización de este trabajo, revisamos la literatura que ha destacado en el área y que

ha propuesto diversas formas y criterios para clasificar los corpus. Comparamos y

evaluamos diversos criterios, retomamos los que nos parecen adecuados, especificamos

niveles de clasificación para los que nos parecieron incompletos y proponemos un nuevo

criterio.

En los diferentes estudios sobre corpus lingüísticos, los criterios más comunes y

recurrentes que se presentan son:

El origen de los componentes de corpus La codificación y anotación. La especificidad de los elementos La temporalidad El propósito El lenguaje La cantidad de texto La distribución de los elementos La documentación

Otros criterios menos comunes, pero presentes son:

Su accesibilidad Su Autoría Su representatividad

Por último, un criterio que no se presenta explícitamente, pero que aparece entre

líneas en la literatura existente sobre el tema es la espontaneidad con la que hablaron o

escribieron los informantes en el corpus. Explicaremos este punto más adelante. En total,

hablamos de trece criterios que deben tomarse en cuenta para clasificar corpus lingüísticos

informatizados. A continuación describimos y explicamos cada uno de ellos

3.1.1. El origen de los elementos del corpus

4

Según el origen de sus elementos, se puede hablar de dos diferentes tipos de corpus;

corpus textuales y corpus orales. Los corpus textuales están formados por muestras

escritas de la lengua, mientras que en el caso de los corpus orales, Toruella y Llisterri

(1999: 8-9) hacen la aclaración de que pueden estar formados por grabaciones o por

transcripciones del habla, es decir que pueden dividirse en orales sonoros, que están

formados por grabaciones, y orales transcritos que contienen transcripciones de lengua

oral y pueden incluir marcas directas de oralidad o señalamientos sobre la misma. De esta

forma, la clasificación por este criterio queda así:

Origen de los TextosCorpus Orales

Corpus oral sonoro

Corpus oral transcrito

Corpus Textuales

3.1.2. Espontaneidad

El primer criterio de clasificación deja algunas dudas. Sabemos que un corpus oral se

compone de grabaciones o de transcripciones del habla, mientras que un corpus textual

consta de elementos en lengua escrita. Esta impresión no es errónea, pero es limitada. ¿Qué

sucede cuando tenemos la grabación de una muestra de lengua que, en sus orígenes, estuvo

en forma escrita? ¿Se trata entonces de un corpus oral? O ¿Qué si tenemos una trascripción

de habla que, originalmente fue una conversación espontánea entre dos personas? ¿Se trata,

entonces, de un corpus textual? Sabemos que es necesario delimitar si un corpus es oral o

textual, pero no se trata de una tarea fácil, dados los problemas de ambigüedad que se

presentan. Como solución, proponemos tomar un corpus con grabaciones de lecturas en voz

alta, como un corpus oral y especificar que se trata de una muestra premeditada Por otro

lado, si tenemos la transcripción de una conversación, lo que tenemos es texto y debe ser

5

clasificado como un corpus textual, pero debe aclararse que se trata de una producción no

premeditada de la lengua. “Como Joaquim Llisterri y otros autores han señalado en alguna

ocasión, dentro de los corpus orales conviene diferenciar los que suponen “transcripciones

de producciones lingüísticas más o menos espontáneas” de los que “ofrecen materiales

mucho más controlados” (González Salgado, 2005). Esta aseveración debe aplicarse

también a los corpus textuales, por eso proponemos que la espontaneidad del hablante o

informante en cuestión se tome como un criterio más de clasificación.

EspontaneidadPremeditado

No Premeditado

De tal forma, un corpus lingüístico informatizado constituido por conversaciones

espontáneas (por ejemplo las realizadas a través de un chat o de un programa de mensajería

instantánea) será un corpus textual no premeditado; por otro lado, un corpus que

contenga grabaciones de lengua que, en origen, estuvo escrita (por ejemplo discursos,

cuentos, declaraciones públicas, etc.) será un corpus oral premeditado; de esa forma, la

descripción del corpus según su modo u origen se vincula con su clasificación por

espontaneidad y, así, su tipificación se clarifica.

3.1.3. Codificación y anotación

3.1.3.1. Corpus Simple y Corpus codificado o anotado

Los corpus pueden estar anotados o no anotados (Mc Enery & Wilson, 2001: 32). En

nuestra clasificación utilizamos los términos corpus simple y corpus codificado o anotado

para el primer nivel de clasificación. El corpus simple es, en el caso de los corpus textuales

y de los orales transcritos, el que ha sido guardado en un formato ASCII y no tiene una

codificacion especial, mientras que el corpus codificado o anotado es aquel que está

formado por elementos de la lengua a los cuales se ha añadido, electrónica o manualmente,

6

etiquetas para reconocer algunos de sus elementos o para facilitar su análisis y

procesamiento. Al ser una muestra de la lengua, los corpus pueden utilizarse para analizar

cualquiera de los niveles de ésta. Así, resulta conveniente delimitar el segundo nivel de

clasificación por este criterio a partir de los niveles de la lengua:

Codificación y

Anotación

SimpleSin codificación

Diversos formatos

Codificado o

Anotado

Textual

Estructura Textual

Tipología Textual

Ortográfica

Morfológica

Lematización

POS Tagging

Sintáctica Chunking

Parsing

Semántica

Características Semánticas

Ontológica

Relaciones Semánticas

Fónica

Fonética

Fonológica

Prosódica

Discursiva Anafórica y Referencial

Pragmática

Como podemos ver en la tabla, el segundo nivel de clasificación toma el nombre de

los niveles básicos del lenguaje. Para cada nivel hemos incluido el tipo de anotación más

común. En el caso de la anotación textual tenemos tres tipos de anotación; la de estructura

textual, la de tipología textual y la ortográfica.

3.1.3.2 Anotación por estructura textual

7

La anotación por estructura textual se refiere al marcaje de estructuras determinadas por

el usuario para el procesamiento del corpus o para ubicarse dentro de él:

“Un texto, un documento para SGML no es una secuencia indiferenciada de datos. Según los propósitos, éste se puede dividir en unidades de diferentes tipos o tamaños. Un texto en prosa puede dividirse en secciones, capítulos, párrafos y oraciones. Un texto en verso puede dividirse en cantos, estrofas y versos. Una vez impresas, las secuencias de prosa y verso pueden dividirse en volúmenes, colecciones y páginas. Dichas unidades son usadas frecuentemente para expresar localizaciones específicas o puntos de referencia dentro del texto ("la segunda oración del segundo párrafo del capítulo tres", por ejemplo), pero también pueden usarse para subdividir un texto en fragmentos de significado con propósitos analíticos ("la longitud media de oración de la sección primera, ¿es diferente de la longitud media de oración de la sección quinta?").” (Martín de Santa Olalla Sánchez, 1999)

Además, los elementos del corpus pueden etiquetarse por su la tipología textual; ésta

puede ser: artículo de revista, tesis, informe académico, poesía, novela, cuento, etc. En caso

de requerir este nivel de clasificación, el usuario del corpus debe definir las tipologías

textuales que utilizará y marcará, de acuerdo con sus objetivos. El tercer nivel de este

criterio es la anotación ortográfica que es el tipo de anotación más común en corpus

orales y consiste en asociar escritura común (ortográfica) a los elementos de un corpus.

3.1.3.3 Anotación morfológica, morfosintáctica y sintáctica

a) Anotación morfológica

Según Martín de Santa Olalla (1999), es necesario aclarar que lo estrictamente morfológico

es la identificación de rasgos como género, número, persona, modo. Estos rasgos tienen la

característica de manifestarse, en las palabras del español, por medio de formas, cuya

identificación es posible con métodos automáticos. Un ejemplo de estos métodos , y el tipo

de etiquetado de este nivel es la lematización, es decir el “proceso de eliminación

automática de partes no esenciales de los términos (sufijos, prefijos) para reducirlos a su

parte esencial (lema) y facilitar la eficacia de la indización y la consiguiente recuperación”

(Gómez Díaz, 2005: 175). Este proceso resulta en un tipo de marcaje, pues un corpus

8

lematizado contiene la reducción de sus palabras a “la forma constituida por su propio

lexema, esto es, a su forma canónica o a la que aparece normalmente como entrada en un

diccionario. Por ejemplo, la forma ser es la forma canónica que se convierte en etiqueta y

se asocia a las flexiones soy, eres, fuiste, serás; en tanto, la forma canónica tigre se asocia a

los sustantivos tigresa y tigres” (Sierra Martínez, 2003).

b) Anotación morfosintáctica

La anotación morfosintáctica se refiere al marcaje de la categoría gramatical de las

palabras en un corpus. En este caso y para nuestros fines, llamaremos a estas categorías

partes de la oración. El etiquetado de estas partes se conoce como Part of speech tagging;

POST, por sus siglas en inglés. Un ejemplo de etiquetado POS es:

La/AFS pérdida/NFS de/P l/AMS cromosoma/NMS 20/X es/V3S lo/ANS

más/D frecuente/J

Palabra Etiqueta Significado de la etiqueta

La /AFS (artículo, femenino, singular)

pérdida /NFS

(nombre o sustantivo, femenino, singular

)

de /P (preposición)

l /AMS (artículo, masculino, singular (el))

cromosoma /NMS

(nombre o sustantivo, masculino,

singular)

20 /X (número)

es /V3S (verbo, tercera persona, singular )

lo /ANS (artículo, neutro, singular)

más /D (adverbio)

frecuente /J (adjetivo)

Este es el tipo de anotación más común que suele añadirse a los corpus y “es

fundamental para poder hacer más precisas las búsquedas, puesto que nos permitirán, por

9

ejemplo, seleccionar los usos nominales o verbales de un lema y es también un requisito

básico para otros tipos de codificación más sofisticados” (Pérez Hernández, 2002).

c) Anotación sintáctica

Comunmente, el paso que sigue al marcaje de partes de la oración es la anotación

sintáctica. Este proceso consiste en encontrar las relaciones sintácticas entre dichas partes,

lo que constituye el análisis de la oración o parsing.

El proceso de parsing tiene dos etapas; el parsing parcial o chunking y el parsing

total. El chunking es un análisis de constituyentes sintácticos básicos; puede entenderse

como “romper el texto en pedazos”. En este caso se hace uso de patrones de etiquetas para

construir reglas; por ejemplo: Sintagma Nominal = (Art) (Sust), es decir:

la/AFS(Art) + pérdida/NFS(Sust)= Sintagma Nominal [la pérdida]

(Chunk: Sintagma Nominal)

Por su parte, el parsing total es un proceso que resulta en el “etiquetado sintáctico y

consiste en un análisis completo de constituyentes de la oración y sus relaciones sintácticas,

siguiendo las reglas de una gramática” (Sierra, 2003). Como resultado de ese análisis se

obtiene un árbol sintáctico o su representación mediante paréntesis categorizados:

[O [SN El_Art hombre_Sust SN] [SV vio_Vb [SP a_Prep [SN la_Art nena_Sust SN] SP] [SP en_Prep [SN el_Art parque_Sust SN] SP] [SP con_Prep [SN el_Art telescopio_Sust SN] SP] SV] O]

3.1.3.4 Anotación semántica

En este caso es prudente aclarar que no existen estándares de anotación semántica

establecidos. El tipo de marcaje es definido por los usuarios del corpus, de acuerdo con los

objetivos de la investigación que se realice. A pesar de lo anterior, si se toman en cuenta

10

características muy generales de los diferentes tipos de anotación semántica existentes es

posible ubicarlos en tres grandes grupos, según lo insinúan Kiryakov et al. (2003):

a) La anotación de características semánticas, según Mc Enery & Wilson,

(2001), se puede anotar las características semánticas de una palabra, entendiéndo

esas características como los significados de las palabras. También se puede

agregar a las palabras del corpus identificadores de entidades para que pueden ser

distinguidas de acuerdo con sus características semánticas, por ejemplo tenemos

la anotación de predicados en la que el verbo agacharse se puede asociar con el

marco semántico general de movimiento y al escenario conceptual de cambio de

postura. (Donés Rojas & Ortíz Rodríguez, 2006)

b) La anotación de relaciones semánticas se refiere al marcaje de relaciones

léxico-semáticas que se pueden establecer entre elementos del corpus y que van

desde la sinonimia, hiperonimia, meronimia, etc. hasta las relaciones de

elementos relacionables del texto tales como: agentes, pacientes y participantes

de acciones concretas (Mc Enery & Wilson, 2001).

c) La anotación ontológica es de suma importancia para los estudios en materia de

anotación semántica de documentos de la web. En este tipo me marcaje se utilizan

tanto las características como las relaciones semánticas de las palabras. La

novedad radica en que es posible hacer referencias a esas características y

relaciones por medio de metainformación o metadatos que se agrega al contenido

de las páginas web. Dicho de otra forma, la anotación ontológica consiste en

hacer la descripción formal de los conceptos del corpus y enlazar las relaciones

entre esos conceptos. Así pues, con la anotación ontológica se pretende conseguir

11

el acceso inteligente a diversos recursos y que la navegación y búsqueda de

información en internet sea más fácil y rápida (Aguado de Cea, et al. 2002).

3.1.3.5 Anotación fónica

El etiquetado fónico puede ser de varios tipos, aunque se puede delimitar. Una vez

más, se etiqueta conforme la finalidad del corpus, sin embargo hay tres tipos

canónicos de anotación que debemos mencionar en el marco fónico; el etiquetado

fonológico, el fonético y el prosódico. En primer lugar, debemos diferenciar el

etiquetado fonológico del fonético; en el fonológico se busca marcar los sonidos

desde el punto de vista de su función en la lengua y establecer valores distintivos

dentro del conjunto de sonidos que la componen; por otro lado, el etiquetado fonético

busca describir la producción y percepción de los sonidos, tomando como punto

principal sus manifestaciones físicas, es decir que, a diferencia de la fonología, no

busca agrupar sonidos para delimitar un sistema funcional, sino que prepondera la

descripción de los mismos para fines variados. Por último, la anotación prosódica

comprende el marcaje de elementos suprasegmentales, tales como la entonación, la

intensidad, la duración, etc.

3.1.3.6 Anotación discursiva y pragmática

La anotación discursiva en corpus lingüísticos informatizados se encuentra en desarrollo.

Existen aproximaciones, pero el avance se ha limitado a la creación de sistemas de

etiquetado que resulten útiles para ubicarnos en ciertos elementos discursivos dentro de los

textos. El discurso analiza los efectos de la situación discursiva; por eso, los emisores y

receptores, el tema o los temas en construcción, las normas que regulan la situación y los

efectos que la comunicación produce son factores dominantes del análisis. Hasta el

momento los elementos discursivos y su marcaje son definidos por el usuario, sin embargo,

12

a partir de los factores dominantes, se pueden empezar a proponer sistematizaciones para el

estudio de los mismos. Uno de los problemas principales que se busca solucionar por medio

de dichos sistemas de marcaje es la resolución de anáforas. Las relaciones de correferencia

entre elementos del corpus deben ser marcadas de forma manual para buscar patrones que

algún día permitan hacer búsquedas y relaciones automáticas.

De forma parecida, la anotación pragmática se restringe al marcaje de elementos

que el usuario del corpus desea analizar. Marcar los actos de habla que se presentan en una

conversación es un ejemplo de anotación pragmática.

3.1.4. Especificidad de los elementos

Existe la posibilidad de clasificar los corpus según la especificidad de sus elementos. Así,

tendremos corpus generales y corpus especializados o también llamados especificos

(Sardinha, 2000). Los generales se encargan de recoger todo tipo de géneros y tipologías

textuales; son útiles para describir la lengua común de una colectividad. Los corpus

especializados, por el contrario, recogen material que puede aportar datos para la

descripción de un área o tema en particular. Dentro de los específicos, podemos hablar de

un nivel más de clasificación en el caso de los corpus textuales; los que contienen textos

literarios y los que se conforman de textos informativos. En cuanto a los textos literarios,

nos dice María Antonia Martí (2003) que “el género es un parámetro que se ha aplicado con

cierta asiduidad en los corpus que contienen un número importante de textos literarios. Esta

clasificación suele seguir la división tradicional entre los cuatro géneros literarios básicos:

ensayo, narrativa, poesía y teatro” En lo que concierne a los textos informativos, hemos

dividido esta clasificación en 4 tipos básicos de texto: periodístico, científico, académico

y técnico. La clasificación queda así:

13

Especificidad de

los Textos

Generales

Especializados o Específicos

Literarios

Ensayo

Narración

Poesía

Teatro

Epístola

Informativo

Periodístico

Científico

Académico

Técnico

Cabe aclarar que esta clasificación obedece a usos tradicionales de tipologías

literarias e informativas; el usuario o analista del corpus podrá clasificaciones propias, de

acuerdo con sus necesidades específicas de investigación.

3.1.5. Autoría

La autoría es otro parámetro para clasificar corpus. Si todos los textos del corpus

corresponden a un género literario, se tratará de un corpus genérico, mientras que, si todos

los textos son de un solo autor, será un corpus canónico. Por otro lado, si los textos no

comparten alguno de los criterios anteriores, será un corpus de autoría variada.

Autoría

Genérico (De un Género Literario)

Canónico (Textos de un Sólo Autor)

De Autoría Variada

3.1.6. Tiempo

El primer nivel de clasificación, en cuanto al tiempo, comprende el corpus sincrónico y el

corpus diacrónico. El sincrónico contiene elementos del lenguaje de un momento

específico en el tiempo, mientras que el diacrónico compara, confronta o relaciona muestras

lingüísticas a través de varios periodos de tiempo. No debemos asumir que un corpus

14

diacrónico contiene documentos antiguos; de la misma forma, uno sincrónico no

necesariamente está formado únicamente por documentos actuales. Puede haber corpus

sincrónicos que contengan documentos antiguos y corpus diacrónicos con elementos de

diversos periodos del siglo XX. De esta forma, basado en la clasificación que propone

Sardinha (2000: 340), dentro de los corpus sincrónicos puede haber corpus

contemporáneos, que se componen de textos actuales, y corpus históricos, que están

compuestos por documentos de un periodo de tiempo pasado. En lo que respecta a los

corpus diacrónicos hay dos tipos; el cronológico y el periódico. El cronológico es aquel

cuyo propósito es estudiar alguna lengua o variedad de lengua a través de la historia y lo

hace de forma cronológica, mientras que el periódico se encarga de estudiar la lengua en

diversos periodos. Así, un corpus que estudie y compare las variantes de una lengua

únicamente en los siglos XVI y XVII será un corpus periódico y aquel que estudie las

mismas u otras variantes, pero a lo largo de todos los siglos de los que se tenga registro de

esa lengua será un corpus cronológico:

Tiempo

SincrónicoContemporáneo

Histórico

DiacrónicoCronológico

Periódico

3.1.7. Propósito

La constitución de un corpus depende del propósito al que va destinado. El corpus se diseña

dependiendo del tipo de análisis que se va a realizar y de la información que se piensa

obtener. En gran parte de los casos, los corpus se construyen con un propósito específico;

es decir para realizar investigaciones o trabajos concretos. Por otro lado, la lingüística de

corpus apoya la idea de crear corpus que sean utilizables para distintos fines y por

15

diferentes investigadores, grupos o instituciones. En ese caso, el diseño del corpus no

atiende a un propósito en particular; por el contrario, busca servir a varios propósitos. De

esta manera, podemos hablar de corpus para propósitos específicos y de corpus

multipropósito.

El corpus multipropósito por antonomasia es el de referencia. No persigue el

objetivo de proporcionar un tipo específico de información; se construye con la intención

de proporcionar información exhaustiva acerca de una lengua en un momento determinado

de su historia.

En el caso de los corpus lingüísticos informatizados de propósito específico hay

dos tipos que son lo más comunes; el de estudio y el de entrenamiento. El corpus de

estudio se utiliza para identificar y describir algún aspecto del lenguaje, un ejemplo de este

tipo de corpus es el que se utiliza comúnmente entre los estudiantes de lingüística para

estudiar alguna característica de la lengua. El corpus de entrenamiento se constituye de

elementos etiquetados de forma manual. Su función es ser tomado como base o ejemplo

para que un sistema computacional “aprenda” la forma correcta de asignar etiquetas

automáticamente a documentos que no han sido etiquetados de forma manual. La

clasificación queda así:

Propósito

Multipropósito De referencia

Para propósitos específicosDe estudio

De entrenamiento

3.1.8. El lenguaje

Según el lenguaje de los elementos existen los corpus multilingües y los corpus

monolingües. Los monolingües utilizan solo un idioma sus elementos pueden ser

originales del idioma o traducciones de otros idiomas; puede tratarse de un corpus de

16

lengua inglesa, española, etc. o de un corpus en que se diferencian los dialectos o

variedades lingüísticas, en cuyo caso se tratará como un corpus monolingüe según la

variedad dialectal. Por otro lado, Los corpus comparables son corpus monolingües

compuestos por textos originales en una lengua y traducciones de otros textos semejantes

en la misma lengua (Baker, 1995). Los corpus multilingües, en cambio, hacen referencia a

más de una lengua. José Abaitua (2002) en Tratamiento de corpora bilingües divide los

corpus multilingües en tres tipos: corpus de textos en distintos idiomas, comparables y

paralelos. Los corpus de textos en distintos idiomas son colecciones de textos recopiladas

con la intención de servir para estudios cuantitativos o estadísticos, mientras que los corpus

paralelos contienen la misma colección de textos en más de una lengua, esto es: cuando a

las versiones originales son acompañadas por sus traducciones. El caso óptimo de

paralelismo se produce cuando las traducciones son un reflejo simétrico de la versión

original. La clasificación se representa de la siguiente forma:

Según el lenguaje

MonolingüeDe una variedad dialectal

Comparables

MultilingüeTextos en distintos idiomas

Paralelos

3.1.9. La cantidad de texto recogido

De acuerdo con la cantidad que se recoge de cada documento tenemos corpus grande,

corpus pequeños y corpus monitor. Se considera corpus grande a uno que contiene una

"cantidad considerable" de documentos, suele no precisarse las dimensiones en números

exactos; el corpus “es “grande” en oposición a corpus cuantitativamente más pequeños”

como los corpus monitor o piramidal (Torruella & Llisterri, 1999). Diez millones de

palabras podría considerarse grande, aunque, existen corpus de cien millones, lo cual

17

refuerza la afirmación de Llisterri. Ahora bien, un corpus pequeño es aquel que no

satisface necesidades informáticas y estadísticas por la pequeña cantidad de texto recogido

en él. Sin embargo, puede sernos muy útil para fines lingüísticos determinados.

El siguiente tipo de corpus es el corpus monitor. Éste contiene un volumen textual

constante, sin embargo su contenido se actualiza con frecuencia. Esta acción ofrece la

posibilidad de tener un corpus dinámico. Para la inclusión y exclusión de textos se

establecen pautas con vigencia temporal. Se trata de corpus de tamaño constante en el que

se van incluyendo nuevos materiales al mismo tiempo que se eliminan los más antiguos.

“De esta forma se ofrece la posibilidad de observar cambios recientes en el uso de la

lengua. Debido a los avances tecnológicos actuales, ya no es imprescindible que se vayan

eliminando textos, con lo que el corpus se irá haciendo cada vez más grande.” (Barcala

Rodríguez et al. 2006) De tal forma la clasificación por cantidad de texto recogido queda

así:

Según la cantidad de texto

Grande

Pequeño

Monitor

3.1.10. La distribución del tipo de texto

En esta clasificación toma en cuenta la distribución y el porcentaje escogido de los

diferentes tipos de texto que lo componen. Puede haber corpus equilibrados en oposición a

los corpus no equilibrados, así como corpus piramidales. Un corpus equilibrado contiene

una variedad de documentos que se encuentran distribuidos en proporciones parecidas para

cada una de los tipos de documentos. De esta variedad se puede tener la zona geografica, el

tipo de documento, el año, etc. En oposición al anterior, el corpus desequilibrado contiene

tipos de documentos cuyas cantidades no son proporcionales entre sí. Ahora bien, los

18

corpus piramidales contienen textos que están distribuidos en diferentes niveles: el primer

nivel recoge pocas variedades temáticas pero con muchos textos en cada variedad; el

segundo nivel contiene más variedades temáticas, pero menos cantidad de textos en cada

una de ellas; el tercer nivel está compuesto por muchas variedades con pocos textos en cada

una y así sucesivamente hasta un numero opcional de estratos. Cabe aclarar que por su

organización en cuanto a las variedades temáticas, el corpus equilibrado por excelencia es

el piramidal:

Según la distribución del tipo de TextoEquilibrado Piramidal

Desequilibrado

3.1.11. La accesibilidad

Una clasificación que puede hacerse sobre los corpus se da en función de la accesibilidad o

disponibilidad para poder usarlos. La clasificación tiene dos tipos; es de dominio público

si se encuentra en línea o existe la posibilidad de solicitarlo y es de uso privado si está

restringido a una persona, empresa o grupo de investigación:

Según la accesibilidadPúblico

Privado

3.1.12. La documentación

Esta clasificación depende de si se tiene documentación o no de los textos que componen el

corpus. Por tanto, se dividen en corpus documentados cuando se tiene registro de la

documentación de los textos y, además, es posible usar dicha documentación, ya sea para

hacer una búsqueda específica o para conocer de donde provienen los textos. Por el

contrario, un corpus no documentado adolece de registros documentales de los textos.

Según la documentaciónDocumentado

No documentado

19

3.1.13. La representatividad

Por último, aunque podría darse por hecho que un corpus debe ser representativo, podemos

hacer una clasificación según la representatividad. En este caso, la clasificación obligada

será la de representativo, aunque, además, existen los corpus oportunistas. Éstos no son

necesariamente representativos de toda una lengua, pero pueden serlo de un fenómeno en

específico. En estos corpus se recogen muestras que presenten el fenómeno a estudiar,

según el recopilador las lea, las escuche o las encuentre de diversas maneras, de ahí el

nombre de oportunista.

Según la representatividadRepresentativo

Oportunista

4. Conclusiones

Los trece criterios de clasificación expuestos, así como sus diferentes niveles internos,

constituyen nuestra propuesta. Clasificar los corpus según esta propuesta, nos ayudará a

tener un conocimiento más conciso del concepto corpus, así como entender la importancia

de sistematizar el diseño de los mismos. La caracterización por criterios permitirá que cada

corpus, al proponerse para su difusión, presente una caracterización estándar que permita al

usuario o investigador decidir si cumple con los requisitos pertinentes para sus fines.

20

5. Referencias

ABAITUA, J. (2002). Tratamiento de corpora bilingües. En M. Martí, & J. Llisterri, Tratamiento del lenguaje natural. Barcelona: Edicions Universitat de Barcelona.

AGUADO DE CEA, G., Álvarez de Mon y Rego, I., & Pareja Lora, A. (2002). Primeras aproximaciones a la anotación lingüístico-ontológica de documentos de la Web Semántica: OntoTag. Revista Iberoamericana de Inteligencia Artificial , 37-49.

BAKER, M. (1995). Corpora in translation studies : An overview and some suggestions for future research. Target , 223-243.

BARCALA Rodríguez, F. M., Blanco Canosa, C., & Darriba Bilbao, V. M. (2006). Metodología para la construcción de córpora textuales estructurados basados en XML. Procesamiento del lenguaje natural , 9-16.

DONÉS Rojas, R., & Ortíz Rodríguez, C. (2006). El proceso de anotación semántica en FrameNet Español. Actas del XXXV Simposio Internacional de la Sociedad Española de Lingüística. León: Depto. de Filología Hispánica y Clásica.

GÓMEZ Díaz, R. (2005). La lematización en español: una aplicación para la recuperación de información. Gijón: Ediciones Trea.

GONZÁLEZ Salgado, J. A. (2005). Los corpus sonoros en la investigación de la lengua hablada. CÍRCULO de Lingüística Aplicada a la Comunicación .

KIRYAKOV, A., Popov, B., Ognyanoff, D., Manov, D., Kirilov, A., & Goranov, M. (2003). Semantic Annotation, Indexing, and Retrieval. 2nd International Semantic Web Conference (ISWC2003) (págs. 484-499). Florida, USA: Springer.

MARTÍ Antonín, M. A. (2003). Tecnologías del lenguaje. Barcelona: UOC.MARTÍN DE SANTA OLALLA Sánchez, A. (1999). Una propuesta de codificación

morfosintáctica para coprus de referencia en lengua española" . Estudios de Lingüística Española (ELiEs) .

MC ENERY, T., & Wilson, A. (2001). Corpus Linguistics. An Introduction. Edinburgh: Edinburgh University Press.

PÉREZ Hernández, M. C. (2002). Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento. Estudios de Lingüística Española (ELiEs) , 18.

SARDINHA, T. B. (2000). LINGÜÍSTICA DE CORPUS: HISTÓRICO E PROBLEMÁTICA. Corpus Linguistics: History and Problematization D.E.L.T.A. , 323-367.

SIERRA Martínez, G. (05 de 05 de 2003). Lingüística de corpus. Recuperado el 10 de 02 de 2009. http://www.iling.unam.mx/CursoCorpus/default.html

TORRUELLA, J., & Llisterri, J. (1999). Diseño de corpus textuales y orales. En J. Blecua, G. Clavería, C. Sánchez, & J. Torruella, Filología e Informática. Nuevas Tecnologías en los Estudios Filológicos (págs. 45-77). Barceloa: Milenio.

Documents

Una clasificación de corpus lingüísticos informatizados