Upload
alejandro-rosas-gonzalez
View
487
Download
0
Embed Size (px)
Citation preview
1
Una clasificación de corpus lingüísticos informatizados
Gerardo Sierra Martínez y Alejandro Rosas González
Grupo de Ingeniería Lingüística
Instituto de Ingeniería, Universidad Nacional Autónoma de México
{gsierram, arosasg} @ iingen.unam.mx
1. Lingüística de corpus
Uno de los objetivos de la lingüística de corpus es buscar la sistematización en el análisis y
en la construcción de corpus lingüísticos informatizados. Si revisamos algunos trabajos,
cuya finalidad es introducirnos en esta área, podemos encontrar que coinciden en iniciar
exponiendo una definición de corpus lingüístico, ya sea que se trate de una definición
citada de alguna fuente o de alguna propia. Inmediatamente después, para reforzar y
ampliar lo dicho en la definición, suele presentarse una tipología de corpus lingüísticos,
misma que nos guía a lo largo de todo el trabajo para que, en el inicio, aprendamos lo que
es un corpus bien construido y, al final, seamos capaces de diseñar y construir nuestro
propio corpus. Durante todo ese proceso, resulta muy útil tener presente la tipología y
clasificación que se nos presentó, ya que una correcta caracterización nos permite entender
mejor el concepto corpus. Además, una bien delimitada tipología resulta útil, incluso
necesaria, para delimitar parámetros en el diseño de nuevos corpus lingüísticos.
2. Razones para tener una clasificación de corpus
Existe unanimidad entre las diferentes posturas teóricas y prácticas cuando aseveran
que es necesario definir criterios de descripción y clasificación que resulten pertinentes
tanto en la elaboración de corpus como en el análisis de corpus existentes. Estos criterios
2
deben presentarse de forma estructurada, de tal forma que cada uno de ellos indique, de
manera clara y precisa, algún rasgo que nos resulte útil para distinguir un tipo de corpus de
otro. Al mismo tiempo, los criterios de clasificación deben ser elegidos de manera
cuidadosa para que sean inclusivos; de esa forma es posible clasificar el mayor número de
corpus posible. De hecho, pensamos que una de las metas que debe tener una clasificación
es poder describir y clasificar cualquiera que sea el objeto de estudio o análisis del que se
ocupa. Una clasificación que busque describir computadoras, por ejemplo, debe incluir
criterios que sean comunes a todas las máquinas de esa índole, tales como: fabricante,
modelo, color, tipo de procesador, capacidad de almacenamiento, etc. De la misma forma,
es posible definir criterios que sean comunes a todos los corpus lingüísticos; en específico,
a los corpus lingüísticos informatizados.
Las clasificaciones y tipologías que los diferentes teóricos de los corpus proponen
concuerdan en algunos criterios y difieren en otros. Además, las diferentes necesidades y
posturas de cada autor o grupo de autores con respecto a la construcción de corpus
lingüísticos hacen que las clasificaciones sean parciales y se enfoquen a la tipificación de
determinados tipos de corpus. Por ejemplo, Mc Enery y Wilson (1996) se enfocan a la
tipificación de corpus de lengua escrita, mientras que Toruella y Llisterri (1999), aunque
clasifican tanto corpus textuales como corpus orales, prestan particular atención a describir
los segundos. De ahí que sea necesaria una clasificación incluyente y clara.
3. Propuesta de Clasificación
El objetivo de este trabajo es proponer una clasificación de corpus lingüísticos
informatizados con la que sea posible clasificar cualquier corpus ya existente, pero, sobre
todo, queremos sentar bases sólidas que sirvan como guía para la construcción y
caracterización de nuevos corpus lingüísticos informatizados.
3
3.1. Criterios de Clasificación
Para la realización de este trabajo, revisamos la literatura que ha destacado en el área y que
ha propuesto diversas formas y criterios para clasificar los corpus. Comparamos y
evaluamos diversos criterios, retomamos los que nos parecen adecuados, especificamos
niveles de clasificación para los que nos parecieron incompletos y proponemos un nuevo
criterio.
En los diferentes estudios sobre corpus lingüísticos, los criterios más comunes y
recurrentes que se presentan son:
El origen de los componentes de corpus La codificación y anotación. La especificidad de los elementos La temporalidad El propósito El lenguaje La cantidad de texto La distribución de los elementos La documentación
Otros criterios menos comunes, pero presentes son:
Su accesibilidad Su Autoría Su representatividad
Por último, un criterio que no se presenta explícitamente, pero que aparece entre
líneas en la literatura existente sobre el tema es la espontaneidad con la que hablaron o
escribieron los informantes en el corpus. Explicaremos este punto más adelante. En total,
hablamos de trece criterios que deben tomarse en cuenta para clasificar corpus lingüísticos
informatizados. A continuación describimos y explicamos cada uno de ellos
3.1.1. El origen de los elementos del corpus
4
Según el origen de sus elementos, se puede hablar de dos diferentes tipos de corpus;
corpus textuales y corpus orales. Los corpus textuales están formados por muestras
escritas de la lengua, mientras que en el caso de los corpus orales, Toruella y Llisterri
(1999: 8-9) hacen la aclaración de que pueden estar formados por grabaciones o por
transcripciones del habla, es decir que pueden dividirse en orales sonoros, que están
formados por grabaciones, y orales transcritos que contienen transcripciones de lengua
oral y pueden incluir marcas directas de oralidad o señalamientos sobre la misma. De esta
forma, la clasificación por este criterio queda así:
Origen de los TextosCorpus Orales
Corpus oral sonoro
Corpus oral transcrito
Corpus Textuales
3.1.2. Espontaneidad
El primer criterio de clasificación deja algunas dudas. Sabemos que un corpus oral se
compone de grabaciones o de transcripciones del habla, mientras que un corpus textual
consta de elementos en lengua escrita. Esta impresión no es errónea, pero es limitada. ¿Qué
sucede cuando tenemos la grabación de una muestra de lengua que, en sus orígenes, estuvo
en forma escrita? ¿Se trata entonces de un corpus oral? O ¿Qué si tenemos una trascripción
de habla que, originalmente fue una conversación espontánea entre dos personas? ¿Se trata,
entonces, de un corpus textual? Sabemos que es necesario delimitar si un corpus es oral o
textual, pero no se trata de una tarea fácil, dados los problemas de ambigüedad que se
presentan. Como solución, proponemos tomar un corpus con grabaciones de lecturas en voz
alta, como un corpus oral y especificar que se trata de una muestra premeditada Por otro
lado, si tenemos la transcripción de una conversación, lo que tenemos es texto y debe ser
5
clasificado como un corpus textual, pero debe aclararse que se trata de una producción no
premeditada de la lengua. “Como Joaquim Llisterri y otros autores han señalado en alguna
ocasión, dentro de los corpus orales conviene diferenciar los que suponen “transcripciones
de producciones lingüísticas más o menos espontáneas” de los que “ofrecen materiales
mucho más controlados” (González Salgado, 2005). Esta aseveración debe aplicarse
también a los corpus textuales, por eso proponemos que la espontaneidad del hablante o
informante en cuestión se tome como un criterio más de clasificación.
EspontaneidadPremeditado
No Premeditado
De tal forma, un corpus lingüístico informatizado constituido por conversaciones
espontáneas (por ejemplo las realizadas a través de un chat o de un programa de mensajería
instantánea) será un corpus textual no premeditado; por otro lado, un corpus que
contenga grabaciones de lengua que, en origen, estuvo escrita (por ejemplo discursos,
cuentos, declaraciones públicas, etc.) será un corpus oral premeditado; de esa forma, la
descripción del corpus según su modo u origen se vincula con su clasificación por
espontaneidad y, así, su tipificación se clarifica.
3.1.3. Codificación y anotación
3.1.3.1. Corpus Simple y Corpus codificado o anotado
Los corpus pueden estar anotados o no anotados (Mc Enery & Wilson, 2001: 32). En
nuestra clasificación utilizamos los términos corpus simple y corpus codificado o anotado
para el primer nivel de clasificación. El corpus simple es, en el caso de los corpus textuales
y de los orales transcritos, el que ha sido guardado en un formato ASCII y no tiene una
codificacion especial, mientras que el corpus codificado o anotado es aquel que está
formado por elementos de la lengua a los cuales se ha añadido, electrónica o manualmente,
6
etiquetas para reconocer algunos de sus elementos o para facilitar su análisis y
procesamiento. Al ser una muestra de la lengua, los corpus pueden utilizarse para analizar
cualquiera de los niveles de ésta. Así, resulta conveniente delimitar el segundo nivel de
clasificación por este criterio a partir de los niveles de la lengua:
Codificación y
Anotación
SimpleSin codificación
Diversos formatos
Codificado o
Anotado
Textual
Estructura Textual
Tipología Textual
Ortográfica
Morfológica
Lematización
POS Tagging
Sintáctica Chunking
Parsing
Semántica
Características Semánticas
Ontológica
Relaciones Semánticas
Fónica
Fonética
Fonológica
Prosódica
Discursiva Anafórica y Referencial
Pragmática
Como podemos ver en la tabla, el segundo nivel de clasificación toma el nombre de
los niveles básicos del lenguaje. Para cada nivel hemos incluido el tipo de anotación más
común. En el caso de la anotación textual tenemos tres tipos de anotación; la de estructura
textual, la de tipología textual y la ortográfica.
3.1.3.2 Anotación por estructura textual
7
La anotación por estructura textual se refiere al marcaje de estructuras determinadas por
el usuario para el procesamiento del corpus o para ubicarse dentro de él:
“Un texto, un documento para SGML no es una secuencia indiferenciada de datos. Según los propósitos, éste se puede dividir en unidades de diferentes tipos o tamaños. Un texto en prosa puede dividirse en secciones, capítulos, párrafos y oraciones. Un texto en verso puede dividirse en cantos, estrofas y versos. Una vez impresas, las secuencias de prosa y verso pueden dividirse en volúmenes, colecciones y páginas. Dichas unidades son usadas frecuentemente para expresar localizaciones específicas o puntos de referencia dentro del texto ("la segunda oración del segundo párrafo del capítulo tres", por ejemplo), pero también pueden usarse para subdividir un texto en fragmentos de significado con propósitos analíticos ("la longitud media de oración de la sección primera, ¿es diferente de la longitud media de oración de la sección quinta?").” (Martín de Santa Olalla Sánchez, 1999)
Además, los elementos del corpus pueden etiquetarse por su la tipología textual; ésta
puede ser: artículo de revista, tesis, informe académico, poesía, novela, cuento, etc. En caso
de requerir este nivel de clasificación, el usuario del corpus debe definir las tipologías
textuales que utilizará y marcará, de acuerdo con sus objetivos. El tercer nivel de este
criterio es la anotación ortográfica que es el tipo de anotación más común en corpus
orales y consiste en asociar escritura común (ortográfica) a los elementos de un corpus.
3.1.3.3 Anotación morfológica, morfosintáctica y sintáctica
a) Anotación morfológica
Según Martín de Santa Olalla (1999), es necesario aclarar que lo estrictamente morfológico
es la identificación de rasgos como género, número, persona, modo. Estos rasgos tienen la
característica de manifestarse, en las palabras del español, por medio de formas, cuya
identificación es posible con métodos automáticos. Un ejemplo de estos métodos , y el tipo
de etiquetado de este nivel es la lematización, es decir el “proceso de eliminación
automática de partes no esenciales de los términos (sufijos, prefijos) para reducirlos a su
parte esencial (lema) y facilitar la eficacia de la indización y la consiguiente recuperación”
(Gómez Díaz, 2005: 175). Este proceso resulta en un tipo de marcaje, pues un corpus
8
lematizado contiene la reducción de sus palabras a “la forma constituida por su propio
lexema, esto es, a su forma canónica o a la que aparece normalmente como entrada en un
diccionario. Por ejemplo, la forma ser es la forma canónica que se convierte en etiqueta y
se asocia a las flexiones soy, eres, fuiste, serás; en tanto, la forma canónica tigre se asocia a
los sustantivos tigresa y tigres” (Sierra Martínez, 2003).
b) Anotación morfosintáctica
La anotación morfosintáctica se refiere al marcaje de la categoría gramatical de las
palabras en un corpus. En este caso y para nuestros fines, llamaremos a estas categorías
partes de la oración. El etiquetado de estas partes se conoce como Part of speech tagging;
POST, por sus siglas en inglés. Un ejemplo de etiquetado POS es:
La/AFS pérdida/NFS de/P l/AMS cromosoma/NMS 20/X es/V3S lo/ANS
más/D frecuente/J
Palabra Etiqueta Significado de la etiqueta
La /AFS (artículo, femenino, singular)
pérdida /NFS
(nombre o sustantivo, femenino, singular
)
de /P (preposición)
l /AMS (artículo, masculino, singular (el))
cromosoma /NMS
(nombre o sustantivo, masculino,
singular)
20 /X (número)
es /V3S (verbo, tercera persona, singular )
lo /ANS (artículo, neutro, singular)
más /D (adverbio)
frecuente /J (adjetivo)
Este es el tipo de anotación más común que suele añadirse a los corpus y “es
fundamental para poder hacer más precisas las búsquedas, puesto que nos permitirán, por
9
ejemplo, seleccionar los usos nominales o verbales de un lema y es también un requisito
básico para otros tipos de codificación más sofisticados” (Pérez Hernández, 2002).
c) Anotación sintáctica
Comunmente, el paso que sigue al marcaje de partes de la oración es la anotación
sintáctica. Este proceso consiste en encontrar las relaciones sintácticas entre dichas partes,
lo que constituye el análisis de la oración o parsing.
El proceso de parsing tiene dos etapas; el parsing parcial o chunking y el parsing
total. El chunking es un análisis de constituyentes sintácticos básicos; puede entenderse
como “romper el texto en pedazos”. En este caso se hace uso de patrones de etiquetas para
construir reglas; por ejemplo: Sintagma Nominal = (Art) (Sust), es decir:
la/AFS(Art) + pérdida/NFS(Sust)= Sintagma Nominal [la pérdida]
(Chunk: Sintagma Nominal)
Por su parte, el parsing total es un proceso que resulta en el “etiquetado sintáctico y
consiste en un análisis completo de constituyentes de la oración y sus relaciones sintácticas,
siguiendo las reglas de una gramática” (Sierra, 2003). Como resultado de ese análisis se
obtiene un árbol sintáctico o su representación mediante paréntesis categorizados:
[O [SN El_Art hombre_Sust SN] [SV vio_Vb [SP a_Prep [SN la_Art nena_Sust SN] SP] [SP en_Prep [SN el_Art parque_Sust SN] SP] [SP con_Prep [SN el_Art telescopio_Sust SN] SP] SV] O]
3.1.3.4 Anotación semántica
En este caso es prudente aclarar que no existen estándares de anotación semántica
establecidos. El tipo de marcaje es definido por los usuarios del corpus, de acuerdo con los
objetivos de la investigación que se realice. A pesar de lo anterior, si se toman en cuenta
10
características muy generales de los diferentes tipos de anotación semántica existentes es
posible ubicarlos en tres grandes grupos, según lo insinúan Kiryakov et al. (2003):
a) La anotación de características semánticas, según Mc Enery & Wilson,
(2001), se puede anotar las características semánticas de una palabra, entendiéndo
esas características como los significados de las palabras. También se puede
agregar a las palabras del corpus identificadores de entidades para que pueden ser
distinguidas de acuerdo con sus características semánticas, por ejemplo tenemos
la anotación de predicados en la que el verbo agacharse se puede asociar con el
marco semántico general de movimiento y al escenario conceptual de cambio de
postura. (Donés Rojas & Ortíz Rodríguez, 2006)
b) La anotación de relaciones semánticas se refiere al marcaje de relaciones
léxico-semáticas que se pueden establecer entre elementos del corpus y que van
desde la sinonimia, hiperonimia, meronimia, etc. hasta las relaciones de
elementos relacionables del texto tales como: agentes, pacientes y participantes
de acciones concretas (Mc Enery & Wilson, 2001).
c) La anotación ontológica es de suma importancia para los estudios en materia de
anotación semántica de documentos de la web. En este tipo me marcaje se utilizan
tanto las características como las relaciones semánticas de las palabras. La
novedad radica en que es posible hacer referencias a esas características y
relaciones por medio de metainformación o metadatos que se agrega al contenido
de las páginas web. Dicho de otra forma, la anotación ontológica consiste en
hacer la descripción formal de los conceptos del corpus y enlazar las relaciones
entre esos conceptos. Así pues, con la anotación ontológica se pretende conseguir
11
el acceso inteligente a diversos recursos y que la navegación y búsqueda de
información en internet sea más fácil y rápida (Aguado de Cea, et al. 2002).
3.1.3.5 Anotación fónica
El etiquetado fónico puede ser de varios tipos, aunque se puede delimitar. Una vez
más, se etiqueta conforme la finalidad del corpus, sin embargo hay tres tipos
canónicos de anotación que debemos mencionar en el marco fónico; el etiquetado
fonológico, el fonético y el prosódico. En primer lugar, debemos diferenciar el
etiquetado fonológico del fonético; en el fonológico se busca marcar los sonidos
desde el punto de vista de su función en la lengua y establecer valores distintivos
dentro del conjunto de sonidos que la componen; por otro lado, el etiquetado fonético
busca describir la producción y percepción de los sonidos, tomando como punto
principal sus manifestaciones físicas, es decir que, a diferencia de la fonología, no
busca agrupar sonidos para delimitar un sistema funcional, sino que prepondera la
descripción de los mismos para fines variados. Por último, la anotación prosódica
comprende el marcaje de elementos suprasegmentales, tales como la entonación, la
intensidad, la duración, etc.
3.1.3.6 Anotación discursiva y pragmática
La anotación discursiva en corpus lingüísticos informatizados se encuentra en desarrollo.
Existen aproximaciones, pero el avance se ha limitado a la creación de sistemas de
etiquetado que resulten útiles para ubicarnos en ciertos elementos discursivos dentro de los
textos. El discurso analiza los efectos de la situación discursiva; por eso, los emisores y
receptores, el tema o los temas en construcción, las normas que regulan la situación y los
efectos que la comunicación produce son factores dominantes del análisis. Hasta el
momento los elementos discursivos y su marcaje son definidos por el usuario, sin embargo,
12
a partir de los factores dominantes, se pueden empezar a proponer sistematizaciones para el
estudio de los mismos. Uno de los problemas principales que se busca solucionar por medio
de dichos sistemas de marcaje es la resolución de anáforas. Las relaciones de correferencia
entre elementos del corpus deben ser marcadas de forma manual para buscar patrones que
algún día permitan hacer búsquedas y relaciones automáticas.
De forma parecida, la anotación pragmática se restringe al marcaje de elementos
que el usuario del corpus desea analizar. Marcar los actos de habla que se presentan en una
conversación es un ejemplo de anotación pragmática.
3.1.4. Especificidad de los elementos
Existe la posibilidad de clasificar los corpus según la especificidad de sus elementos. Así,
tendremos corpus generales y corpus especializados o también llamados especificos
(Sardinha, 2000). Los generales se encargan de recoger todo tipo de géneros y tipologías
textuales; son útiles para describir la lengua común de una colectividad. Los corpus
especializados, por el contrario, recogen material que puede aportar datos para la
descripción de un área o tema en particular. Dentro de los específicos, podemos hablar de
un nivel más de clasificación en el caso de los corpus textuales; los que contienen textos
literarios y los que se conforman de textos informativos. En cuanto a los textos literarios,
nos dice María Antonia Martí (2003) que “el género es un parámetro que se ha aplicado con
cierta asiduidad en los corpus que contienen un número importante de textos literarios. Esta
clasificación suele seguir la división tradicional entre los cuatro géneros literarios básicos:
ensayo, narrativa, poesía y teatro” En lo que concierne a los textos informativos, hemos
dividido esta clasificación en 4 tipos básicos de texto: periodístico, científico, académico
y técnico. La clasificación queda así:
13
Especificidad de
los Textos
Generales
Especializados o Específicos
Literarios
Ensayo
Narración
Poesía
Teatro
Epístola
Informativo
Periodístico
Científico
Académico
Técnico
Cabe aclarar que esta clasificación obedece a usos tradicionales de tipologías
literarias e informativas; el usuario o analista del corpus podrá clasificaciones propias, de
acuerdo con sus necesidades específicas de investigación.
3.1.5. Autoría
La autoría es otro parámetro para clasificar corpus. Si todos los textos del corpus
corresponden a un género literario, se tratará de un corpus genérico, mientras que, si todos
los textos son de un solo autor, será un corpus canónico. Por otro lado, si los textos no
comparten alguno de los criterios anteriores, será un corpus de autoría variada.
Autoría
Genérico (De un Género Literario)
Canónico (Textos de un Sólo Autor)
De Autoría Variada
3.1.6. Tiempo
El primer nivel de clasificación, en cuanto al tiempo, comprende el corpus sincrónico y el
corpus diacrónico. El sincrónico contiene elementos del lenguaje de un momento
específico en el tiempo, mientras que el diacrónico compara, confronta o relaciona muestras
lingüísticas a través de varios periodos de tiempo. No debemos asumir que un corpus
14
diacrónico contiene documentos antiguos; de la misma forma, uno sincrónico no
necesariamente está formado únicamente por documentos actuales. Puede haber corpus
sincrónicos que contengan documentos antiguos y corpus diacrónicos con elementos de
diversos periodos del siglo XX. De esta forma, basado en la clasificación que propone
Sardinha (2000: 340), dentro de los corpus sincrónicos puede haber corpus
contemporáneos, que se componen de textos actuales, y corpus históricos, que están
compuestos por documentos de un periodo de tiempo pasado. En lo que respecta a los
corpus diacrónicos hay dos tipos; el cronológico y el periódico. El cronológico es aquel
cuyo propósito es estudiar alguna lengua o variedad de lengua a través de la historia y lo
hace de forma cronológica, mientras que el periódico se encarga de estudiar la lengua en
diversos periodos. Así, un corpus que estudie y compare las variantes de una lengua
únicamente en los siglos XVI y XVII será un corpus periódico y aquel que estudie las
mismas u otras variantes, pero a lo largo de todos los siglos de los que se tenga registro de
esa lengua será un corpus cronológico:
Tiempo
SincrónicoContemporáneo
Histórico
DiacrónicoCronológico
Periódico
3.1.7. Propósito
La constitución de un corpus depende del propósito al que va destinado. El corpus se diseña
dependiendo del tipo de análisis que se va a realizar y de la información que se piensa
obtener. En gran parte de los casos, los corpus se construyen con un propósito específico;
es decir para realizar investigaciones o trabajos concretos. Por otro lado, la lingüística de
corpus apoya la idea de crear corpus que sean utilizables para distintos fines y por
15
diferentes investigadores, grupos o instituciones. En ese caso, el diseño del corpus no
atiende a un propósito en particular; por el contrario, busca servir a varios propósitos. De
esta manera, podemos hablar de corpus para propósitos específicos y de corpus
multipropósito.
El corpus multipropósito por antonomasia es el de referencia. No persigue el
objetivo de proporcionar un tipo específico de información; se construye con la intención
de proporcionar información exhaustiva acerca de una lengua en un momento determinado
de su historia.
En el caso de los corpus lingüísticos informatizados de propósito específico hay
dos tipos que son lo más comunes; el de estudio y el de entrenamiento. El corpus de
estudio se utiliza para identificar y describir algún aspecto del lenguaje, un ejemplo de este
tipo de corpus es el que se utiliza comúnmente entre los estudiantes de lingüística para
estudiar alguna característica de la lengua. El corpus de entrenamiento se constituye de
elementos etiquetados de forma manual. Su función es ser tomado como base o ejemplo
para que un sistema computacional “aprenda” la forma correcta de asignar etiquetas
automáticamente a documentos que no han sido etiquetados de forma manual. La
clasificación queda así:
Propósito
Multipropósito De referencia
Para propósitos específicosDe estudio
De entrenamiento
3.1.8. El lenguaje
Según el lenguaje de los elementos existen los corpus multilingües y los corpus
monolingües. Los monolingües utilizan solo un idioma sus elementos pueden ser
originales del idioma o traducciones de otros idiomas; puede tratarse de un corpus de
16
lengua inglesa, española, etc. o de un corpus en que se diferencian los dialectos o
variedades lingüísticas, en cuyo caso se tratará como un corpus monolingüe según la
variedad dialectal. Por otro lado, Los corpus comparables son corpus monolingües
compuestos por textos originales en una lengua y traducciones de otros textos semejantes
en la misma lengua (Baker, 1995). Los corpus multilingües, en cambio, hacen referencia a
más de una lengua. José Abaitua (2002) en Tratamiento de corpora bilingües divide los
corpus multilingües en tres tipos: corpus de textos en distintos idiomas, comparables y
paralelos. Los corpus de textos en distintos idiomas son colecciones de textos recopiladas
con la intención de servir para estudios cuantitativos o estadísticos, mientras que los corpus
paralelos contienen la misma colección de textos en más de una lengua, esto es: cuando a
las versiones originales son acompañadas por sus traducciones. El caso óptimo de
paralelismo se produce cuando las traducciones son un reflejo simétrico de la versión
original. La clasificación se representa de la siguiente forma:
Según el lenguaje
MonolingüeDe una variedad dialectal
Comparables
MultilingüeTextos en distintos idiomas
Paralelos
3.1.9. La cantidad de texto recogido
De acuerdo con la cantidad que se recoge de cada documento tenemos corpus grande,
corpus pequeños y corpus monitor. Se considera corpus grande a uno que contiene una
"cantidad considerable" de documentos, suele no precisarse las dimensiones en números
exactos; el corpus “es “grande” en oposición a corpus cuantitativamente más pequeños”
como los corpus monitor o piramidal (Torruella & Llisterri, 1999). Diez millones de
palabras podría considerarse grande, aunque, existen corpus de cien millones, lo cual
17
refuerza la afirmación de Llisterri. Ahora bien, un corpus pequeño es aquel que no
satisface necesidades informáticas y estadísticas por la pequeña cantidad de texto recogido
en él. Sin embargo, puede sernos muy útil para fines lingüísticos determinados.
El siguiente tipo de corpus es el corpus monitor. Éste contiene un volumen textual
constante, sin embargo su contenido se actualiza con frecuencia. Esta acción ofrece la
posibilidad de tener un corpus dinámico. Para la inclusión y exclusión de textos se
establecen pautas con vigencia temporal. Se trata de corpus de tamaño constante en el que
se van incluyendo nuevos materiales al mismo tiempo que se eliminan los más antiguos.
“De esta forma se ofrece la posibilidad de observar cambios recientes en el uso de la
lengua. Debido a los avances tecnológicos actuales, ya no es imprescindible que se vayan
eliminando textos, con lo que el corpus se irá haciendo cada vez más grande.” (Barcala
Rodríguez et al. 2006) De tal forma la clasificación por cantidad de texto recogido queda
así:
Según la cantidad de texto
Grande
Pequeño
Monitor
3.1.10. La distribución del tipo de texto
En esta clasificación toma en cuenta la distribución y el porcentaje escogido de los
diferentes tipos de texto que lo componen. Puede haber corpus equilibrados en oposición a
los corpus no equilibrados, así como corpus piramidales. Un corpus equilibrado contiene
una variedad de documentos que se encuentran distribuidos en proporciones parecidas para
cada una de los tipos de documentos. De esta variedad se puede tener la zona geografica, el
tipo de documento, el año, etc. En oposición al anterior, el corpus desequilibrado contiene
tipos de documentos cuyas cantidades no son proporcionales entre sí. Ahora bien, los
18
corpus piramidales contienen textos que están distribuidos en diferentes niveles: el primer
nivel recoge pocas variedades temáticas pero con muchos textos en cada variedad; el
segundo nivel contiene más variedades temáticas, pero menos cantidad de textos en cada
una de ellas; el tercer nivel está compuesto por muchas variedades con pocos textos en cada
una y así sucesivamente hasta un numero opcional de estratos. Cabe aclarar que por su
organización en cuanto a las variedades temáticas, el corpus equilibrado por excelencia es
el piramidal:
Según la distribución del tipo de TextoEquilibrado Piramidal
Desequilibrado
3.1.11. La accesibilidad
Una clasificación que puede hacerse sobre los corpus se da en función de la accesibilidad o
disponibilidad para poder usarlos. La clasificación tiene dos tipos; es de dominio público
si se encuentra en línea o existe la posibilidad de solicitarlo y es de uso privado si está
restringido a una persona, empresa o grupo de investigación:
Según la accesibilidadPúblico
Privado
3.1.12. La documentación
Esta clasificación depende de si se tiene documentación o no de los textos que componen el
corpus. Por tanto, se dividen en corpus documentados cuando se tiene registro de la
documentación de los textos y, además, es posible usar dicha documentación, ya sea para
hacer una búsqueda específica o para conocer de donde provienen los textos. Por el
contrario, un corpus no documentado adolece de registros documentales de los textos.
Según la documentaciónDocumentado
No documentado
19
3.1.13. La representatividad
Por último, aunque podría darse por hecho que un corpus debe ser representativo, podemos
hacer una clasificación según la representatividad. En este caso, la clasificación obligada
será la de representativo, aunque, además, existen los corpus oportunistas. Éstos no son
necesariamente representativos de toda una lengua, pero pueden serlo de un fenómeno en
específico. En estos corpus se recogen muestras que presenten el fenómeno a estudiar,
según el recopilador las lea, las escuche o las encuentre de diversas maneras, de ahí el
nombre de oportunista.
Según la representatividadRepresentativo
Oportunista
4. Conclusiones
Los trece criterios de clasificación expuestos, así como sus diferentes niveles internos,
constituyen nuestra propuesta. Clasificar los corpus según esta propuesta, nos ayudará a
tener un conocimiento más conciso del concepto corpus, así como entender la importancia
de sistematizar el diseño de los mismos. La caracterización por criterios permitirá que cada
corpus, al proponerse para su difusión, presente una caracterización estándar que permita al
usuario o investigador decidir si cumple con los requisitos pertinentes para sus fines.
20
5. Referencias
ABAITUA, J. (2002). Tratamiento de corpora bilingües. En M. Martí, & J. Llisterri, Tratamiento del lenguaje natural. Barcelona: Edicions Universitat de Barcelona.
AGUADO DE CEA, G., Álvarez de Mon y Rego, I., & Pareja Lora, A. (2002). Primeras aproximaciones a la anotación lingüístico-ontológica de documentos de la Web Semántica: OntoTag. Revista Iberoamericana de Inteligencia Artificial , 37-49.
BAKER, M. (1995). Corpora in translation studies : An overview and some suggestions for future research. Target , 223-243.
BARCALA Rodríguez, F. M., Blanco Canosa, C., & Darriba Bilbao, V. M. (2006). Metodología para la construcción de córpora textuales estructurados basados en XML. Procesamiento del lenguaje natural , 9-16.
DONÉS Rojas, R., & Ortíz Rodríguez, C. (2006). El proceso de anotación semántica en FrameNet Español. Actas del XXXV Simposio Internacional de la Sociedad Española de Lingüística. León: Depto. de Filología Hispánica y Clásica.
GÓMEZ Díaz, R. (2005). La lematización en español: una aplicación para la recuperación de información. Gijón: Ediciones Trea.
GONZÁLEZ Salgado, J. A. (2005). Los corpus sonoros en la investigación de la lengua hablada. CÍRCULO de Lingüística Aplicada a la Comunicación .
KIRYAKOV, A., Popov, B., Ognyanoff, D., Manov, D., Kirilov, A., & Goranov, M. (2003). Semantic Annotation, Indexing, and Retrieval. 2nd International Semantic Web Conference (ISWC2003) (págs. 484-499). Florida, USA: Springer.
MARTÍ Antonín, M. A. (2003). Tecnologías del lenguaje. Barcelona: UOC.MARTÍN DE SANTA OLALLA Sánchez, A. (1999). Una propuesta de codificación
morfosintáctica para coprus de referencia en lengua española" . Estudios de Lingüística Española (ELiEs) .
MC ENERY, T., & Wilson, A. (2001). Corpus Linguistics. An Introduction. Edinburgh: Edinburgh University Press.
PÉREZ Hernández, M. C. (2002). Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento. Estudios de Lingüística Española (ELiEs) , 18.
SARDINHA, T. B. (2000). LINGÜÍSTICA DE CORPUS: HISTÓRICO E PROBLEMÁTICA. Corpus Linguistics: History and Problematization D.E.L.T.A. , 323-367.
SIERRA Martínez, G. (05 de 05 de 2003). Lingüística de corpus. Recuperado el 10 de 02 de 2009. http://www.iling.unam.mx/CursoCorpus/default.html
TORRUELLA, J., & Llisterri, J. (1999). Diseño de corpus textuales y orales. En J. Blecua, G. Clavería, C. Sánchez, & J. Torruella, Filología e Informática. Nuevas Tecnologías en los Estudios Filológicos (págs. 45-77). Barceloa: Milenio.