Upload
tranthu
View
254
Download
0
Embed Size (px)
Citation preview
CORDIAM: cuatrocientos años de historia
del español en América
Virginia Bertolotti (Universidad de la
República, Uruguay)
Concepción Company Company Academia Mexicana de la Lengua
Universidad Nacional Autónoma de México
C O N T A C T , V A R I A T I O N A N D C H A N G E :
c o r p o r a d e v e l o p m e n t a n d a n a l y s i s o f
I b e r o -R o m a n c e l a n g u a g e v a r i e t i e s
1. Presentación
3
Motivación para crear CORDIAM
• Casi 90% de la población hispanohablante nativa es americana
• Gramáticas y obras generales (casi) no incorporan diacronía del español de América (algo de sincronía)
• No existen descripciones lingüísticas de la mayoría de los países hispanohablantes americanos
• Hay algunos estudios lingüísticos de conjunto para español americano con breves apuntes históricos
1. Presentación
Motivación para crear CORDIAM
• NO se incorpora diacronía por ¿desinterés? o ¿falta de
información documental histórica fácilmente accesible?
• Ya: numerosos esfuerzos filológicos y ecdóticos
individuales
• Ya: bastantes colecciones documentales diacrónicas
americanistas publicadas y algunos materiales en red
• NO hay un corpus en red de documentación americana
que abarque diacronía amplia y diatopía amplia
4
2. ¿Qué es CORDIAM?
• Corpus de corpus
• Infraestructura para la investigación
• Documentos americanos exclusivamente
• No literarios y no periodísticos: inmediatez
comunicativa
• Recabados directamente de archivo
• Profundidad histórica de 400 años: 1493-1904
• Los 19 países hispanohablantes de América +
EEUU (Nueva España), Jamaica, Haití, Guyana,
5
Características de CORDIAM
2. ¿Qué es CORDIAM?
Características de CORDIAM
• Cantidad de documentos a la fecha: 3185
• Universo de palabras actual: 4700000 aprox
• Corpus en red de acceso libre (alojado en la AML)
• Informatizado y con un sistema de búsqueda y procesamiento diseñado para el análisis lingüístico
• Plantilla de metadatos asociados de relevancia lingüístico-histórica (diferencia con otros corpus)
• Sistematización informática de documentos
• Abierto a pruebas en mayo de 2014
• Apertura general en febrero de 2015
6
3. Finalidad de CORDIAM
• Hacer la historia del español de América
• En todos los niveles de lengua (acceso al facsímil)
• Historia externa: conocer trayectorias históricas y
migratorias (plantilla de metadatos)
• Hacer una dialectología histórica del español América
• Hacer una Gramática Histórica del Español general sin
calificativos restrictivos dialectales, o con los adjetivos
restrictivos dialectales pertinentes para el fenómeno
• Enriquecer conocimiento empírico y teórico de
Lingüística Histórica
• Estudiar fenómenos de contacto de lenguas
7
4. La construcción de CORDIAM
• Con la colaboración de investigadores
americanos, europeos y norteamericanos que
han autorizado el uso informático de sus
materiales y han elaborado en parte los
metadatos
• Con un equipo de jóvenes filólogos
(AML/UNAM)
8
Programa CORDIAM
CORDIAM es desarrollado por dos investigadores del Instituto Politécnico
Nacional (México)
• Alexander Gelbukh: http://www.gelbukh.com/
• Grigori Sidorov: http://www.g-sidorov.org/
La interfaz gráfica de CORDIAM es desarrollada por un despacho de diseño
• Cantera: www.scientika.mx
EQUIPOS DE DESARROLLO Y DISEÑO
Programa CORDIAM
5. Documentos de CORDIAM
• Archivos y/o fondos documentales: 58
• Siglo y año: XV-XX, 1493-1904
• Nacidos en América, excepto siglo XVI y las zonas de
poblamiento tardío
• Adscripción política geográfica actual: país y lugar
• Adscripción administrativa histórica:
• Virreinato (4)
• Audiencias
• Capitanías
• Gobernación
10 Titulo de la página
7. Sistematización informática
La transcripción para un corpus electrónico no puede ser
una reproducción fotográfica del original.
Algunos intentos de reproducir fielmente el documento
resultan en transcripciones poco funcionales y confusas
para búsquedas electrónicas
Regularización de transcripciones dudosas
• y con juan / nunz de herrª → minz → martinez
• y supuco a su md y a los demas mis señores relyxosos →
suplico
• abnque → aunque bna → una
13
FACSÍMIL VS TRANSCRIPCIÓN
¿Qué problemas se generan por falta de
sistematicidad informática?
• Pérdida de información léxica
• Confusión para el usuario
• Complicación en las búsquedas
Por lo tanto, la transcripción de los documentos
para su uso electrónico deben seguir criterios
claros y homogéneos
7. Sistematización Informática
8. Características Filológicas II: el documento y
su contexto
METADATOS
• Nombre
• Siglo
• Año
• Autor (datos étnicos)
• Autor (hombre o mujer)
• País actual
• Topónimo actual
• Topónimo histórico
Características filológicas
8. Características Filológicas II: el documento y
su contexto
METADATOS
• Adscripción histórica
• Archivo
• Tipo textual
• Número de folios
• Número de palabras
• Créditos
• Facsimilar disponible
• Síntesis
Características filológicas
8. Datos externos
• Nombre
• Archivo
• Número de folios
• Número de palabras
• Créditos
• Facsimilar disponible
17
8. Datos lingüísticos
• Siglo
• Año
• Autor (datos étnicos)
• Autor (hombre o mujer)
• País actual
• Topónimo actual
• Topónimo histórico
• Tipo textual
18
9. Características informáticas
• Búsquedas básicas por palabra
• Búsquedas de construcciones
• Búsquedas avanzadas por metadatos
• Búsqueda lematizada
• Puede o no distinguir mayúsculas
• Puede buscar palabras adyacentes
• Puede ordenarse por siglo, por país o por documento
• Puede hacer búsquedas aleatorias
• Despliega frecuencias: ocurrencias/número de documentos/universo de palabras
FUNCIONES DEL MOTOR DE
BÚSQUEDA
Características informáticas
9. Características informáticas
• * : Cero o más letras:
a. “cu*a” Buscar palabras con cualquier número de letras en la
posición: cura, cuchara, cuenta, curva, cuba…
b. “aunque * venga” Buscar dos palabras, con cualquier otra palabra
entre ellas
c. “*mente” Buscar una palabra terminada en –mente con cualquier
número de letras antes
20
OPERADORES LÓGICOS DEL
MOTOR DE BÚSQUEDA
Características informáticas
9. Características informáticas
• Barra lateral (tamaño ajustable)
• Selección por documento
• Marcar, borrar, mantener
• Ventana emergente con metadatos básicos por
concordancia
• Vista de ejemplo sin salir de la página de
concordancias
21
DESPLIEGE DE RESULTADOS
Características informáticas
9. Características informáticas
• Exportación (Word, Excel, e-mail, guardar en la
canasta)
• Cuenta de usuario
• Gestión de carpetas por investigación (sólo usuarios
registrados)
IMPORTACIÓN Y CUENTAS DE
USUARIO
Características informáticas
10. Fases de CORDIAM
• Motor de búsqueda
• Motor de búsqueda parcialmente lematizado
• Búsqueda avanzada
• Imagen
DESARROLLADAS
Fases de CORDIAM
10. Fases de CORDIAM
• Exportación
• Cuentas de usuario
• Facsímil
• Búsqueda en el facsímil
• Localización geográfica de documentos (Mapas)
• Datos cuantintativos
25
PREVISTAS PARA DESARROLLO
Fases de CORDIAM
11. Tipología textual para CORDIAM
Problema 1: Adscripción textual en base a clases y géneros
• Cartas entre particulares • Inventarios de barcos
• Cartas oficiales • Inventarios de bienes de difunto
• Descripciones geográficas • Notas, billetitos y recados
• Relaciones de sucesos • Testamentos
• Actas de cabildo • Testimonios en juicios
• Probanzas de méritos • Docs. diversos probatorios en ju.
• Juicios civiles • Bandos
• Juicios de residencia • Decretos
• Capitulaciones • Denuncias / Querellas
• Informes • Sentencias
• Memoriales de méritos • Nombramientos
• etc., etc., etc.
26
11. Tipología textual de CORDIAM
Problema 2: Riesgo de atomización en búsquedas
• Resultados cuantitativos muy pobres
• Corpus “pequeño” cuantitativamente para un corpus
electrónico
• Requisitos por el volumen del corpus:
• Pocos agrupamientos
• Agrupamientos grandes con “homogeneidad” interna
• Etiquetas generales que respeten el funcionamiento
de la administración americana virreinal / colonial
27
11. Tipología textual de CORDIAM
Preguntas de investigación para la propuesta tipológica
• Reflexión e investigación sobre propuestas antecedentes: Biber (1986); Biber y Conrad (2008); Koch y Oesterreicher (1990); Oesterreicher (1996), entre otros
• No sirven de mucho para CORDIAM porque toman ángulos de taxonomía distintos de cómo se construye la administración americana: ‘inmediatez comunicativa’, ‘interactivo-editado’, contenido ‘abstracto-situado’, ‘dialógicos-no dialógicos’, etc.
• ¿Qué buscaría un usuario en una tipología de un corpus en red? = Recurrencias estructurales lingüísticas: usus scribendi, gramaticales, léxicas y semánticas–pragmáticas, hasta cierto punto diferentes según grupos / tipos textuales
28
11. Tipología textual de CORDIAM
• Propuesta de tipología textual
• Eje taxonómico divisorio: tipo de circulación del
documento y cómo llega a un archivo; grosso modo es un
eje-continuum con fronteras no nítidas, pero con base
empírica fuerte y bastante homogeneidad estructural
interna = Más privado > Más público
• Cuatro tipos (con 48 subclases en total)
• Documentos entre particulares: cartas y otros
• Cronísticos
• Jurídicos
• Administrativos 29
11. Ejes que guiaron la clasificación
• Es una clasificación-guía de lo lingüísticamente “esperable”: léxico diferente; sintaxis diferente (mayor o menor uso de subordinación, estilo directo o no, tipos de anáforas, etc.); morfología diferente (sistemas pronominales), etc.
• No es una tipología textual en abstracto de clases de textos, sino que tiene 4 bases empíricas: lingüística-estructural, ecdótica, temática y curso de la documentación
• La clase 1 llega a los archivos por azar (no siempre es así, límites borrosos y complejos), las otras 3 son parte integral de las estructuras administrativas y jurídicas de la América Española
• Cuanto más grande y heterogénea es en apariencia la clase, más homogénea-empaquetada y sencilla de adscribir a los criterios / parámetros expuestos
30
11. Muestra de tipos textuales
1. Documentos entre particulares
31
Mi mas estimada y querida esposa de / mi corazon me alegrare que al
rresibo desta / te alles con la salu que yo para mi deseo / en conpañia, de
mis dos amadas iJas de mi corason / y de tu familia y mia / la que yo
difruto es buena para que me mandes / que lo are como me toca de
obligasion
2. Cronísticos
Y / así diçen que los vnos salieron de qüebas, los otros de çerros, /25 y
otros de fuentes, y otros de lagunas y otros de pies de árboles, / y otros
desatinos desta manera; y que por auer salido y enpeçado / a muntiplicar
destos lugares y auer sido de allí el prinçipio / de su linaje, hizieron guacas
y adoratorios estos lugares / en memoria del primero de su linaje que de
allí proçedió; /30 y así cada nación se uiste y trae el traje con que a su
guaca / uestían.
11. Muestra de tipos textuales
3. Jurídicos
yo Jose Candido Baes besino de el pueblo de antimano y residente de la Ciudad de San Felipe / Ante V paresco y digo que el rreo nombrado ylario Silba es un honbre que me a sentensiado a muerte con una lansa que a sacado en mi misma casa y por no aber tenido los testigo (sic) no me presente ante V y de contra A una muJer que tengo en mi Casa a sacado un puñal para matarla en la casa de el Señor Miguel Bara por un pique que tie <inter: ne> con hella por una mujer que el tenia y llo la hise salir de el Sitio de Carapa y por Cullo motivo Cuantas beses pasa por mi casa a distintas horas de la noche se benga Con pegar un astaso a las tiJas de mi CoRedor que estan a la bista las tiJas quebradas en dicho Coredor
4. Administrativos
Muy magnífico señor: / El que la presente lleva es Juan Freyle, que / a servido en esta haçienda de varvero para curar / los enfermos. El qual començó a servir dende /5 quinçe de março, año de 1556 años. Sirvió hasta / quinçe de nobienbre del dicho año. Ganava a raçón / de çien pesos de minas cada año, que ansí estava / conçertado. Dévensele ocho meses como pareçerá / el asiento por el libro de la contaduría.
32