04. JPR504 - El Software Libre y La Linguistica

Embed Size (px)

Citation preview

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    1/11

    El Software libre y la

    lingstica

    Maria Francisca Ribeiro de Araujo Santo

    OrceroFCLAR/UNESP (Brasil)

    [email protected]

    David Santo OrceroConsultor de soluciones con software libre

    [email protected]

    La sociolingstica es un rea en la que la informtica an no hapenetrado completamente. Los autores de este trabajo hemos intentadoinformatizar una investigacin sociolingistica completa usando

    software libre en todos los lugares donde esto ha sido posible, inclusoimplementando software en alguno de los pasos. En este trabajoestudiaremos las ventajas de la informatizacin con software libre de lasociolingsitica, qu software est disponible, cual ha sido nuestaexperiencia, y aquellos puntos donde todava no existe reemplazo alsoftware propietario.

    1. Introduccin al problema de la informtica y

    1

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    2/11

    El Software libre y la lingstica

    la sociolingstica

    La sociolingstica se encuentra con dos problemas serios en la investigacin decampo, que son la grabacin y el almacenamiento de datos del audio. Hasta ahora, lagrabacin y el almacenamiento de datos de investigaciones de campo en lingstica se

    ha realizado por medio de las cintas cassettes. Esto hace al procedimiento detranscripcin fontica extremadamente complejo y engorroso, debido al ruido propiode las cintas, a la prdida de calidad de las grabaciones por su uso, con la prdida dedatos invaluables para la ciencia de hablas, de acentos y hasta de lenguas que handesaparecido o estn en vias de desaparicin, y las cintas con las conversaciones conlos hablantes se estan degradando, perdiendo toda la informacin.

    La propia investigacin y transcripcin fontica de las cintas es destructiva: elmovimiento de ir y venir con la cinta cassette, muchas veces, causa la ruptura de lacinta y la prdida irrecuperable de los datos grabados. Hacer copias mltiples de las

    cintas cassettes presenta disminuciones de la calidad de la cinta original, adems de quela copia es siempre de peor calidad que el original; adems de esto, las cintas sonvulnerables al moho con el tiempo cuando no son bien conservadas. Dependiendo delalcance de la investigacin, el nmero de cintas puede llegar a cantidades realmenteenormes y la gestin de estos grandes volmenes de datos de audio se complica mucho.

    Por ltimo, a pesar de que automatizramos el proceso de recogida de datos, elprocesamiento de los datos es an engorroso y propenso a fallos. El nico programaexistente que estudia las correlaciones entre datos lingisticos, el VARBRUL, es unprograma de MS-DOS de cdigo cerrado, lento y muy poco amigable para el usuario.

    Este trabajo tambin corresponde al aspecto informtico de una investigacin realizadasobre un dialecto hablado en Caxias, Brasil, una pequea ciudad de 40000 habitantes,la mayor parte de ellos ancianos, por un impresionante flujo migratorio de los jvenes aciudades que presentan posibilidad de empleo, que ha hecho que la poblacin de laciudad caiga a su tercera parte en quince aos. Este trabajo de investigacin ha sidorealizado en su integridad con herramientas libres, para analizar la posibilidad deinformatizar todo el proceso de colecta y gestin de datos, as como publicacin de losresultados usando solo software libre.

    Este trabajo ha sido financiado parcialmente por la FAPESP, organizacin de la queMFRASO es becaria de investigacin.

    2. Descripcin del problema de las cintas

    La cinta ha sido hasta el momento un elemento indispensable en las grabaciones de

    2

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    3/11

    El Software libre y la lingstica

    datos sociolingsticos. No queremos negar su gran importancia en el pasado, perotampoco queremos negar algunos problemas inherentes a su uso, entre los que los mscomunes son:

    Las cintas se estropean fcilmente con el movimiento continuado de avanzar y

    retroceder.

    "La cinta se rompi exactamente en el lugar donde yo necesitaba or la grabacinuna vez ms!" "Y ahora? Los hablantes hace tiempo que murieron!" "Perd eltrabajo de un ao! Yo intent encolar los puntos de la cinta con un cinta adhesiva,pero no se qued bien". sas son algunas frases de desesperacin por perder losdatos de una investigacin por rotura de la cinta. Obtener nuevos datos no es unatarea fcil, y en el caso de comunidades de difcil acceso, en vas de extincin oextintas es imposible, y esa parte de la cultura de la humanidad se habr perdido parasiempre. Ir al campo presupone disponer de tiempo, paciencia y habilidad de trabajar

    con una comunidad de hablantes (Labov 1994). Muchas veces los hablantes noaceptan a ser entrevistados temerosos de represalias polticas, lo que hace los datosdifciles de conseguir aunque la comunidad que posea esa variante siga viva.

    Con el tiempo, las cintas van perdiendo en calidad, aunque no se usen.

    Aunque se tomen los cuidados necesarios en la conservacin de las cintasmagnticas, el tiempo acaba por destruir la calidad de las cintas y esto es inevitable.

    Las cintas son sensibles a la humedad, al calor y los campos magnticos, aunquesean campos pequeos.

    El moho es el principal enemigo de las cintas magnticas que se quedan guardadaspor mucho tiempo, llegando incluso a destruirlas. Para resolver ese tipo delproblema, es importante que un especialista realice una limpieza peridica de lasuperficie de la cinta. Aun as, una limpieza cuidadosa es econmicamente inviable,por la gran cantidad de metros de cinta involucrados. Por ello, los datos terminanperdindose dentro de los laboratorios.

    Las cintas ocupan mucho espacio fsico.

    Para grabar un hablante, se usa una cinta de 60 minutos, por lo menos. Multiplicandoesos minutos por 12, para construir la muestra de investigacin ms simple posiblecon representatividad, tendremos el equivalente de 720 horas de grabaciones queocuparn 12 cintas, por lo menos. Si la muestra crece, como son las muestras

    3

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    4/11

    El Software libre y la lingstica

    dialetolgicas (cf. Ferreira &Cardoso 1994), esa equivalencia se triplica y losperjuicios sern, entonces, la falta del espacio en los laboratorios, la conservacin delas cintas (comentado en (c)) y su distribucin.

    La copia es siempre peor que el original.As como las cintas se pierden con el tiempo, se daan tambin con el uso. Lo peores que la copia es siempre es de peor calidad que el original. La calidad de lagrabacin y los datos lingsticos quedan comprometidos, y siempre se degradan.

    3. Los formatos digitales libres, la solucin

    definitiva.Los problemas mencionados arriba pueden resolverse con el uso de formatos digitalespara grabar, copiar, guardar y distribuir datos, con alta calidad y mayor comodidad demanipulacin de los mismos por parte del investigador. Las ventajas principales son:

    Podemos adelantar y retroceder tantas veces como queramos el sonido paraescucharlo cuantas veces queramos, sin el riesgo de daar el medio.

    Al contrario de las cintas magnticas que pueden romperse durante ese

    procedimiento, los datos digitales pueden adelantarse y retrocederse sin problemas.Los datos digitales no pierden calidad por este proceso.

    Los datos digitales se degradan muy poco con el tiempo.

    Los datos digitales prcticamente no se daan con el tiempo. La vida de una cintaDAT, o de un CD-ROM bien cuidados son mas largas que la de una cinta. Adems,como las copias recuperan la calidad del original, sacando copias nuevas cada 2 o 3aos y reemplazndolas por los originales aseguraremos preservar los datos tantotiempo como queramos.

    Existen medios digitales que se resisten a la humedad y a los campos magnticosfuertes.

    4

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    5/11

    El Software libre y la lingstica

    La tecnologa digital ha estado desarrollando mucho en este ltimos seis aos y, hoy,nosotros podemos encontrar en el mercado formatos bastantes resistentes, como es elcaso de los CD-ROM industriales. Con esos formatos, los datos en ellosalmacenados no pierden. Los CDs grabables son mucho ms delicados, y no resistenla humedad -aunque la resistan mejor que las cintas de audio-, pero si los campos

    magnticos fuertes.

    En espacios pequeos podemos tener grandes cantidades de grabaciones dehablantes.

    En el mundo moderno, la falta de espacio es un problema que nos afectadirectamente, sobre todo cuando estamos hablado varias horas de horas degrabaciones para cada hablante, con cientos de hablantes. En un solo CD-ROM, enformato mono -suficiente para un hablante, ya que nos interesa la calidad del sonido,no el estereo- podemos ahorrar el espacio fsico de aproximadamente 12 o ms cintas

    cassettes de 60 minutos, dependiendo de tipo de grabacin seleccionada.

    Y el ms importante: la copia tiene la misma calidad que el original.

    Al contrario de las cintas magnticas, los datos digitales no pierden su calidadcuando se copian. La calidad se queda as como en el original y, hacindo copias deseguridad de los datos guardados, estamos seguros que los datos nunca se perdern.Este procedimiento es ms simple y mucho ms barato econmicamente que laslimpiezas tradicionales de las cintas cassettes para quitar humedad.

    El hecho de que el formato digital sea libre es fundamental si pensamos dentro de unadcada, o un siglo, cuando no queden hablantes vivos del dialecto estudiado, o seanecesario hacer un estudio diacrnico -estudio de la evolucin temporal de un dialecto-.El formato debe ser abierto, para que en el futuro los datos sean legibles por losinvestigadores, y libres, para que no sea delito construir un reproductor de dichosformatos.

    4. Formato digital y medio digital escogido.Como medio digital hemos escogido el CD-ROM grabable, por su alta capacidad, bajoprecio y porque las copias son iguales al original. El problema de ser el CD-ROMgrabable sensible a perforaciones, suciedad y humedad se ha resuelto sacando varias

    5

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    6/11

    El Software libre y la lingstica

    copias de los datos, y guardndolos en lugares distintos. Solo se echa mano de lascopias guardadas para sacar copias de uso, con el matiz de que cuando se saca unacopia de uso se comprueba la copia, y se guarda la copia en lugar del original y se pasaa usar el original, para asegurar la rotatividad de CD-ROMs. Esta dinmica haasegurado dos aos de uso continuo de gran datos lingsticos por un grupo de

    investigacin con poca o nula experiencia informtica, sin perdida de datos -algo quecon el mecanismo antiguo de cintas no era posible-.

    El formato digital ha sido un problema ms delicado. Cuando comenzamos el proyectohace dos aos tuvimos que escoger MP3, a pesar de ser un formato patentado y nolibre, por varias razones: era abierto y la situacin de las patentes no haba llegado a losniveles actuales -que violan el sentido del ridculo-. Cuando comenzamos a trabajar ennuestro programa que graba directamente de una forma amigable para el lingista, lacapacidad de grabacin de una corriente de datos "on the fly" de forma fiable de OggOrbis era limitada.

    Por ello, hemos grabado muchos datos en formato MP3, primero convirtiendo los datosde los ltimos aos de investigacin a Wav y posteriormente a MP3 usando bladenc.Cuando nuestro programa fu desarrollado, los datos fueron codificados directamentecon nuestro programa a formato MP3. Ahora estamos trabajando en portar nuestroprograma a Ogg Orbis, para poder liberarlo sin problemas legales. La prxima versinde nuestro programa, del que hablaremos ms adelante, soportar Ogg Orbis comoformato nativo.

    5. El sistema operativo Linux como alternativapara el uso de nuestro software

    Es muy comn or las expresiones del tipo: " Linux es muy difcil de usar", "Eso esslo para el gur", entre otras. Entornos como KDE han permitido que el sistema seausado por lingistas sin problemas de adaptacin al nuevo entorno, y con fiabilidad, sincuelgues, ni prdida de datos, ni problemas de virus. Todas las aplicaciones usadas,salvo el VARBRUL, tienen un equivalente para Linux, por lo que el trnsito ha sidofcil. Por ello, la opcin escogida ha sido Linux+KDE, con un estilo tipo Windows 95.

    El uso de KDE ha permitido una adaptacin automtica de los lingistas al nuevoentorno, siendo poco perceptible para la mayor parte de los usuarios el cambio desistema gracias al estilo de Windows 95.

    Otro problema distinto es el de la instalacin de Linux. El hecho de que no sea posibleen Brasil comprar mquinas con Linux preinstalado ha hecho que tengamos que

    6

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    7/11

    El Software libre y la lingstica

    depender de un informtico para ensearnos a instalar Linux y configurarloadecuadamente. Adems, ha habido que escuchar muchas tonterias de los vendedoresde hardware cuando algo fallaba dentro de la garanta. Como ejemplo, una vez que elprocesador de un ordenador se quem porque el ventilador no haba sido colocadocorrectanente, la escusa de la tienda para no responder a la garanta fue que el

    procesador se quem porque tena dos sistemas operativos, y "todos saben que con dossistemas operativos las mquinas se calientan el doble".

    La distribucin empleada para nuestra investigacin ha sido la Mandrake, por sucomodidad de instalacin y por tener todas las herramientas que necesitbamos en losCDs que pueden ser descargados de Internet gratuitamente. Aunque Debian fue unaprimera opcin, el hecho de no tener un mecanismo de instalacin comprensible por unlingista, y el hecho de no traer KDE por defecto hizo que fracasara el primer intentocon Debian por un exceso de dependencia con el informtico, y finalmenteescogiesemos Mandrake como opcin. Cualquier otra distribucin razonablementecompleta debera ser vlida, incluyendo Debian cuando tenga un mecanismo deinstalacin comprensible por no informticos.

    6. EL proceso de grabacin

    En un primer paso, tenamos gran cantidad de cintas de investigaciones antiguas quecorran riesgo de perderse. Por ello, digitalizamos todas las cintas con el programaBroadcast 2000. Despus convertimos los datos de formato WAV a formato MP3 conbladenc. Estos datos siguen siendo usados en formato MP3 para investigaciones en la

    actualidad, sin ninguna prdida asociada al uso continuado por varios investigadores alque han sido sometidos los datos.

    Sin embargo, en el proceso de conversin de cinta a MP3 se perda en calidad, y ellonos llev a desarrollar un programa, el liverecord. Este programa graba y codifica enformato MP3 en vivo, grabando ya en formato MP3 por lo que podemos grabar horasde audio sin llenar el disco duro, que en los portatiles suelen ser pequeos. Nuestroprograma tiene los mismos botones que un grabador tradicional, ms dos campos:frecuencia de grabacin y tiempo de corte. Cada tiempo de corte el programa cierra elarchivo que se est grabando y genera un archivo nuevo, lo que facilitar el uso

    posterior para organizar los datos. El proceso grabacin es simple. El investigador enlugar del grabador y el micrfono puede llevar un porttil y un minimicrfono desolapa, y activar el programa que hemos desarrollado. El resto lo hace el programa solo.

    El programa ha sido desarrollado sobre KDE usando Kdevelop. Ahora no estdisponible por problemas legales relacionados con el formato MP3 -podemos ser

    7

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    8/11

    El Software libre y la lingstica

    procesados legalmente si lo liberamos-; estamos trabajando en la conversin delprograma a Ogg Orbis -conversin que supone no solo cambiar el formato degrabacin, sino tambin incluir un interfaz amigable para la audicin de datos, vease elprximo punto-; en el momento que la conversin sea realizada el programa serdisponibilizado en la red. El coautor de este trabajo, que es el informtico mencionado

    en los puntos anteriores, ya no es ms becario de investigacin y trabaja en la industriaprivada, por lo que las fechas de terminacin estn abiertas y dependen de sudisponibilidad de tiempo libre.

    7. La audicin de los datos

    Para el trabajo de audicin de datos, el programa que adoptamos fue el Broadcast 2000.Es de fcil manejo, y en l hay herramientas que lo hacen indispensable para el

    tratamiento acstico de los datos, como: demarcacin de frecuencia y de niveles,demarcacin espacial en la grabacin que debe repetirse tantas veces como seannecesarias, y filtros acsticos que permiten limpiar los ruidos, entre otras utilidades.

    En total, en los ltimos aos hemos procesado ms de 1500 horas de habla, con unacomodidad impresionante.

    Sin embargo, el hecho de mover nuestro programa a Ogg Orbis nos va a suponer unproblema, ya que el Broadcast 2000 no soporta Ogg Orbis. Los programas que existenpara Ogg Orbis estn an muy lejos de lo que necesitamos para nuestra investigacin,por lo que en la conversin a Ogg Orbis estamos tambin desarrollando el interfaz

    grfico de audicin.

    8. Procesamiento de datos

    El procesamiento de datos ha sido realizado con el programa VARBRUL, programaespecializado en el clculo de interdependencias de datos fonticos. Desgraciadamenteno hay equivalente libre, por lo que tuvimos que usarlo desde xdos con freedos. Noconocemos planes de desarrollo de ningn projecto libre para sustituirlo.

    9. Procesamiento de textos

    Una vez calculados los resultados, hay que publicarlos en revistas cientficas. La mejor

    8

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    9/11

    El Software libre y la lingstica

    solucin para su publicacin sera LaTeX, como veremos en los prximos puntos. Dehecho, uno de los autores de este texto, lingista de formacin, esta usando LaTeX pararedactar su doctorado.

    El problema es que ninguna revista de lingstica acepta LaTeX, por lo que hay queadaptar el artculo a formato Word. El nico de los procesadores de textos para Linuxque exporta a Word y no se cuelga, ni destroza el formato, ni destroza el fichero esStarOffice, que no soporta las fuentes fonticas, por lo que no hay ninguna alternativarazonable libre a Word que permita exportar a formato Word y soporte el alfabetofontico.

    Este no es solo un problema de la lingstica: tambin lo encontramos en Linux: lasrevistas y los congresos para Linux tienen los mismos problemas. La mayor parte de lasrevistas solo aceptan Word; este mismo congreso solo acepta DocBook, con lo quehemos tenido que aprender otro sistema, mucho menos potente, para poder presentar eltrabajo, y que tampoco nos permite soportar el alfabeto fontico, por lo que DocBook

    tampoco valdra para trabajar para lingstica.Las razones por la que LaTeX sera perfecto es:

    Calidad profesional y economa del espacio.

    El resultado final de LaTeX para publicar textos, principalmente artculos, relatorios,disertaciones, tesis, etc., es excelente. El producto final tiene calidad profesional, loque no se consigue con Word.

    La economa de espacio fue otra razn importante. Uno de los autores de esteartculo necesit nueve disquetes para una disertacin de mestrado de 135 pginas, ycon problemas en las impresiones por las imgenes -con fuerte personalidad-. El otroautor de este artculo realiz un proyecto fin de carrera de casi 500 pginas, con grancantidad de grficos y ecuaciones de mecnica cuntica. Caba en un disquete, y seimprima en cualquier impresora sin problemas.

    10. Calidad en las publicaciones

    Uno de los autores de este artculo ha visto como sus artculos eran destrozados al serpublicados en revistas del rea. Complejas transcripciones fonticas en IPA eranconvertidas en ristras de olitas, muequitos y smbolos de Yin-Yan. A este mismocongreso con DocBook habra sido imposible presentar un trabajo de fontica, ya queDocBook no tiene capacidad de representar el IPA.

    9

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    10/11

    El Software libre y la lingstica

    Por otro lado, con el potentsimo paquete Tipaman de LaTeX podemos realizartranscripciones fonticas de gran complejidad con sencillez, y con un resultado que nodesaparece, los grficos no saltan, y no depende de la impresora.

    Adems, otras caractersticas de LaTeX interesantes son:

    Los grficos no desaparecen.

    Los grficos no se deshacen por la pgina.

    Si se modifica el texto, el ndice se ajusta solo.

    Si se modifica el texto, la bibliografa se ajusta sola.

    Las notas de pie de pgina estn siempre donde deben.

    Si se imprime dos veces el mismo trabajo tiene el mismo nmero de pginas.

    Se pueden imprimir las 100 primeras pginas en una impresora, y otras 100 pginas

    en otra sin tener que tocar el texto El proceso de impresin es fcil y limpio.

    Los diacrticos salen siempre encima de la letra donde se ponen -el alfabetofontico, con casi una docena de diacrticos, esto es especialmente importante-.

    Si se manda el texto a otra persona por correo electrnico, l lo imprimirexactamente como fue generado. Sobre todo, no cambia el IPA por simbolitos raros.

    11. ConclusinActualmente un lingista puede utilizar software libre para prcticamente todo elproceso de su investigacin, salvo en el estudio de correlacin de datos lingsticos,que se hace con VARBRUL, y en la creacin de los artculos para revistas, que se debeusar un WinWord antiguo con Wine. El avance de los editores de textos libres hacesuponer que en el futuro el WinWord ser prescindible, aunque no soluciona elproblema principal: la nica forma que hemos encontrado de poder realizartranscripciones fonticas de calidad con IPA ha sido mediante LaTeX; lo que sirveapenas para tesis doctorales, ya que no hay revistas lingsticas y prcticamente no hay

    revistas de informtica que acepten LaTeX. Por ejemplo, sera imposible incluir unatranscripcin fontica como demostracin en este congreso.

    El uso de Linux es fcil para los lingistas; salvo en la instalacin de Linux, y en lareclamacin ante fallos del hardware en garanta, en el que le echarn los montadoresde ordenadores la culpa a Linux para no responder de la garanta. Vendedores de

    10

  • 7/31/2019 04. JPR504 - El Software Libre y La Linguistica

    11/11

    El Software libre y la lingstica

    ordenadores que vendan mquinas con Linux preinstalado y que no se escuden enLinux para no responder ante la garanta supone un paso fundamental en este aspecto.

    Hemos desarrollado un programa para grabacin en vivo, liverecord, para permitirsolucionar uno de los problemas de la investigacin. Nuestro problema fundamental esque este programa fue desarrollado codificando en MP3, y liberarlo supondra unaquiebra de patente. Estamos convirtiendolo a Ogg Orbis -despacio, desgraciadamente,ya que el que lo est haciendo lo hace en su escaso tiempo libre-. Esperamos mejorareste programa y poder desarrollar ms cdigo de lingstica computacional en el futuro.

    Maria Francisca Ribeiro de Araujo tiene una beca de doctorado de la FAPESP.

    Bibliografa

    Carlota Ferreira y Suzana Cardoso, A dialetologia no Brasil: Metodologia do trabalho

    lingstico e atlas dialetolgico, regionalismos lxicos, 1a edicin, Contexto,1994.

    William Labov, Principles of linguistic change: Internal factors., 1a edicin,Blackwell , 1994.

    11