12
Inducci´ on autom´ atica de una taxonom´ ıa multiling¨ ue de marcadores discursivos: primeros resultados en castellano, ingl´ es, franc´ es, alem´ an y catal´ an Automatic induction of a multilingual taxonomy of discourse markers: first results in Spanish, English, French, German and Catalan Rogelio Nazar Instituto de Literatura y Ciencias del Lenguaje Pontificia Universidad Cat´ olica de Valpara´ ıso, Chile [email protected] Resumen: Este art´ ıculo presenta una propuesta metodol´ ogica para la inducci´ on autom´ atica de una taxonom´ ıa multiling¨ ue de marcadores discursivos, que en el caso del castellano corresponden a unidades tales como sin embargo, por lo tanto, por un lado, etc. Se propone primeramente un m´ etodo para separar estas unidades del resto del vocabulario por medio del c´ alculo de su cantidad de informaci´ on, seguido de su agrupaci´ on en categor´ ıas funcionales mediante un corpus paralelo. Finalmente, esta categorizaci´ on se utiliza como base para la obtenci´on y clasificaci´ on de nuevas unidades. Adem´ as del m´ etodo, se describen los primeros resultados, consistentes en una base de datos que actualmente supera ya los 2.600 marcadores. Palabras clave: inducci´ on de taxonom´ ıas, marcadores discursivos, part´ ıculas del discurso, lexicograf´ ıa computacional. Abstract: This paper presents a methodological proposal por the automatic induc- tion of a multilingual taxonomy of discourse markers which, in the case of English, correspond to units such as however, therefore, by the way, etc. First, a method is proposed to separate such units from the rest of the vocabulary using a measure of information, followed by a method to group them using a parallel corpus. Finally, this categorization is used as the basis for the extraction and classification of new units. Apart from the method, the first results are described, which consist of a database that currently surpasses 2600 units. Keywords: taxonomy induction, discourse markers, discurse particles, computatio- nal lexicography. 1 Introducci´on Aunque no es un tema nuevo en ling¨ ıstica, los marcadores del discurso (MD) han esta- do en el foco de inter´ es de la teor´ ıa parti- cularmente en las ´ ultimas d´ ecadas (Fraser, 1999; Mart´ ın Zorraquino y Portol´ es, 1999; Pons Border´ ıa, 2001, entre otros). Los MD son part´ ıculas discursivas que cumplen una amplia variedad de funciones, pero que no forman parte del contenido proposicional de los segmentos a los que afectan. Los ejem- plos de estas part´ ıculas pueden ser muy di- versos, como se explicar´ a m´as adelante, pero entre los m´ as frecuentes encontramos los co- nectores aditivos (adem´as,tambi´ en, etc.), los contraargumentativos (sin embargo, no obs- tante, etc.), los causales (por este motivo, por lo tanto, etc.) los reformulativos (es decir, en otras palabras, etc.), entre un variado n´ umero de otras categor´ ıas. La gran mayor´ ıa de las investigaciones que se han realizado sobre este tema han sido en el ´ambito de la ling¨ ıstica te´ orica y con un en- foque cualitativo (cf. Secci´on 2). Los m´ etodos dominantes hasta ahora han sido la intros- pecci´ on y, en menor medida, el trabajo con corpus. Sin embargo, en este ´ ultimo caso, el corpus es utilizado como herramienta explo- ratoria, mediante examen visual de l´ ıneas de concordancia de uno o algunos MD. Comparativamente, son pocos los inten- tos de afrontar este tema con las herramien- tas del procesamiento del lenguaje natural Procesamiento del Lenguaje Natural, Revista nº 67, septiembre de 2021, pp. 127-138 recibido 09-05-2021 revisado 07-06-2021 aceptado 09-06-2021 ISSN 1135-5948. DOI 10.26342/2021-67-11 © 2021 Sociedad Española para el Procesamiento del Lenguaje Natural

Inducci on autom atica de una taxonom a multilingue de

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Inducci on autom atica de una taxonom a multilingue de

Induccion automatica de una taxonomıa multilinguede marcadores discursivos: primeros resultados en

castellano, ingles, frances, aleman y catalan

Automatic induction of a multilingual taxonomy of discoursemarkers: first results in Spanish, English, French, German

and Catalan

Rogelio NazarInstituto de Literatura y Ciencias del Lenguaje

Pontificia Universidad Catolica de Valparaıso, [email protected]

Resumen: Este artıculo presenta una propuesta metodologica para la induccionautomatica de una taxonomıa multilingue de marcadores discursivos, que en el casodel castellano corresponden a unidades tales como sin embargo, por lo tanto, porun lado, etc. Se propone primeramente un metodo para separar estas unidades delresto del vocabulario por medio del calculo de su cantidad de informacion, seguidode su agrupacion en categorıas funcionales mediante un corpus paralelo. Finalmente,esta categorizacion se utiliza como base para la obtencion y clasificacion de nuevasunidades. Ademas del metodo, se describen los primeros resultados, consistentes enuna base de datos que actualmente supera ya los 2.600 marcadores.Palabras clave: induccion de taxonomıas, marcadores discursivos, partıculas deldiscurso, lexicografıa computacional.

Abstract: This paper presents a methodological proposal por the automatic induc-tion of a multilingual taxonomy of discourse markers which, in the case of English,correspond to units such as however, therefore, by the way, etc. First, a method isproposed to separate such units from the rest of the vocabulary using a measure ofinformation, followed by a method to group them using a parallel corpus. Finally,this categorization is used as the basis for the extraction and classification of newunits. Apart from the method, the first results are described, which consist of adatabase that currently surpasses 2600 units.Keywords: taxonomy induction, discourse markers, discurse particles, computatio-nal lexicography.

1 Introduccion

Aunque no es un tema nuevo en linguıstica,los marcadores del discurso (MD) han esta-do en el foco de interes de la teorıa parti-cularmente en las ultimas decadas (Fraser,1999; Martın Zorraquino y Portoles, 1999;Pons Borderıa, 2001, entre otros). Los MDson partıculas discursivas que cumplen unaamplia variedad de funciones, pero que noforman parte del contenido proposicional delos segmentos a los que afectan. Los ejem-plos de estas partıculas pueden ser muy di-versos, como se explicara mas adelante, peroentre los mas frecuentes encontramos los co-nectores aditivos (ademas, tambien, etc.), loscontraargumentativos (sin embargo, no obs-

tante, etc.), los causales (por este motivo, porlo tanto, etc.) los reformulativos (es decir, enotras palabras, etc.), entre un variado numerode otras categorıas.

La gran mayorıa de las investigaciones quese han realizado sobre este tema han sido enel ambito de la linguıstica teorica y con un en-foque cualitativo (cf. Seccion 2). Los metodosdominantes hasta ahora han sido la intros-peccion y, en menor medida, el trabajo concorpus. Sin embargo, en este ultimo caso, elcorpus es utilizado como herramienta explo-ratoria, mediante examen visual de lıneas deconcordancia de uno o algunos MD.

Comparativamente, son pocos los inten-tos de afrontar este tema con las herramien-tas del procesamiento del lenguaje natural

Procesamiento del Lenguaje Natural, Revista nº 67, septiembre de 2021, pp. 127-138 recibido 09-05-2021 revisado 07-06-2021 aceptado 09-06-2021

ISSN 1135-5948. DOI 10.26342/2021-67-11 © 2021 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 2: Inducci on autom atica de una taxonom a multilingue de

(PLN), tanto en castellano como en otras len-guas. La ventaja mas evidente del PLN sobrelos metodos cualitativos de investigacion tra-dicionales en linguıstica en este caso particu-lar es la posibilidad de obtener un inventa-rio masivo de marcadores. Esto es porque, apesar de corresponder a la categorıa de uni-dades funcionales dentro del vocabulario, nocorresponden a una lista cerrada, como la delas preposiciones, y no existe hasta la fechapor tanto un catalogo completo de los MD.Tampoco se ha producido hasta ahora totalacuerdo entre los especialistas acerca de comose pueden clasificar, ya que los enfoques yteorıas son muy diversos y a menudo incom-patibles.

El presente artıculo pretende hacer unaporte precisamente en la lınea del inventa-riado y la taxonomizacion de los MD existen-tes en distintas lenguas. Ofrece una descrip-cion de los resultados preliminares de un pro-yecto de investigacion en curso en el campode los MD mediante herramientas de PLN.Se trata de una propuesta metodologica pa-ra la induccion automatica de una taxonomıamultilingue de MD a partir de corpus parale-los, utilizando algoritmos exclusivamente es-tadısticos. En su estado actual, los resultadosdel proyecto consisten en una base de datosde 2.636 MD clasificados en 70 categorıas fun-cionales en castellano, ingles, frances, alemany catalan. Estos datos se encuentran disponi-bles para descarga desde la web del proyecto1,y van aumentando en cantidad en la medidaen que se continua con el desarrollo.

La metodologıa del proyecto incluye unacadena de procesamiento en la que en ningunmomento existe intervencion humana. Los re-sultados que se ofrecen, sin embargo, han si-do ya revisados por un grupo de linguistas,hablantes nativos en cada caso, para corregirposibles errores. La tasa de error en los re-sultados de las diferentes lenguas no superoel 5 % con excepcion del aleman, en donde latasa de error llego al 16 %.

El metodo propuesto tampoco utiliza re-cursos linguısticos externos tales como voca-bularios, diccionarios o etiquetadores morfo-sintacticos. El unico material con el que tra-baja es un corpus paralelo de gran tamano, loque facilita en gran medida la reproduccionde los experimentos en otras lenguas. Comorecurso propiamente linguıstico, se utiliza la

1http://www.tecling.com/dismark

terminologıa de Martın Zorraquino y Portoles(1999) para los nombres de las categorıas delos MD en castellano, pero esta funciona amodo de metadato externo al propio metodoy es igual de valida para las distintas lenguas.

Las unidades que el algoritmo inicialmen-te elige y segmenta como candidatos a MDconsisten en palabras o secuencias de pala-bras consideradas con bajo nivel de infor-macion segun un calculo de entropıa que secorrelaciona con el significado lexico. Seguneste calculo, mientras mayor especificidadsemantica tiene una palabra, como es el casode aquellas palabras con una denominacionprecisa (aerosol, marxismo, trastorno obse-sivo compulsivo, etc.), mayor es su cantidadde informacion. Las palabras funcionales ogramemas, tales como las preposiciones, perotambien los MD, obtienen segun este coefi-ciente una cantidad de informacion mas baja.

Una vez obtenidos los listados de candida-tos a MD, estos son organizados en categorıasfuncionales a partir del corpus paralelo, ex-plotando su similitud en cuanto a equivalen-tes en la otra lengua. Esta organizacion engrupos funcionales se convierte en una cla-sificacion que se realiza, en un primer nivel,con la ayuda de la taxonomıa ofrecida porMartın Zorraquino y Portoles (1999), de laque se obtienen los nombres para etiquetarlos grupos gracias a los ejemplos que se in-cluyen. Esta taxonomıa, sin embargo, es a suvez subdividida y enriquecida con subcate-gorıas que resultan emergentes del corpus, yque no pueden ser etiquetadas porque exce-den el nivel de granularidad de dicho recurso.

Ademas del interes que puede tener la pro-puesta en tanto metodologıa, existe tambienel que ofrece el resultado mismo. Esto es por-que en la bibliografıa sobre el tema es fre-cuente encontrar diferentes taxonomıas y lis-tados de ejemplos, pero en la mayor parte delos casos estos alcanzan unos pocos centena-res, cuando las unidades utilizadas realmentecomo MD en la lengua se cuentan por mi-les. La base de datos que resulta puede te-ner diversas aplicaciones. Por un lado, puedeinformar los metodos y las conclusiones deestudios en linguıstica teorica sobre el tema.Por otro lado, puede ser utilizado tambiencomo herramienta en el PLN para el parsingdiscursivo en tareas de extraccion de informa-cion. Por ultimo, en su estado actual puedeser tambien de interes para usuarios finales,ya sea traductores o quienes necesiten redac-

Rogelio Nazar

128

Page 3: Inducci on autom atica de una taxonom a multilingue de

tar en su propia lengua o en una L2, y bus-quen equivalentes o deseen cuidar la riquezade vocabulario de sus textos.

2 Trabajo relacionado

2.1 Antecedentes teoricos

Entre los pioneros del estudio de los MD seencuentran en particular muchos gramaticosde la lengua castellana, tales como Antoniode Nebrija, Gregorio Garces, Andres Bello ymas recientemente Gili Gaya (1943), pero laverdadera profusion de investigaciones en eltema es posterior. Comenzo con el trabajo devan Dijk (1973), quien describio las relacioneslogicas que se producen entre proposiciones atraves del uso de distintos conectores, talescomo los de disyuncion, conjuncion, causali-dad, condicion, contraste, etc. Algunos anosmas tarde, esta lınea de investigacion se vioextendida por el trabajo de Halliday y Hasan(1976), que presentaron ya una taxonomıamas completa para el caso del ingles, inclu-yendo otras categorıas ademas de las mencio-nadas por van Dijk. En paralelo, en el area delos estudios de la argumentacion en frances,Anscombre y Ducrot (1976) profundizaron enlas funciones de partıculas y conectores quehoy englobarıamos en la categorıa de MD.

Tal como senala Stubbs (1983), el analisisde este tipo de unidades evidencio las limita-ciones de lo que hasta los anos setenta habıasido una gramatica oracional y justifico enbuena medida el lanzamiento de una gramati-ca del texto, precedente de lo que luego serıael analisis del discurso. A partir de los anosochenta se multiplicarıa la cantidad de inves-tigaciones en esta subdisciplina y, particular-mente, en el campo de los MD. Los sucesivostrabajos de investigacion intentaron delinearlas propiedades definitorias de estas unida-des, es decir, aquellas que los definen comosubconjunto del vocabulario, y tambien aque-llas propiedades que permiten organizarlas encategorıas.

Parece existir consenso en que los MD re-presentan un fenomeno comun a todas laslenguas, pero no son facilmente definibles co-mo conjunto de unidades. A menudo son de-finidos como partıculas discursivas que sir-ven para facilitar las relaciones de coherenciaen los textos (Fraser, 1999; Pons Borderıa,2001), en el sentido de que ofrecen instruccio-nes para la interpretacion y van organizandola argumentacion. Su aparicion, sin embargo,no es estrictamente necesaria ya que igual-

mente en su ausencia es posible inferir rela-ciones logicas entre proposiciones como, porejemplo, la causalidad. A pesar de que a vecesno hacen falta, son sin embargo un elementoclave para facilitar el trabajo interpretativodel lector y reducen el riesgo de error o deambiguedad.

El rol de los MD tambien consiste en re-gular la interaccion entre participantes. Estosucede con mayor frecuencia en la comunica-cion oral, aunque no exclusivamente. En estesentido, se puede decir que tienen tambienuna funcion interpersonal ademas de la tex-tual, o exoforica en lugar de solo endoforica.Mosegaard Hansen (1998), por ejemplo, men-ciona los indicadores de cambio de tema o decambio de turno de los participantes en la in-teraccion. Esto hace que consideremos en lacategorıa de MD a todas aquellas partıculaspragmaticas que tienen una funcion interper-sonal, tales como partıculas modales e inter-jecciones, lo que dificulta el establecimientode un lımite preciso.

Desde un punto de vista morfologico, losMD pueden tener diversas categorıas grama-ticales: conjunciones, adverbios o preposicio-nes, casi siempre como expresiones pluriver-bales. Es posible decir que se caracterizan porser (relativamente) invariables, ya que no pre-sentan la flexion tıpica de otros tipos de uni-dades lexicas. Como explican Martın Zorra-quino y Portoles (1999), los MD no presentanflexion de genero (*por cierta) ni de numero(*sin embargos); casi nunca admiten modifi-cadores (*muy sin embargo, pero sı muy porel contrario); no pueden ser negados (*no asaber) ni coordinados (*a saber y sin embar-go).

Desde un punto de vista sintactico, Schif-frin (2001) ha senalado que ocupan frecuente-mente una posicion inicial en la oracion, pe-ro tambien pueden ocupar otras posiciones.Suelen ser tambien parenteticos, es decir quesuelen aparecer entre pausas o, en el caso dela lengua escrita, signos de puntuacion, co-mo comas o puntos. Esto parece indicar queno forman parte de la estructura sintacticade la oracion. Sin embargo, nuevamente estatampoco parece una regla firme, ya que tam-bien es posible encontrarlos en una posicionno parentetica. En cualquier caso, no estanconfinados a la oracion, y tienen la capacidadde afectar alternativamente a distintos nive-les, ya sea al intraoracional o bien al extra-oracional o discursivo (Pons Borderıa, 2001;

Inducción automática de una taxonomía multilingüe de marcadores discursivos: primeros resultados en castellano, inglés, francés, alemán y catalán

129

Page 4: Inducci on autom atica de una taxonom a multilingue de

Brinton, 2010).Posiblemente sea el punto de vista

semantico el unico que permita una distincionmas clara del conjunto, ya que se caracterizanpor una falta de contenido referencial o pro-posicional. Aquı tambien es preciso hacer lasalvedad, sin embargo, ya que es posible quealgunos conserven parte del significado lexi-co que alguna vez tuvieron y que perdierondurante la evolucion historica de la lenguaa traves de un proceso de gramaticalizacion(Traugott y Dasher, 2002; Wichmann y Cha-net, 2009).

Ademas de los intentos por definir a losMD como conjunto, otro aspecto que ha preo-cupado a los teoricos es el de diferenciar lasdistintas clases que existen. En este aspec-to, sin duda el trabajo de Halliday y Hasan(1976) es pionero en el esfuerzo de establecercategorıas. Sin embargo, nuevamente destacala tradicion espanola como la que mas se hacentrado en la categorizacion, como se puedeapreciar en los trabajos de Casado Velarde(1993), Montolıo (2001), Calsamiglia y Tuson(1999) y, en particular, Martın Zorraquino yPortoles (1999).

El ultimo trabajo es el que ha ofrecido lataxonomıa mas exitosa y que ha influido in-cluso en la clasificacion de MD en otras len-guas, como por ejemplo el aleman (Bluhdorn,Foolen, y Loureda, 2017). Consiste en unaclasificacion en dos niveles: primero ofreceuna serie de categorıas mas generales queluego se subdividen en categorıas mas es-pecıficas. Las categorıas mas generales coin-ciden con las que ya han sido senaladas porotros autores, tales como los estructuradoresde la informacion, los conectores, reformula-dores, operadores argumentativos y marca-dores conversacionales. Pero luego cada unade estas grandes categorıas se subdivide yası tenemos entonces, por ejemplo en el casode los conectores, los aditivos (ademas, en-cima, aparte, etc.); consecutivos (por tanto,por consiguiente, por ende, etc.) y contraar-gumentativos (sin embargo, no obstante, encambio, etc.).

2.2 Antecedentes de analisis deMD con herramientas de PLN

El tema de los MD ha recibido mas atencionpor parte de la linguıstica teorica que de lalinguıstica computacional o del PLN. En par-ticular, es llamativamente poco tratado enla bibliografıa sobre analisis computacional

del discurso, que es donde serıa mas natu-ral encontrarlo. En comparacion con el enor-me volumen de tıtulos del area, son pocoslos trabajos que tratan explıcitamente sobreMD, como Stubbs (1996) o Moore y Wiemer-Hastings (2003).

Ademas, la gran mayorıa de las publica-ciones del ambito de la linguıstica teorica de-dicada al tema de los MD consiste en el anali-sis cualitativo de uno o unos pocos casos deMD, como por ejemplo el caso de Urgelles-Coll (2010) en ingles o Cardona (2014) encastellano, entre muchos otros. Comparati-vamente, son pocos los intentos por ofrecercatalogos exhaustivos de los MD que existenen distintas lenguas, que es justamente el areaen la que las herramientas de PLN podrıanprestar un mejor servicio. Sı existen algunosesfuerzos por recopilar inventarios amplios deMD, como pueden ser el trabajo de Knott(1996) en el caso del ingles, el de Stede (2002)para el caso del aleman, el de Roze, Danlos,y Muller (2012) para el caso del frances, o losde Santos Rıo (2003) y Briz, Pons, y Portoles(2008) para el caso del castellano, entre otros.Sin embargo, el esfuerzo humano que exige lacompilacion manual de estos listados implicauna gran dificultad para la obtencion de lis-tados verdaderamente exhaustivos. Tal comosenalan Lopes et al. (2015), las herramientasde PLN son ideales para esta tarea, y estopuede explicar la aparicion de una nueva ten-dencia en linguıstica computacional que des-cubre un renovado interes por la extraccion ycatalogacion de MD. Y un rasgo comun quepresentan estos estudios mas recientes pareceser el analisis de pares de lenguas, frecuente-mente mediante corpus paralelos.

En el caso del citado trabajo de Lopeset al. (2015), el par de lenguas viene dadopor la aplicacion de un sistema de traduccionautomatica. Parten de un listado de MD eningles generado de manera manual y se limi-tan a realizar la traduccion de este listado adiferentes lenguas.

En un trabajo anterior (Robledo y Nazar,2018) se propuso un enfoque basado en clus-tering a partir en corpus paralelo aplicado alcaso de los MD en castellano. Aquel meto-do consistio en obtener grupos de MD conequivalencia funcional, la cual viene dada porcompartir equivalentes en otra lengua. La li-mitacion de dicho metodo es que implica lautilizacion de variados recursos linguısticoscomo etiquetadores morfosintaticos, gazetteer

Rogelio Nazar

130

Page 5: Inducci on autom atica de una taxonom a multilingue de

y algoritmos de clustering aglomerativo queson computacionalmente costosos debido a sucomplejidad cuadratica.

Otros autores han optado por el uso dealgoritmos de aprendizaje automatico, comoSileo et al. (2019), en el que utilizan comomaterial de entrenamiento un grupo de MDen ingles generado de manera manual. Se con-centran en la extraccion de MD parenteticosde alta frecuencia y en posicion inicial de ora-cion, y el insumo que utilizan son las pistascontextuales, entendidas como enegramas depalabras. Tambien en este caso se trata deuna metodologıa de alta complejidad, tantoconceptual como computacional, que necesi-ta de variados recursos externos que dificul-tan la reproduccion de experimentos en otraslenguas.

En relacion con estos esfuerzos recientespara el procesamiento de MD dentro de lalinguıstica computacional, el presente artıcu-lo representa una contribucion mas en la mis-ma direccion, ya que se propone conseguir unlistado amplio de MD. De los trabajos men-cionados, el que mas se le parece es el de Ro-bledo y Nazar (2018), en tanto explota el usode corpus paralelos para encontrar la equi-valencia entre MD de una misma lengua. Encontraste con todos los mencionados traba-jos, sin embargo, la virtud principal del que sepresenta ahora es que se trata de un metodomucho mas simple, ya que no requiere practi-camente de ningun recurso externo. Esto re-presenta una gran ventaja en dos sentidos:en primer lugar, disminuye el coste compu-tacional, lo cual facilita el procesamiento degrandes volumenes de datos, y en segundolugar, posibilita la reproduccion de los expe-rimentos en diferentes lenguas. Finalmente,en contraste con los estudios cualitativos, laventaja de un enfoque como el que se pre-senta en este artıculo es la gran cantidad dedatos que genera, ya que se obtienen listadosde miles de MD, en contraste con los pocoscentenares a los que llegan la mayorıa de losenfoques cualitativos e incluso varios de losque proponen metodos automatizados.

3 Metodologıa

Como ya se menciono en la introduccion,con esta metodologıa nos proponemos en pri-mer lugar identificar los MD del corpus se-parandolos del resto de las unidades del voca-bulario (Seccion 3.1), para luego clasificarlosde manera inductiva en categorıas funciona-

les (Seccion 3.2), que son luego etiquetadasde modo tambien automatico (Seccion 3.3).Una vez que existe una taxonomıa nuclear obasica, comienza el proceso de poblamientoextensivo de esta estructura (Seccion 3.4).

3.1 Vaciado de MD a partir delcorpus

La primera fase de la metodologıa consiste enresponder a la pregunta de como separar lasunidades consideradas MD del resto de laspalabras del corpus. Para ello, la decision fueapostar por una caracterıstica propia, aun-que no exclusiva, de los MD, que es su bajocontenido informativo.

Naturalmente, no se puede decir que losMD no tengan informacion en el sentido deque no sean portadores de ningun tipo de sig-nificado. Como se menciono en la Seccion 2,los MD poseen un significado funcional, yaque son el vehıculo de distintas relaciones desentido. Pero este es un tipo de significadodistinto al valor designador o referencial quetienen tıpicamente las unidades lexicas. En elextremo de las palabras funcionales encontra-mos las preposiciones, clase cerrada y perfec-tamente catalogada en las lenguas conocidas,y en el extremo opuesto los terminos especia-lizados. Pero entre un extremo y otro de estecontinuum encontramos una gran diversidadde unidades que no poseen el significado lexi-co especıfico de los nombres o, si lo tuvieronalguna vez, lo perdieron en un proceso de gra-maticalizacion en la historia de la lengua (cf.Seccion 2.1).

En este caso, definimos cantidad de infor-macion en un sentido formal como un valorque indica cuanto ayuda a predecir una varia-ble aleatoria el resultado de otras variables.Claramente, la distribucion de palabras en elcorpus no es aleatoria ya que, si lo fuera, laaparicion de una palabra no podrıa informar-nos acerca de la aparicion de otras. Por ejem-plo, si en un texto aparece la palabra caballo,existe una probabilidad de que tambien apa-rezcan otras palabras de su campo semantico,y esta probabilidad se incrementa cuanto masespecializada sea esta unidad. De esta forma,si encontramos una unidad como trastornoobsesivo compulsivo, existe una alta probabi-lidad de encontrar otras que tienen relacioncon este trastorno, terminos de la psiquiatrıatales como los sıntomas asociados o los farma-cos que se utilizan para tratarlo.

No todas las unidades del vocabulario po-

Inducción automática de una taxonomía multilingüe de marcadores discursivos: primeros resultados en castellano, inglés, francés, alemán y catalán

131

Page 6: Inducci on autom atica de una taxonom a multilingue de

seen esta propiedad, es decir, esta misma can-tidad de informacion, ya que encontramostambien palabras en este sentido mucho me-nos informativas: su aparicion en el texto noayuda a predecir la aparicion de otras. Este esel caso de los MD, palabras funcionales cuyaaparicion no tiene relacion con el contenidode los textos en los que aparecen.

Es posible apreciar esta diferencia de ma-nera grafica. En el primer caso, la Figura 1muestra la distribucion de frecuencias de laspalabras que aparecen en los contextos deaparicion de democracia, en un corpus en cas-tellano, excluyendo gramemas (preposicionesy artıculos). Como puede apreciarse, el con-junto de las oraciones que contienen esta pa-labra contienen tambien un grupo relativa-mente amplio de otras unidades que apare-cen con alta frecuencia, tales como humanos,respeto, libertad, etc. Es en este sentido quedecimos que la aparicion de la palabra demo-cracia nos permite predecir la aparicion deotras palabras.

Figura 1: Distribucion de frecuencias de laspalabras que coocurren con la expresion de-mocracia.

Se trata, sin duda, de una propiedad uni-versal del lenguaje, en el sentido de que todaslas lenguas ofreceran un comportamiento si-milar. No es, sin embargo, el caso de todaslas unidades del vocabulario, ya que no seraposible predecir que palabras van a coocurrircon aquellas que tienen un significado funcio-nal en lugar de lexico. En este sentido es quese puede decir que estas palabras tendran uncomportamiento parecido al de una variablealeatoria y, por tanto, su cantidad de infor-

macion sera mucho mas baja. Serıa el caso deuna expresion como de todas maneras en elmismo corpus (Figura 2).

Figura 2: Distribucion de frecuencias en elcaso de de todas maneras.

Comparativamente, las unidades de voca-bulario que aparece en las oraciones de unida-des funcionales presentan muy baja frecuen-cia de coocurrencia y son, ademas, ellas mis-mas formas poco informativas (serıa, siendo,habrıa, etc.). No siempre funcionara esta dis-tincion, ya que hay MD como por un lado opor una parte que sı permiten la prediccionde otras unidades. Pero al menos es posibleuna primera division del vocabulario en dosclases (palabras informativas vs. palabras noinformativas), y los MD genuinos que quedenexcluidos aquı se podran recuperar mas tar-de (apartado 3.4). La division se lleva a caboutilizando el coeficiente (1), que pone en con-traste la suma de las frecuencia de los coocu-rrentes y la frecuencia de la unidad elegidacomo diana.

I(x) =log2

∑ni=1 Rx,i

log2 |m(x)|(1)

Con m(x) nos referimos a los contextos deuna unidad x y Rx,i es la frecuencia de launidad i en el ranking de los n vocablos masfrecuentes en esos contextos (en nuestros ex-perimentos, n = 20). Este coeficiente asignaa cada unidad un valor numerico y, por lotanto, continuo, en lugar de una separaciondiscreta entre dos clases. Ello obliga a elegirun valor de corte arbitrario k para poder es-tablecer la clasificacion binaria C(x) (2) entrela categorıa lexica (L) y la funcional (F ).

Rogelio Nazar

132

Page 7: Inducci on autom atica de una taxonom a multilingue de

C(x) =

{L I(x) > kF otherwise

(2)

Para llevar a cabo esta tarea de clasifica-cion, todas las unidades lexicas del corpus de-ben ser analizadas. Esto requiere la definicionde un vocabulario V , en el que ∀x ∈ V , x de-be ser una palabra o una secuencia de hastacuatro palabras. En cuanto al material desdeel cual obtener esta informacion, bastarıa conla utilizacion de un corpus monolingue lo su-ficientemente grande como para disponer deunos 5.000 contextos de cada unidad analiza-da. Sin embargo, como posteriormente vamosa necesitar un corpus paralelo de todos mo-dos, utilizamos para todas las operaciones elmismo corpus, el Opus Corpus ofrecido porTiedemann (2012).

3.2 Organizacion en grupos de losMD extraıdos

El paso anterior permite obtener, por cadalengua l (en, fr, es, de, ca), un conjunto MDl

de candidatos. El paso siguiente consiste en-tonces en la agrupacion de estas unidades enconjuntos funcionales, para lo cual utilizamosel ya mencionado corpus paralelo.

Es preciso observar aquı algunas de lasparticularidades del Opus Corpus. Se trata deun conjunto de archivos TMX que se ofreceen pares de lenguas, tıpicamente en 30 archi-vos por par, en el que cada uno representa uncorpus. Cada corpus reune material de unadeterminada area tematica o de especialidad,aunque tambien se encuentra material quecorresponde al vocabulario general. Los ar-chivos se encuentran alineados generalmentea nivel de oracion. La cantidad total de mate-rial disponible varıa, por supuesto, segun laslenguas elegidas, pero en el caso de las len-guas europeas, cada par esta en torno a los3.500 millones de palabras.

En primer lugar, para poder agrupar losejemplares de MD obtenidos en el la Seccion3.1, es necesario encontrar los equivalentes decada uno en otra lengua. Esto es lo que lleva atrabajar por pares de lenguas y, por ende, a lautilizacion de corpus paralelos. Por una cues-tion practica (la mayor disponibilidad de ma-terial) estos pares suelen involucrar al inglescomo una de las lenguas, con excepcion delcatalan, donde tiene mas sentido utilizar elpar castellano - catalan, que es mayor que elpar ingles - catalan. Ası, para el caso de unpar cualquiera, como por ejemplo castellano

- catalan, para la alineacion de los conjuntosMDes y MDca en un listado de equivalentes,utilizamos un coeficiente de asociacion basa-do en un criterio de coocurrencia (3) para en-contrar la asociacion entre un candidato i encastellano (como, por ejemplo, en todo caso)y uno j en catalan (tal como en tot cas).

A(MDes,i,MDca,j) =f(MDes,i,MDca,j)√

f(MDes,i).√

f(MDca,j)(3)

Eventualmente, se podrıa complementareste coeficiente con otros como el de la simi-litud ortografica para el caso de los cognadosque son frecuentes en lenguas emparentadas,por ejemplo, nuevamente, el caso del par cas-tellano - catalan. Pero se ha preferido dejarese recurso de lado para simplificar al maxi-mo el metodo.

El proposito de alinear los MD en pares delenguas es unicamente poder agrupar despueslos MD de una misma lengua en funcion delos equivalentes que comparten en la otra. Deesta manera, se descubrira la similitud entredos MD en castellano tales como en todo ca-so y en cualquier caso por su mutua relacionde equivalencia con un MD en catalan comoen tot cas. Un aspecto clave de este procesoes que un mismo MD puede ser alineado condistintos equivalentes en otra lengua. Esto su-cede con mayor frecuencia en el caso de losMD que en el resto de las unidades lexicas.

Para el descubrimiento de estas relacionesde similitud es preferible evitar el uso de al-goritmos de clustering aglomerativo. En lugarde esto, se opto por un metodo alternativo demayor simplicidad.

Este nuevo metodo de clustering esta ins-pirado en las dinamicas sociales que puedenobservarse, por ejemplo, en la forma en quese aglutina la gente en las pausas de cafe delos congresos. Imaginamos un espacio en elque entran personas de a pares, ya que esla situacion que tenemos con nuestros MDalineados. El primero puede ser un par cual-quiera, como por ejemplo en todo caso y entot cas. Si un segundo par que entra no tienerelacion con el anterior, entonces permane-cen como dos grupos independientes. Serıa elcaso, por ejemplo, de un par como en otraspalabras y en altres paraules. Ahora bien, sise presenta un tercer par constituido por encualquier caso y en tot cas, en ese caso estenuevo par es asimilado el grupo 1, como si encualquier caso fuese presentado a en todo ca-

Inducción automática de una taxonomía multilingüe de marcadores discursivos: primeros resultados en castellano, inglés, francés, alemán y catalán

133

Page 8: Inducci on autom atica de una taxonom a multilingue de

so por en tot cas. Esta dinamica continuarıade la misma forma, creando distintos grupos,hasta agotar la cantidad de pares alineados.El proceso resulta economico porque no hayuna tabla de distancia en la que se comparentodos los MD entre sı. En cambio, cada parse va comparando con cada uno de los gruposcreados hasta el momento. El orden en el queson examinados los pares es aleatorio.

3.3 Etiquetado de los grupos concategorıas funcionales

El paso anterior resulta en un numero inde-terminado de clusters de MD en cada lenguay que se presentan a su vez alineados entre sı.Por ejemplo, el cluster que reune los conec-tores contraargumentativos en ingles aparecealineado con el cluster correspondiente en elresto de las lenguas. Estos grupos, sin em-bargo, no poseen un nombre, tal como suelesuceder con el resultado de cualquier proce-so de clustering. Esto es, el algoritmo reuneestos conectores por su similitud, pero no losetiqueta con la categorıa correspondiente.

Ante este resultado, interesa proporcio-nar una etiqueta a cada cluster por un cri-terio logico de ordenamiento pero tambienpara facilitar el descubrimiento de las rela-ciones que es posible percibir a simple vistaentre algunos clusters. Con este fin, tal co-mo adelantamos ya en la introduccion, uti-lizamos los nombres de categorıas aportadospor Martın Zorraquino y Portoles (1999). Elprocedimiento es tambien aquı bastante sim-ple. Gracias a que estos autores proporcionanvarios ejemplos por cada una de estas cate-gorıas, es posible encontrar coincidencias (4)entre los miembros de cada una de las cate-gorıas en esta taxonomıa (MZP ) y los miem-bros de los clusters generados por el algorit-mo (CMD).

sim(MZPp, CMDq) =| ~MZPp ∩ ~CMDq|

| ~MZPp|(4)

De este modo, para cada cluster se se-leccionara la categorıa que ofrezca la coinci-dencia mas alta. Naturalmente, como la ta-xonomıa de Martın Zorraquino y Portoles(1999) esta en castellano, el calculo de la in-terseccion solamente puede hacerse con losclusters que estan en castellano. Pero esto,por supuesto, no representa un problema de-bido a que los clusters estan alineados inter-linguısticamente. De este modo se consigue

tambien el efecto deseado de agrupar clus-ters que pueden corresponderse a una mismacategorıa funcional.

3.4 Poblamiento de la taxonomıacon nuevos ejemplares

El resultado del paso anterior es una taxo-nomıa multilingue nuclear o basica, que lla-maremos TMD. A partir de este punto, dichataxonomıa puede ser enriquecida mediante laadicion de nuevos MD extraıdos del corpus.Para cualquier nuevo candidato a MD (c),la existencia de la TMD posibilita decidir sic es efectivamente un MD y, si efectivamen-te lo es, asignarle una categorıa. Para ambastareas recurrimos nuevamente al corpus pa-ralelo inicial.

Si un candidato c es un MD genuino, en-tonces su condicion sera delatada por la pre-sencia de otros MD de la otra lengua en lospares alineados, que ahora es posible descu-brir sin dificultad gracias a la taxonomıa nu-clear. Por ejemplo, si c = de meme facon∧c /∈ TMD, encontraremos que, en el cor-pus paralelo frances-ingles, c aparece alinea-do con elementos tales como in the same way,likewise, similarly, etc., elementos que sı apa-recen en la TMD. Finalmente, para asignaruna categorıa a c, operamos de manera si-milar a 3.3, eligiendo la categorıa que ofrecela coincidencia mas alta. En el caso del ejem-plo, esta corresponderıa a la de los conectoresaditivos.

4 Resultados

En el momento actual, los resultados del pro-yecto implican la creacion de una TMD mul-tilingue de 2.636 elementos divididos en 70categorıas funcionales. Todavıa no ha comen-zado el proceso de poblamiento masivo de es-ta taxonomıa, pero sı ha sido posible comple-tar una primera fase de evaluacion de la me-todologıa empleada en el proceso. Esta eva-luacion consiste en medir la capacidad del al-goritmo para distinguir entre un MD genuinoy una unidad lexica de otra categorıa.

La tabla 1 muestra un ejemplo de clusterque corresponde a la categorıa de los conecto-res contraargumentativos segun la taxonomıade Martın Zorraquino y Portoles (1999).

Un grupo de linguistas hablantes nativosde cada una de las lenguas analizadas llevoa cabo una revision manual de los resultadospara evaluar si la seleccion de marcadores eracorrecta. Es importante aclarar que lo que se

Rogelio Nazar

134

Page 9: Inducci on autom atica de una taxonom a multilingue de

Ingles all the same; although; and yet; but; but still; despite all; despite the fact that; despitethese; despite this; even if; even so; even though; however; in spite of all; in spite ofthe fact; nevertheless; nonetheless; that being said; that said; though; while; yet

Castellano a cambio; ahora bien; al contrario; aparte de eso; a pesar de ello; a pesar de eso; apesar de esto; a pesar de todo; aun ası; aun cuando; aun en; aunque; bien que; contodo; de cualquier forma; de cualquier modo; de todas formas; de todas maneras; detodos modos; dicho esto; en cambio; en lugar de eso; en vez de eso; incluso aunque;no obstante; pero; pero aun ası; pese a ello; pese a todo; por el contrario; si bien ; sinembargo; todo lo contrario; y sin embargo

Frances cependant; et pourtant; mais encore; mais toujours; malgre cela; malgre tout; memeainsi; meme si ; neanmoins; pourtant; toutefois

Aleman aber immer noch; aber nicht; aber trotzdem; allerdings; auch wenn; auftreten mussen;dachte; dennoch; jedoch; obwohl; selbst wenn; sogar; trotzdem; trotz der tatsache; trotzdieser; trotz dieses

Catalan al contrari; ans al contrari; ben al contrari; de qualsevol manera; de tota manera; detotes formes; de totes maneres; en comptes d’aixo; en lloc d’aixo; i no obstant aixo;malgrat aixo; no obstant; pel contrari; pero tot i aixı; tanmateix; tot el contrari; tot iaixı; tot i aixo

Tabla 1: Ejemplo de uno de los clusters que corresponde a la categorıa de conectores contraar-gumentativos.

reviso fueron listados de MD fuera de con-texto. Esto se debe a que analizar instanciasde estas unidades en textos particulares equi-valdrıa a una tarea diferente, ya que una mis-ma unidad puede funcionar como MD en uncontexto y en otro no.

La revision revelo que los datos son debuena calidad, con una pureza en torno el95 % de media en las distintas lenguas conexcepcion del aleman, donde la precision al-canzo el 84 %. Las razones del desempeno in-ferior en aleman no estan del todo claras, pe-ro probablemente puedan estar relacionadascon las caracterısticas morfologicas de estalengua. Esto debe continuar estudiandose entrabajo futuro. Otra caracterıstica llamativade los resultados es que en general parece ha-ber una tendencia a tener una cantidad deMD en castellano ligeramente mayor que enlas otras, como si esta lengua permitiese ma-yor diversidad en el uso de estas partıculas.Nuevamente, esto debe profundizarse en unestudio contrastivo entre las diferentes len-guas. La presente investigacion no ha preten-dido, en todo caso, dar respuesta a estos in-terrogantes sino ofrecer una propuesta meto-dologica para la obtencion de los datos.

En relacion con el desempeno general delalgoritmo en comparacion con otros traba-jos mencionados en la Seccion 2, es posibleafirmar que los resultados obtenidos con elpresente metodo son mas numerosos y pre-sentan menor tasa de error. Particularmenteen el caso de Robledo y Nazar (2018), quees el mas comparable en terminos de meto-

dologıa aunque solo trabajen en castellano,el metodo presentado aquı es mas sensible alos elementos de mediana y baja frecuencia,y la tasa de error a la hora de extraer MD esinferior. Hay que senalar, de cualquier mane-ra, que los objetivos de ambos estudios sondistintos. En el caso del estudio anterior setrataba de encontrar categorıas de MD. Enel presente estudio, en cambio, el foco estapuesto en reunir un listado exhaustivo de MDparticulares.

Para complementar la evaluacion manualgeneral y poner en perspectiva los resultados,invitamos a un grupo de estudiantes avanza-dos en licenciatura en linguıstica a participarde un experimento de evaluacion. En totalparticiparon 6 jovenes, que fueron elegidosentre los que mejores calificaciones obtuvie-ron en la asignatura de Gramatica del Tex-to, de la Pontificia Universidad Catolica deValparaıso, que trata de manera extensiva eltema de los MD.

Cada estudiante recibio una planilla con720 unidades en castellano en los cuales semezclaron MD autenticos con palabras o se-cuencias de palabras correspondientes a otrasdiversas categorıas. La proporcion fue de dostercios de MD. La instruccion era marcarcon un 1 cada unidad que consideraran co-mo MD. No se les permitio consultar diccio-narios ni ningun otro recurso y la tarea eraindividual, sin posibilidad de dialogar con loscompaneros. Tambien se les pidio que confia-ran en su primera intuicion como hablantes,sin dedicar mucho tiempo a cada decision. La

Inducción automática de una taxonomía multilingüe de marcadores discursivos: primeros resultados en castellano, inglés, francés, alemán y catalán

135

Page 10: Inducci on autom atica de una taxonom a multilingue de

misma tarea fue realizada por el algoritmo, esdecir la de aceptar o rechazar los candidatosdel mismo listado. En la Tabla 2 se muestranlos resultados de cada uno.

Anotador Pre Rec F1

Algoritmo 97 94 95Estudiante 1 96 50 65Estudiante 2 95 60 73Estudiante 3 95 41 57Estudiante 4 95 59 72Estudiante 5 94 65 76Estudiante 6 92 75 82

Tabla 2: Comparacion del desempeno entrealgoritmo y humanos en la tarea de separarMD de unidades lexicas (precision, coberturay F1).

En general, todos los estudiantes tuvieronun buen desempeno en terminos de precision,en el sentido de que, si seleccionaban una uni-dad como MD, casi siempre la decision eracorrecta. El problema en general es que tu-vieron tendencia a ser poco exhaustivos. Encomparacion con los estudiantes, el algoritmopresento mas o menos la misma tasa de pre-cision, pero la tasa de cobertura fue mayor.

En una serie de entrevistas realizadas conposterioridad a la entrega del ejercicio, casitodos los estudiantes coincidieron en explicarque adoptaron una actitud conservadora, demodo que ante la duda prefirieron no elegirunidades que, aunque puedan cumplir la fun-cion de un MD, no presentan todavıa las mar-cas de los MD prototıpicos o que todavıa nohan finalizado su proceso de gramaticaliza-cion. Unidades como en estas circunstanciaso en terminos mas generales, por ejemplo,fueron rechazadas en la mayorıa de los casosa pesar de que en el listado original figurabancomo MD autenticos. En otros casos, los es-tudiantes consultados hicieron referencia a laalta polifuncionalidad (Pons Borderıa y Fis-cher, 2021) de los candidatos inspeccionados,es decir, algunas unidades podrıan funcionarcomo MD solo en algunos casos muy especıfi-cos, mientras que en general no tendrıan esafuncion.

Este ejercicio puso de manifiesto el proble-ma de la falta de acuerdo entre los hablantesacerca de lo que es un MD y tambien la di-ficultad de tratar con MD fuera de contexto.Mas bien, lo propio serıa decir que una de-terminada unidad funciona como MD en un

contexto determinado. Esto representa unainteresante vıa de trabajo futuro pero, nue-vamente, trasciende el objetivo de la presenteinvestigacion.

5 Conclusiones

Este artıculo ha presentado una nueva pro-puesta metodologica para la extraccion au-tomatica de una base de datos multilinguede MD, incluyendo una evaluacion de sus pri-meros resultados. Dicha propuesta es originaly, en comparacion con trabajos aparecidosrecientemente sobre el mismo tema, resultamas simple en terminos conceptuales, de de-pendencia de recursos y en materia de costecomputacional. Esto resulta de gran impor-tancia para la reproduccion de los experimen-tos en distintas lenguas.

La base de datos de MD desarrollada has-ta el momento se encuentra disponible parasu descarga desde la pagina web del proyecto(cf. nota 1) y, aun tratandose de un traba-jo en curso, puede ya servir para multiplespropositos. Posibles usuarios finales puedenser traductores o redactores, y posiblemen-te tambien docentes de L1 o L2. Los datospueden ser utiles tambien para la comunidaddel PLN, ya que pueden emplearse para di-versidad de tareas vinculadas con el analisisdiscursivo y la extraccion de informacion.

Muchas tareas han quedado pendientes,como continuar explorando distintas varia-ciones en la metodologıa. Esto puede incluirprobar con categorıas distintas para la cla-sificacion, probar distintos tamanos para laventana de contexto y hacer un estudio masriguroso del desacuerdo entre anotadores enlas distintas lenguas. Otras posibilidades detrabajo futuro serıan reproducir experimen-tos en otras lenguas y, finalmente, una vıaque parece atractiva es la de utilizar la taxo-nomıa creada hasta el momento para el des-cubrimiento de MD polifuncionales.

Agradecimientos

Esta investigacion ha sido financiada por elGobierno de Chile a traves del Proyecto Fon-decyt Regular 1191481: Induccion automati-ca de taxonomıas de marcadores discursivosa partir de corpus multilingues (2019-2021).Agradezco a los revisores por sus comentariosy a Irene Renau, por ayudarme a mejorar elartıculo en diversos aspectos.

Rogelio Nazar

136

Page 11: Inducci on autom atica de una taxonom a multilingue de

Bibliografıa

Anscombre, J.-C. y O. Ducrot. 1976.L’argumentation dans la langue. Langa-ges, 42:5–27.

Bluhdorn, H., A. Foolen, y O. Loureda.2017. Diskursmarker: Begriffsgeschich-te – theorie – beschreibung. ein biblio-graphischer Uberblick. En H. BluhdornA. Deppermann H. Helmer, y T. Spranz-Fogasy, editores, Diskursmarker im Deu-tschen. Reflexionen und Analysen. Verlagfur Gesprachsforschung, Gottingen.

Brinton, L. 2010. Discourse markers. EnA. Jucker y I. Taavitsainen, editores, His-torical Pragmatics. Gruyter Mouton, Ber-lin.

Briz, A., S. Pons, y J. Portoles. 2008. Diccio-nario de partıculas discursivas del espanol.

Calsamiglia, H. y A. Tuson. 1999. Las cosasdel decir: manual de analisis del discurso.Ariel, Madrid.

Cardona, A. L. 2014. Aproximacion funcio-nal a los marcadores discursivos. Anali-sis y aplicacion lexicografica. Peter Lang,Frankfurt am Main.

Casado Velarde, M. 1993. Introduccion ala gramatica del texto del espanol. Arcolibros, Madrid.

Fraser, B. 1999. What are discourse mar-kers? Journal of Pragmatics, (31):931–952.

Gili Gaya, S. 1943. Curso superior de sinta-xis espanola. Minerva, Mexico.

Halliday, M. y R. Hasan. 1976. Cohesion inEnglish. Longman, London.

Knott, A. 1996. A data-driven methodologyfor motivating a set of coherence relations.Ph.D. tesis, University of Edinburgh, UK.British Library, EThOS.

Lopes, A., D. M. de Matos, V. Cabarrao,R. Ribeiro, H. Moniz, I. Trancoso, y A. I.Mata. 2015. Towards using machinetranslation techniques to induce multilin-gual lexica of discourse markers.

Martın Zorraquino, M. A. y J. Portoles.1999. Los marcadores del discurso. EnGramatica Descriptiva de la Lengua Es-panola. Espasa, Madrid, paginas 4051–4214.

Montolıo, E. 2001. Conectores de la lenguaescrita. Contraargumentativos, consecuti-vos, aditivos y organizadores de la infor-macion. Ariel, Barcelona.

Moore, J. D. y P. Wiemer-Hastings. 2003.Discourse in computational linguistics andartificial intelligence. En A. C. GraesserM. A. Gernsbacher, y S. R. Goldman, edi-tores, Handbook of Discourse Processes.Routledge.

Mosegaard Hansen, M.-B. 1998. The Fun-ction of Discourse Particles : A studywith special reference to spoken stan-dard French. John Benjamins, Amster-dam/Philadelphia.

Pons Borderıa, S. 2001. Connec-tives/Discourse markers. An Overview.Quaderns de Filologia. Estudis Literaris,(6):219–243.

Pons Borderıa, S. y K. Fischer. 2021.Using discourse segmentation to accountfor the polyfunctionality of discourse mar-kers: The case of well. Journal of Pragma-tics, 173:101–118.

Robledo, H. y R. Nazar. 2018. Clasifica-cion automatizada de marcadores discur-sivos. Procesamiento del Lenguaje Natu-ral, (61):109–116.

Roze, C., L. Danlos, y P. Muller. 2012. Lex-conn: a french lexicon of discourse connec-tives. Discours - Revue de linguistique,psycholinguistique et informatique.

Santos Rıo, L. 2003. Diccionario de partıcu-las. Luso-espanola de ediciones, Salaman-ca.

Schiffrin, D. 2001. Discourse markers: Lan-guage, meaning, and context. En D. Schif-frin D. Tannen, y H. Hamilton, edito-res, The Handbook of Discourse Analysis.Blackwell, Oxford, paginas 54–75.

Sileo, D., T. Van De Cruys, C. Pradel, yP. Muller. 2019. Mining discourse mar-kers for unsupervised sentence representa-tion learning. En Proceedings of the 2019Conference of the North American Chap-ter of the Association for ComputationalLinguistics: Human Language Technolo-gies, Volume 1 (Long and Short Papers),paginas 3477–3486, Minneapolis, Minne-sota, Junio. Association for Computatio-nal Linguistics.

Inducción automática de una taxonomía multilingüe de marcadores discursivos: primeros resultados en castellano, inglés, francés, alemán y catalán

137

Page 12: Inducci on autom atica de una taxonom a multilingue de

Stede, M. 2002. DiMLex: A lexical ap-proach to discourse markers. En A. Lenciy V. D. Tomaso, editores, Exploring theLexicon - Theory and Computation. Edi-zioni dell’Orso, Alessandria.

Stubbs, M. 1983. Discourse Analysis.The Sociolinguistic Analysis of NaturalLanguage. University of Chicago Press,Chicago.

Stubbs, M. 1996. Text and Corpus Analysis.Blackwell, Oxford.

Tiedemann, J. 2012. Parallel data, toolsand interfaces in OPUS. En Procee-dings of the Eighth International Confe-rence on Language Resources and Evalua-tion (LREC’12), paginas 2214–2218, Is-tanbul, Turkey, Mayo. European Langua-ge Resources Association (ELRA).

Traugott, E. y R. Dasher. 2002. Regularity insemantic change. Cambridge UniversityPress, New York.

Urgelles-Coll, M. 2010. The Syntax andSemantics of Discourse Markers. Conti-nuum, London.

van Dijk, T. 1973. Text Grammar andText Logic. En Studies in Text Grammar.Reidel, Dordrecht, paginas 17–78.

Wichmann, A. y C. Chanet. 2009. Discour-se markers: A challenge for linguists andteachers. Nouveaux cahiers de linguistiquefrancaise, 29(4):23–40.

Rogelio Nazar

138