30
Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Embed Size (px)

Citation preview

Page 1: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Traducció Automàtica a la UOC

El projecte Interlingua:

experiències i aplicacions

Page 2: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Estructura de la xerrada

Presentació Salvador Climent

La TA no supervisada Joaquim Moré

Aplicacions per a la gestió de la traducció a la universitat

Antoni Oliver

Page 3: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Interlingua

IN3 Estudis Filologia catalana Servei lingüístic UOC Infraestructures tecnològiques Desenvolupament Campus Virtual

Page 4: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

El català al campus virtual

Petit estudi estadístic: Fòrums d’Informàtica:

Ús espontani del català: 69% El 43% d’aquests canvien al castellà quan contesten a

missatges en aquesta llengua Aules de Doctorat: tot en castellà

Perill: substitució gradual del català pel castellà les aules?

Page 5: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Interlingua

Objectiu: que l’estudiant utilitzi la seva llengua independentment de la del destinatari; per tant , que disminueixi el perill de substitució del català a les aules.

Com?: Traducció automàtica de missatges

Page 6: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Interlingua

Traducció Automàtica:

Textos 100% correctes Intervenció humana

Page 7: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Interlingua Emails

Procés 100% automatitzat i en temps real Cap intervenció humana Detecció de llengua Llenguatge no restringit

Innovacions ortogràfiques Creativitat lingüística Errors de competència i d’actuació Àmbits especialitzats Interferències lingüístiques

Page 8: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Interlingua:Tipologia de problemes

Micro-avaluació: informació sobre les decisions que s’han de prendre, quins mòduls s’ha de construir o prioritzar per aconseguir un impacte més gran en la qualitat de la traducció

Page 9: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Interlingua: estratègia Nucli: Sistema TA existent

(Comprendium/Incyta) Entorn Interlingua:

Detecció de llengua Normalització i correcció del text Adaptació: combinació tècniques

TA i TAO

Page 10: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Accions prioritàries

Pre-edició automàtica Recuperació d’accents, Correcció d’errades,

Normalització de la puntuació (espais després de coma, accents en lloc d’apòstrofs…), innovacions...

Construcció de lexicons terminològics (i) del domini (ii) de la comunitat

Memòries de traducció

Page 11: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Arquitectura final

Missatge d’entrada

Missatge de sortida

Detector de llengua Sistema de

TA

Preedició automàtica

Postedició automàtica

Terminologia del domini

Memòries de traducció

Terminologia de comunitat

Page 12: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Arquitectura actual

Missatge d’entrada

Missatge de sortida

Detector de llengua Sistema de

TA

Preedició automàtica

Page 13: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions
Page 14: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Interlingua

Aplicacions per a la UOC

• TA a aules bilingües i sales consultors Catalunya/Iberoamèrica

• Corrector ortogràfic online d’emails

• Reutilització i combinació de tècniques per a la gestió de la traducció estàtica a la universitat

Page 15: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Estructura de la xerrada

Presentació Salvador Climent

La TA no supervisada Joaquim Moré

Aplicacions per a la gestió de la traducció a la universitat

Antoni Oliver

Page 16: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Reptes plantejats Impossibilitat d’una intervenció humana

La comunicació per email s’ha de realitzar en temps real. No hi pot haver un treball de pre-edició i post-edició humana que faria més lent el procés.

Especificitat del registre: llenguatge sense restriccions Us de llenguatge no normatiu (innovacions ortogràfiques,

creativitat lingüística, errors ortogràfics, tipogràfics, gramaticals, etc.).

No ens podem plantejar que els usuaris controlin la seva redacció. Problemes causats pel bilingüisme

Missatges amb barreja català i espanyol. Interferència lingüística en mails monolingües causada pels

diferents nivells de competència en qualsevol de les dues llengües. Contextualització de les traduccions

Ambigüetats no resoltes (e.g: per => por/para); noms propis traduïts de forma inapropiada, etc.

Page 17: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Estudi sobre la qualitat de la traducció directa d’emails

Sistema adoptat i evaluat: Comprendium - Incyta

Evaluació en les dues direccions: SPA-CAT/ CAT-SPA

1240 frases tretes de 130 emails per cada direcció.

Entorn escollit: Fòrum d’Informàtica

Page 18: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Conclusions de l’estudi CAT-SPA

Important pes dels errors de competència de l’usuari Accentuació Confusió fonema-grafema (s/ss, o/u, l/l.l, etc.) Reproducció llengua parlada (e.g: escriguent, avere) Interferències amb el castellà (barbarismes, etc.)

Les desviacions típiques del registre e-mail no tenen tanta incidència com els errors de competència

Ortografia creativa (A10)

Els errors d’actuació tampoc tenen tanta incidència com els errors de competència

Confusió apòstrof/accent

Page 19: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Conclusions de l’estudi SPA-CAT

Les desviacions típiques del registre e-mail tenen més incidència que els errors de competència de l’usuari

Manca d’accentuació (el més freqüent) Alguns casos d’interferència amb el català però amb

menor grau que en CAT-SPA.

Page 20: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Conclusions de l’estudi Problemes comuns en les dues direccions

Problemes d’espaiat. Terminologia del domini no traduïda o mal traduïda. Terminologia pròpia de la comunitat no traduïda o mal

traduïda. Ortografia creativa pròpia del registre e-mail (tod@s,

A10) Ambigüetat lèxica

Page 21: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Exemple de traducció directa d’un email

Hola de nou A veure si ara arriba be. He llegit els estatuts (nomes una vegada) i en general em semblen adeqüats. De tota maneram´agradaría que la gent que hi estigui interesada donguès la seva opinio al respecte i s'haurien de devatre els articles (o no).Per tant crec que hauriem de debatre el tema en una conversa simultania (IRC,messenger...el que vulgueu) perque tothom hi digui la seba.PD:Per altre banda estic escriguent aixo desde mozilla 1.1 i encara tinc problemes. No ho entenc. L`he instalat 3 vegades i nomes una ha funcionat tot i que he fet el mateix a cada instalació.Ara només resta mirar com ho faig pel portàtil...en fi us mantindre informats. Voldria saber si es comú o es que soc abonat les lleis de Murphy. Per cert, algú em pot explicar com crear fitxers a excel sense passar per l'excel propiament dit?Be, A10.J. R. Estudiant de Sistemes Informatics

Hola de nueve A ver si ahora llega cordero. He leído los estatutos (nomes una vez) y en general me parecen adeqüats. De toda manera m´agradaría que la gente que esté interesada donguès su opinio al respeto y se habrían de devatre los artículos (o no).Per tanto creo que hauriem de debatir el tema en una conversa simultania (IRC,messenger...el que quiera) perque todo el mundo diga la seba.PD:Per otro lado estoy escriguent aixo desde mozilla 1.1 y todavía tengo problemas. No lo entiendo. L`he instalat 3 veces i nomes una ha funcionado aunque he hecho el mismo a{en} cada instalació.Ara sólo resto mirar como lo hago para{por} el portàtil...en fino os mantindre informados. Querría saber si se común o se que tronco abonado - las leyes de Murphy. ¿Por cierto, alguien puede explicarme cómo crear ficheros a{en} excielo sin pasar por el excielo propiament dicho? Be, A10. J. R.Estudiando de Sistemas Informatics

be

cordero

adeqüats

adeqüats

simultania

simultania

devatre

instalat

instalat

es comú o es que soc abonat les lleis de Murphy

se común o se que tronco abonado

devatre

donguès

donguès

agradaría

agradaría

A10

A10

seba

seba

m’agradaría

m’agradaría

...en fiexcel

excielo

Hola de nou

Hola de nueve

la seva opinió al respecte

su opinio al respeto

conversa simultania

conversa simultania

Estudiant de Sistemes Informatics

Estudiando de Sistemas Informatics

...en fino

Page 22: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Mòduls de customització Pre-edició automàtica

Tractament espais en blanc i signes de puntuació (espai després de coma, substitució accents per apòstrof, substitució ‘l.l’ per ‘l·l’, etc. )

Correcció ortogràfica Correcció d’errors típics: (e.g. *desde -> des

de ; *dongués -> donés) Substitució de variants del registre per formes

normatives (e.g: ‘A10’ per ‘adéu’; ‘pq’ per ‘porqué’, etc.).

Page 23: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Mail pre-editat automàticament

Hola de nou. A veure si ara arriba be. He llegit els estatuts (nomes una vegada) i en general em semblen adeqüats. De tota maneram´agradaría que la gent que hi estigui interesada donguès la seva opinio al respecte i s'haurien de devatre els articles (o no).Per tant crec que hauriem de debatre el tema en una conversa simultania (IRC,messenger...el que vulgueu) perque tothom hi digui la seba.PD:Per altre banda estic escriguent aixo desde mozilla 1.1 i encara tinc problemes. No ho entenc. L`he instalat 3 vegades i nomes una ha funcionat tot i que he fet el mateix a cada instalació.Ara només resta mirar com ho faig pel portàtil...en fi us mantindre informats. Voldria saber si es comú o es que soc abonat les lleis de Murphy. Per cert, algú em pot explicar com crear fitxers a excel sense passar per l'excel propiament dit?Be, A10.J. R. Estudiant de Sistemes Informatics

Hola de nou. A veure si ara arriba be, He llegit els estatuts (només una vegada) i en general em semblen adequats. De tota maneram'agradaria que la gent que hi estigui interessada donés la seva opinió al respecte i s'haurien de debatre els articles (o no). Per tant crec que hauríem de debatre el tema en una conversa simultània (IRC, messenger... el que vulgueu) perquè tothom hi digui laseva. PD: Per altre banda estic escrivint això des de mozilla 1.1 i encara tinc problemes. No ho entenc. L'he instal·lat 3 vegades i només una ha funcionat tot i que he fet el mateix a cada instal·lació. Ara només resta mirar com ho faig pel portàtil... en fi us mantindré informats. Voldria saber si es comú o es que soc abonat les lleis de Murphy. Per cert, algú em pot explicar com crear fitxers a excel sense passar per l'excel pròpiament dit?

Be, Adéu.

J. R.Estudiant de Sistemes Informàtics

no).Per tant

no). Per tant

m´agradaría

m’agradaria

es

es

be

be

conversa simultania

conversa simultània

devatre

debatre

donguès

donés

A10

Adéu

seba

seva

Page 24: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Comparació de les traduccions

Hola de nueve.A ver si ahora llega cordero. He leído los estatutos (nomes una vez) y en general me parecenadeqüats. De toda manera m´agradaría que la gente que esté interesada donguès su opinio al respeto y se habrían de devatre los artículos (o no).Per tanto creo que hauriem de debatir el tema en una conversasimultania (IRC,messenger...el que quiera) perque todo el mundo diga la seba.PD:Per otro lado estoy escriguent aixo desde mozilla 1.1 y todavía tengo problemas. No lo entiendo. L`he instalat 3 veces i nomes una ha funcionado aunque he hecho el mismo a{en} cada instalació.Ara sólo resto mirar como lo hago para{por} el portàtil...en fino os mantindre informados. Querría saber si se común o se que tronco abonado - las leyes de Murphy. ¿Por cierto, alguien puede explicarme cómo crear ficheros a{en} excielo sin pasar por el excielo propiament dicho? Be, A10. J. R.Estudiando de Sistemas Informatics

Hola de nueve. A ver si ahora llega cordero, He leído los estatutos (sólo una vez) y en general me parecen adecuados. De todos modos me gustaría que la gente que esté interesada diera su opinión al respeto y tendrían que debatirse los artículos (o no). Por

tanto creo que tendríamos que debatir el tema en una conversación simultánea (IRC, messenger... el{lo} que quiera) para que todo el mundo dé su opinión. PD: Para{por} otro lado estoy escribiendo eso desde mozilla 1.1 y todavía tengo problemas. No lo entiendo. Lo{la} he instalado

3veces y sólo una ha funcionado aunque he hecho el mismo a{en} cada instalación. Ahora sólo resta{quedar} mirar como lo hago para{por} el portátil... en fin le mantendré informados. Querría saber si se común o se que tronco abonado las

leyes de Murphy. ¿Por cierto, alguien puede explicarme cómo crear ficheros a{en} excielo sin pasar por el excielo propiamente dicho? Be, Adiós. J.R.Estudiando de Sistemas Informáticos

no).Per tanto

no). Por tanto

m´agradaría

me gustaría

A ver si ahora llega cordero

A ver si ahora llega cordero

si se común o se que

si se común o se que

una conversa simultania

una conversación simultánea

se habrían de devatre

tendríamos que debatir

donguès

diera

A10

Adiós

todo el mundo diga la seba

todo el mundo dé su opinión

Hola de nueve

Hola de nueve

Page 25: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Mòduls de customització (2) Construcció de lèxics

Lèxic del domini: termes de l’especialitat o l’assignatura (e.g: excel).

Lèxic de la comunitat lingüística: termes d’ús corrent en els emails i que fan referència a noms d’assignatures, departaments, etc.

Construcció de memòries de traducció

(e.g: hola de nou => hola de nuevo).

Page 26: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Mòduls de customització (3)

Post-edició automàtica Resolució d’ambigüetats Suggeriment d’una traducció per una

paraula que el sistema no ha traduït.

Page 27: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Estructura de la xerrada

Presentació Salvador Climent

La TA no supervisada Joaquim Moré

Aplicacions per a la gestió de la traducció a la universitat

Antoni Oliver

Page 28: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

Aplicacions per a la gestió de la traducció a la universitat

Eines de traducció assistida i automàtica Eines d’extracció automàtica de terminologia Eines d’alineació automàtica de documents Formats per a l’intercanvi

TMX TBX XLIFF SRX

Page 29: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

DO DTTraducció

Page 30: Traducció Automàtica a la UOC El projecte Interlingua: experiències i aplicacions

DO DT

Traducció

T. AutomàticaT. Assistida

B.D.T.

M.T.

Tècniques d’extraccióautomàtica de terminologia

Tècniques d’alineacióautomàtica

CorreccióOrtogràfica iGramatical

CorreccióOrtogràfica iGramatical

Preedició

PostedicióQCQAConsistènciaTerminològica