View
216
Download
0
Embed Size (px)
Citation preview
Traducció Automàtica a la UOC
El projecte Interlingua:
experiències i aplicacions
Estructura de la xerrada
Presentació Salvador Climent
La TA no supervisada Joaquim Moré
Aplicacions per a la gestió de la traducció a la universitat
Antoni Oliver
Interlingua
IN3 Estudis Filologia catalana Servei lingüístic UOC Infraestructures tecnològiques Desenvolupament Campus Virtual
El català al campus virtual
Petit estudi estadístic: Fòrums d’Informàtica:
Ús espontani del català: 69% El 43% d’aquests canvien al castellà quan contesten a
missatges en aquesta llengua Aules de Doctorat: tot en castellà
Perill: substitució gradual del català pel castellà les aules?
Interlingua
Objectiu: que l’estudiant utilitzi la seva llengua independentment de la del destinatari; per tant , que disminueixi el perill de substitució del català a les aules.
Com?: Traducció automàtica de missatges
Interlingua
Traducció Automàtica:
Textos 100% correctes Intervenció humana
Interlingua Emails
Procés 100% automatitzat i en temps real Cap intervenció humana Detecció de llengua Llenguatge no restringit
Innovacions ortogràfiques Creativitat lingüística Errors de competència i d’actuació Àmbits especialitzats Interferències lingüístiques
Interlingua:Tipologia de problemes
Micro-avaluació: informació sobre les decisions que s’han de prendre, quins mòduls s’ha de construir o prioritzar per aconseguir un impacte més gran en la qualitat de la traducció
Interlingua: estratègia Nucli: Sistema TA existent
(Comprendium/Incyta) Entorn Interlingua:
Detecció de llengua Normalització i correcció del text Adaptació: combinació tècniques
TA i TAO
Accions prioritàries
Pre-edició automàtica Recuperació d’accents, Correcció d’errades,
Normalització de la puntuació (espais després de coma, accents en lloc d’apòstrofs…), innovacions...
Construcció de lexicons terminològics (i) del domini (ii) de la comunitat
Memòries de traducció
Arquitectura final
Missatge d’entrada
Missatge de sortida
Detector de llengua Sistema de
TA
Preedició automàtica
Postedició automàtica
Terminologia del domini
Memòries de traducció
Terminologia de comunitat
Arquitectura actual
Missatge d’entrada
Missatge de sortida
Detector de llengua Sistema de
TA
Preedició automàtica
Interlingua
Aplicacions per a la UOC
• TA a aules bilingües i sales consultors Catalunya/Iberoamèrica
• Corrector ortogràfic online d’emails
• Reutilització i combinació de tècniques per a la gestió de la traducció estàtica a la universitat
Estructura de la xerrada
Presentació Salvador Climent
La TA no supervisada Joaquim Moré
Aplicacions per a la gestió de la traducció a la universitat
Antoni Oliver
Reptes plantejats Impossibilitat d’una intervenció humana
La comunicació per email s’ha de realitzar en temps real. No hi pot haver un treball de pre-edició i post-edició humana que faria més lent el procés.
Especificitat del registre: llenguatge sense restriccions Us de llenguatge no normatiu (innovacions ortogràfiques,
creativitat lingüística, errors ortogràfics, tipogràfics, gramaticals, etc.).
No ens podem plantejar que els usuaris controlin la seva redacció. Problemes causats pel bilingüisme
Missatges amb barreja català i espanyol. Interferència lingüística en mails monolingües causada pels
diferents nivells de competència en qualsevol de les dues llengües. Contextualització de les traduccions
Ambigüetats no resoltes (e.g: per => por/para); noms propis traduïts de forma inapropiada, etc.
Estudi sobre la qualitat de la traducció directa d’emails
Sistema adoptat i evaluat: Comprendium - Incyta
Evaluació en les dues direccions: SPA-CAT/ CAT-SPA
1240 frases tretes de 130 emails per cada direcció.
Entorn escollit: Fòrum d’Informàtica
Conclusions de l’estudi CAT-SPA
Important pes dels errors de competència de l’usuari Accentuació Confusió fonema-grafema (s/ss, o/u, l/l.l, etc.) Reproducció llengua parlada (e.g: escriguent, avere) Interferències amb el castellà (barbarismes, etc.)
Les desviacions típiques del registre e-mail no tenen tanta incidència com els errors de competència
Ortografia creativa (A10)
Els errors d’actuació tampoc tenen tanta incidència com els errors de competència
Confusió apòstrof/accent
Conclusions de l’estudi SPA-CAT
Les desviacions típiques del registre e-mail tenen més incidència que els errors de competència de l’usuari
Manca d’accentuació (el més freqüent) Alguns casos d’interferència amb el català però amb
menor grau que en CAT-SPA.
Conclusions de l’estudi Problemes comuns en les dues direccions
Problemes d’espaiat. Terminologia del domini no traduïda o mal traduïda. Terminologia pròpia de la comunitat no traduïda o mal
traduïda. Ortografia creativa pròpia del registre e-mail (tod@s,
A10) Ambigüetat lèxica
Exemple de traducció directa d’un email
Hola de nou A veure si ara arriba be. He llegit els estatuts (nomes una vegada) i en general em semblen adeqüats. De tota maneram´agradaría que la gent que hi estigui interesada donguès la seva opinio al respecte i s'haurien de devatre els articles (o no).Per tant crec que hauriem de debatre el tema en una conversa simultania (IRC,messenger...el que vulgueu) perque tothom hi digui la seba.PD:Per altre banda estic escriguent aixo desde mozilla 1.1 i encara tinc problemes. No ho entenc. L`he instalat 3 vegades i nomes una ha funcionat tot i que he fet el mateix a cada instalació.Ara només resta mirar com ho faig pel portàtil...en fi us mantindre informats. Voldria saber si es comú o es que soc abonat les lleis de Murphy. Per cert, algú em pot explicar com crear fitxers a excel sense passar per l'excel propiament dit?Be, A10.J. R. Estudiant de Sistemes Informatics
Hola de nueve A ver si ahora llega cordero. He leído los estatutos (nomes una vez) y en general me parecen adeqüats. De toda manera m´agradaría que la gente que esté interesada donguès su opinio al respeto y se habrían de devatre los artículos (o no).Per tanto creo que hauriem de debatir el tema en una conversa simultania (IRC,messenger...el que quiera) perque todo el mundo diga la seba.PD:Per otro lado estoy escriguent aixo desde mozilla 1.1 y todavía tengo problemas. No lo entiendo. L`he instalat 3 veces i nomes una ha funcionado aunque he hecho el mismo a{en} cada instalació.Ara sólo resto mirar como lo hago para{por} el portàtil...en fino os mantindre informados. Querría saber si se común o se que tronco abonado - las leyes de Murphy. ¿Por cierto, alguien puede explicarme cómo crear ficheros a{en} excielo sin pasar por el excielo propiament dicho? Be, A10. J. R.Estudiando de Sistemas Informatics
be
cordero
adeqüats
adeqüats
simultania
simultania
devatre
instalat
instalat
es comú o es que soc abonat les lleis de Murphy
se común o se que tronco abonado
devatre
donguès
donguès
agradaría
agradaría
A10
A10
seba
seba
m’agradaría
m’agradaría
...en fiexcel
excielo
Hola de nou
Hola de nueve
la seva opinió al respecte
su opinio al respeto
conversa simultania
conversa simultania
Estudiant de Sistemes Informatics
Estudiando de Sistemas Informatics
...en fino
Mòduls de customització Pre-edició automàtica
Tractament espais en blanc i signes de puntuació (espai després de coma, substitució accents per apòstrof, substitució ‘l.l’ per ‘l·l’, etc. )
Correcció ortogràfica Correcció d’errors típics: (e.g. *desde -> des
de ; *dongués -> donés) Substitució de variants del registre per formes
normatives (e.g: ‘A10’ per ‘adéu’; ‘pq’ per ‘porqué’, etc.).
Mail pre-editat automàticament
Hola de nou. A veure si ara arriba be. He llegit els estatuts (nomes una vegada) i en general em semblen adeqüats. De tota maneram´agradaría que la gent que hi estigui interesada donguès la seva opinio al respecte i s'haurien de devatre els articles (o no).Per tant crec que hauriem de debatre el tema en una conversa simultania (IRC,messenger...el que vulgueu) perque tothom hi digui la seba.PD:Per altre banda estic escriguent aixo desde mozilla 1.1 i encara tinc problemes. No ho entenc. L`he instalat 3 vegades i nomes una ha funcionat tot i que he fet el mateix a cada instalació.Ara només resta mirar com ho faig pel portàtil...en fi us mantindre informats. Voldria saber si es comú o es que soc abonat les lleis de Murphy. Per cert, algú em pot explicar com crear fitxers a excel sense passar per l'excel propiament dit?Be, A10.J. R. Estudiant de Sistemes Informatics
Hola de nou. A veure si ara arriba be, He llegit els estatuts (només una vegada) i en general em semblen adequats. De tota maneram'agradaria que la gent que hi estigui interessada donés la seva opinió al respecte i s'haurien de debatre els articles (o no). Per tant crec que hauríem de debatre el tema en una conversa simultània (IRC, messenger... el que vulgueu) perquè tothom hi digui laseva. PD: Per altre banda estic escrivint això des de mozilla 1.1 i encara tinc problemes. No ho entenc. L'he instal·lat 3 vegades i només una ha funcionat tot i que he fet el mateix a cada instal·lació. Ara només resta mirar com ho faig pel portàtil... en fi us mantindré informats. Voldria saber si es comú o es que soc abonat les lleis de Murphy. Per cert, algú em pot explicar com crear fitxers a excel sense passar per l'excel pròpiament dit?
Be, Adéu.
J. R.Estudiant de Sistemes Informàtics
no).Per tant
no). Per tant
m´agradaría
m’agradaria
es
es
be
be
conversa simultania
conversa simultània
devatre
debatre
donguès
donés
A10
Adéu
seba
seva
Comparació de les traduccions
Hola de nueve.A ver si ahora llega cordero. He leído los estatutos (nomes una vez) y en general me parecenadeqüats. De toda manera m´agradaría que la gente que esté interesada donguès su opinio al respeto y se habrían de devatre los artículos (o no).Per tanto creo que hauriem de debatir el tema en una conversasimultania (IRC,messenger...el que quiera) perque todo el mundo diga la seba.PD:Per otro lado estoy escriguent aixo desde mozilla 1.1 y todavía tengo problemas. No lo entiendo. L`he instalat 3 veces i nomes una ha funcionado aunque he hecho el mismo a{en} cada instalació.Ara sólo resto mirar como lo hago para{por} el portàtil...en fino os mantindre informados. Querría saber si se común o se que tronco abonado - las leyes de Murphy. ¿Por cierto, alguien puede explicarme cómo crear ficheros a{en} excielo sin pasar por el excielo propiament dicho? Be, A10. J. R.Estudiando de Sistemas Informatics
Hola de nueve. A ver si ahora llega cordero, He leído los estatutos (sólo una vez) y en general me parecen adecuados. De todos modos me gustaría que la gente que esté interesada diera su opinión al respeto y tendrían que debatirse los artículos (o no). Por
tanto creo que tendríamos que debatir el tema en una conversación simultánea (IRC, messenger... el{lo} que quiera) para que todo el mundo dé su opinión. PD: Para{por} otro lado estoy escribiendo eso desde mozilla 1.1 y todavía tengo problemas. No lo entiendo. Lo{la} he instalado
3veces y sólo una ha funcionado aunque he hecho el mismo a{en} cada instalación. Ahora sólo resta{quedar} mirar como lo hago para{por} el portátil... en fin le mantendré informados. Querría saber si se común o se que tronco abonado las
leyes de Murphy. ¿Por cierto, alguien puede explicarme cómo crear ficheros a{en} excielo sin pasar por el excielo propiamente dicho? Be, Adiós. J.R.Estudiando de Sistemas Informáticos
no).Per tanto
no). Por tanto
m´agradaría
me gustaría
A ver si ahora llega cordero
A ver si ahora llega cordero
si se común o se que
si se común o se que
una conversa simultania
una conversación simultánea
se habrían de devatre
tendríamos que debatir
donguès
diera
A10
Adiós
todo el mundo diga la seba
todo el mundo dé su opinión
Hola de nueve
Hola de nueve
Mòduls de customització (2) Construcció de lèxics
Lèxic del domini: termes de l’especialitat o l’assignatura (e.g: excel).
Lèxic de la comunitat lingüística: termes d’ús corrent en els emails i que fan referència a noms d’assignatures, departaments, etc.
Construcció de memòries de traducció
(e.g: hola de nou => hola de nuevo).
Mòduls de customització (3)
Post-edició automàtica Resolució d’ambigüetats Suggeriment d’una traducció per una
paraula que el sistema no ha traduït.
Estructura de la xerrada
Presentació Salvador Climent
La TA no supervisada Joaquim Moré
Aplicacions per a la gestió de la traducció a la universitat
Antoni Oliver
Aplicacions per a la gestió de la traducció a la universitat
Eines de traducció assistida i automàtica Eines d’extracció automàtica de terminologia Eines d’alineació automàtica de documents Formats per a l’intercanvi
TMX TBX XLIFF SRX
DO DTTraducció
DO DT
Traducció
T. AutomàticaT. Assistida
B.D.T.
M.T.
Tècniques d’extraccióautomàtica de terminologia
Tècniques d’alineacióautomàtica
CorreccióOrtogràfica iGramatical
CorreccióOrtogràfica iGramatical
Preedició
PostedicióQCQAConsistènciaTerminològica