Upload
terrel
View
49
Download
0
Embed Size (px)
DESCRIPTION
Gépi fordítás. 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján. Gépi fordítás. Machine Translation (MT) Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség? - PowerPoint PPT Presentation
Citation preview
Gépi fordítás
2010. november 9.
Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon,
2009 alapján
Gépi fordítás
• Machine Translation (MT)
• Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre.
• Computer Aided Translation (CAT)
• Miért van rá szükség?– Az EU évente 1 milliárd €-t költ fordításra– Interneten elérhető információkhoz való
hozzáférés (Google Translation)
„Bár a kutatók egyetértenek abban,
hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.”
(S. Warwick-Armstrong)
A gépi fordításról… (Prószéky 2006)
Igaz, hogy a minőség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT-rendszereknek.
Bizonyos körülmények közt a MT minsőégi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót.
A MT nem fenyegeti a fordítók munkáját.A beszéd−beszéd MT továbbra is kutatási téma.
Általánosságban is igaz: sok kutatási téma van még a MT területén.
A MT-rendszerek fejlesztése időigényes munka.A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni,
ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.
Próbáljuk ki!
http://translate.google.com/
http://babelfish.altavista.com/
http://www.webforditas.hu/
Alkalmazások• Ha gyors fordítás kell, de nyers
elég– Információ kinyerés webről
• Computer-aided human MT
• Speciális szaknyelven léteznek jó megoldások– időjárás jelentések– repjegy foglalás
Problémák
Nyelvek közti különbségek• morfológia
– izoláló vs. poliszintetikus– agglutináló vs. flektáló
• szintaktikailag– Subject-Verb-Object, VSO, SOV–
• egyéb strukturális különbségekYYYY. MM. DD. vs. MM/DD/YY
Nyelvek közti különbségek
• Lexikai különbségek– red vs. vörös, piros
Problémák a MTben• Összetett szavak
cross dad
• Többszavas kifejezések knightly gymnastics
• Idiómák as happy as dog with two tails
• Stílus
Megközelítések a MT-ben
• Nyelvpárok közti fordítás– Szabályalapú rendszerek
• direkt• transzfer• interlingua
– Statisztikai fordítás
• Nyelvhalmazok közti fordítás
Szabályalapú rendszerek
Közvetlen szabályalapú fordítás
• Lépései:– Morfológiai analízis– Kétnyelvű szótárban megtalálható
kifejezések cseréje– Szavak sorrendjének átrendezése– Morfológiai képzés
Átrendezés
Transzfer fordítás
Transzfer
Szemantikus transzfer
• Szemantikus szerep azonosítás
• WSD
Interlingua• Predikátumlogika
• Szemantikai reprezentációk– nyelvek közti különbségek?
elder brother
A fordítási feladat„Csak kiszótárazom, lefordítom és kész”
– legyen 1 mondat átlagosan 15 szó hosszú– legyen 1 szónak átlagosan 3 jelentése
– 1 „mondatnak” 315 különböző fordítása áll elő– * szórendből permutációk– * extra szavak, kimaradó szavak
Statisztikai MT• Minden frázisnak több lehetséges
fordítása van
• Válasszuk ki a legvalószínűbb szekvenciát
• Célfüggvény:– szöveghűség és– folyékonyság/érthetőség
Statisztikai MT
• Fordítási modell
• Nyelvi modell
argmax P(M|a)=argmax P(M)*P(a|M)
• „Dekóder”
Nyelvi modell
• általában N-gram model2-gram: P(m1,m2…mn)=∏P(mi|mi-1)
3-gram: P(m1,m2…mn)=∏P(mi|mi-1, mi-2)
• egy nyelvre
• bőségesen van korpusz P(mi|mi-1) becslésére
Párhuzamos korpuszok• Két vagy több nyelven elérhető,
szegmenseik egymáshoz rendeltek• A szegedi angol-magyar párhuzamos
korpusz ~64 ezer mondatból áll:
Mondat szinkronizáció• Dinamikus programozás• Megközelítések
– hossz alapú• Egységek hossza alapján összerendelés
(a cél- és forrásnyelvi egységek hosszának aránya becsült)
– horgony alapú• Írásjelek, megegyező szavak
– hibrid módszerek
• 98%
Fordítási modell• cél: frázisokat fordítsunk
• párhuzamosítani kell frázis szinten
• van elég példa a párhuzamos korpuszban?
Szavak párhuzamosítása
Szavak párhuzamosítása• Minden statisztikai MT lelke• Ha van egy modell akkor
– frázisok azonosítása
– fordítási modell
IBM Model 1
IBM Model 1
• J: cél mondat hossza• A=(a1..aJ): összerendelések
• I: input mondat hossza• minden hozzárendelésnek egyenlő a
valószínűsége
IBM Model 1
Dekóderargmax P(M|a)=argmax P(M)*P(a|M)
MT kiértékelése
• Emberi kiértékelés– érthetőség, természetesség, stílus– 1-5 skála– Olvasás ideje– cloze teszt– információ átadási készség– utó-javítás ideje
BLUE score• A fordítás minőségének mérése• Az embernél nincs jobb kiértékelő, de
az nagyon drága• Adott néhány (emberi) fordítás
minden mondatra a teszt halmazon• Számoljuk meg, hogy 1,2,3,4
grammok milyen fedésben vannak az emberi fordításokkal
• + javítások…
BLUE
BLUE• precízió: ha a 10 szavas fordításból
6 szerepel valamelyik referenciában akkor 60%
Fordítástámogató rendszerek (CAT)
CAT formái
• Fordító memória
• Szótárazás (egy- és kétnyelvű)
• Terminológiakezelés
• Szinkronizáció
• Helyesírás-ellenőrzés
A Fordító memóriáról…• Hosszú távon időt (pénzt) takarít meg a
fordító• Fordítócsoportok munkáját segíti
(központi memória, terminológia, konzisztencia)
• Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!”
• Fenn kell tartani (képzések, licensz), nem garantált a minősége
• Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…
Vicces esetek…
határrendőr[border alphabetic order][guard]
haltartó [dying holder]
háztűznézés [house][ fire][ look]
hóhányás [snow][ vomit]
időlopás [time][ theft]
légyszem [be eye]
Vicces esetek…
Vomit his dog there is the queen? (InterTran)
Gyermekei megy ugyanaz iskola mint bánya. (InterTran)
Kekszek nincsenek balra! (MetaMorpho)
Left hand Irishmen. (MetaMorpho)