40
Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján

Gépi fordítás

  • Upload
    terrel

  • View
    49

  • Download
    0

Embed Size (px)

DESCRIPTION

Gépi fordítás. 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján. Gépi fordítás. Machine Translation (MT) Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség? - PowerPoint PPT Presentation

Citation preview

Page 1: Gépi fordítás

Gépi fordítás

2010. november 9.

Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon,

2009 alapján

Page 2: Gépi fordítás

Gépi fordítás

• Machine Translation (MT)

• Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre.

• Computer Aided Translation (CAT)

• Miért van rá szükség?– Az EU évente 1 milliárd €-t költ fordításra– Interneten elérhető információkhoz való

hozzáférés (Google Translation)

Page 3: Gépi fordítás

„Bár a kutatók egyetértenek abban,

hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.”

(S. Warwick-Armstrong)

Page 4: Gépi fordítás

A gépi fordításról… (Prószéky 2006)

Igaz, hogy a minőség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT-rendszereknek.

Bizonyos körülmények közt a MT minsőégi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót.

A MT nem fenyegeti a fordítók munkáját.A beszéd−beszéd MT továbbra is kutatási téma.

Általánosságban is igaz: sok kutatási téma van még a MT területén.

A MT-rendszerek fejlesztése időigényes munka.A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni,

ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.

Page 6: Gépi fordítás

Alkalmazások• Ha gyors fordítás kell, de nyers

elég– Információ kinyerés webről

• Computer-aided human MT

• Speciális szaknyelven léteznek jó megoldások– időjárás jelentések– repjegy foglalás

Page 7: Gépi fordítás

Problémák

Page 8: Gépi fordítás

Nyelvek közti különbségek• morfológia

– izoláló vs. poliszintetikus– agglutináló vs. flektáló

• szintaktikailag– Subject-Verb-Object, VSO, SOV–

• egyéb strukturális különbségekYYYY. MM. DD. vs. MM/DD/YY

Page 9: Gépi fordítás

Nyelvek közti különbségek

• Lexikai különbségek– red vs. vörös, piros

Page 10: Gépi fordítás

Problémák a MTben• Összetett szavak

cross dad

• Többszavas kifejezések knightly gymnastics

• Idiómák as happy as dog with two tails

• Stílus

Page 11: Gépi fordítás

Megközelítések a MT-ben

• Nyelvpárok közti fordítás– Szabályalapú rendszerek

• direkt• transzfer• interlingua

– Statisztikai fordítás

• Nyelvhalmazok közti fordítás

Page 12: Gépi fordítás

Szabályalapú rendszerek

Page 13: Gépi fordítás

Közvetlen szabályalapú fordítás

• Lépései:– Morfológiai analízis– Kétnyelvű szótárban megtalálható

kifejezések cseréje– Szavak sorrendjének átrendezése– Morfológiai képzés

Page 14: Gépi fordítás

Átrendezés

Page 15: Gépi fordítás

Transzfer fordítás

Page 16: Gépi fordítás

Transzfer

Page 17: Gépi fordítás

Szemantikus transzfer

• Szemantikus szerep azonosítás

• WSD

Page 18: Gépi fordítás

Interlingua• Predikátumlogika

• Szemantikai reprezentációk– nyelvek közti különbségek?

elder brother

Page 19: Gépi fordítás

A fordítási feladat„Csak kiszótárazom, lefordítom és kész”

– legyen 1 mondat átlagosan 15 szó hosszú– legyen 1 szónak átlagosan 3 jelentése

– 1 „mondatnak” 315 különböző fordítása áll elő– * szórendből permutációk– * extra szavak, kimaradó szavak

Page 20: Gépi fordítás

Statisztikai MT• Minden frázisnak több lehetséges

fordítása van

• Válasszuk ki a legvalószínűbb szekvenciát

• Célfüggvény:– szöveghűség és– folyékonyság/érthetőség

Page 21: Gépi fordítás

Statisztikai MT

• Fordítási modell

• Nyelvi modell

argmax P(M|a)=argmax P(M)*P(a|M)

• „Dekóder”

Page 22: Gépi fordítás

Nyelvi modell

• általában N-gram model2-gram: P(m1,m2…mn)=∏P(mi|mi-1)

3-gram: P(m1,m2…mn)=∏P(mi|mi-1, mi-2)

• egy nyelvre

• bőségesen van korpusz P(mi|mi-1) becslésére

Page 23: Gépi fordítás

Párhuzamos korpuszok• Két vagy több nyelven elérhető,

szegmenseik egymáshoz rendeltek• A szegedi angol-magyar párhuzamos

korpusz ~64 ezer mondatból áll:

Page 24: Gépi fordítás

Mondat szinkronizáció• Dinamikus programozás• Megközelítések

– hossz alapú• Egységek hossza alapján összerendelés

(a cél- és forrásnyelvi egységek hosszának aránya becsült)

– horgony alapú• Írásjelek, megegyező szavak

– hibrid módszerek

• 98%

Page 25: Gépi fordítás

Fordítási modell• cél: frázisokat fordítsunk

• párhuzamosítani kell frázis szinten

• van elég példa a párhuzamos korpuszban?

Page 26: Gépi fordítás

Szavak párhuzamosítása

Page 27: Gépi fordítás

Szavak párhuzamosítása• Minden statisztikai MT lelke• Ha van egy modell akkor

– frázisok azonosítása

– fordítási modell

Page 28: Gépi fordítás

IBM Model 1

Page 29: Gépi fordítás

IBM Model 1

• J: cél mondat hossza• A=(a1..aJ): összerendelések

• I: input mondat hossza• minden hozzárendelésnek egyenlő a

valószínűsége

Page 30: Gépi fordítás

IBM Model 1

Page 31: Gépi fordítás

Dekóderargmax P(M|a)=argmax P(M)*P(a|M)

Page 32: Gépi fordítás

MT kiértékelése

• Emberi kiértékelés– érthetőség, természetesség, stílus– 1-5 skála– Olvasás ideje– cloze teszt– információ átadási készség– utó-javítás ideje

Page 33: Gépi fordítás

BLUE score• A fordítás minőségének mérése• Az embernél nincs jobb kiértékelő, de

az nagyon drága• Adott néhány (emberi) fordítás

minden mondatra a teszt halmazon• Számoljuk meg, hogy 1,2,3,4

grammok milyen fedésben vannak az emberi fordításokkal

• + javítások…

Page 34: Gépi fordítás

BLUE

Page 35: Gépi fordítás

BLUE• precízió: ha a 10 szavas fordításból

6 szerepel valamelyik referenciában akkor 60%

Page 36: Gépi fordítás

Fordítástámogató rendszerek (CAT)

Page 37: Gépi fordítás

CAT formái

• Fordító memória

• Szótárazás (egy- és kétnyelvű)

• Terminológiakezelés

• Szinkronizáció

• Helyesírás-ellenőrzés

Page 38: Gépi fordítás

A Fordító memóriáról…• Hosszú távon időt (pénzt) takarít meg a

fordító• Fordítócsoportok munkáját segíti

(központi memória, terminológia, konzisztencia)

• Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!”

• Fenn kell tartani (képzések, licensz), nem garantált a minősége

• Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…

Page 39: Gépi fordítás

Vicces esetek…

határrendőr[border alphabetic order][guard]

haltartó [dying holder]

háztűznézés [house][ fire][ look]

hóhányás [snow][ vomit]

időlopás [time][ theft]

légyszem [be eye]

Page 40: Gépi fordítás

Vicces esetek…

Vomit his dog there is the queen? (InterTran)

Gyermekei megy ugyanaz iskola mint bánya. (InterTran)

Kekszek nincsenek balra! (MetaMorpho)

Left hand Irishmen. (MetaMorpho)