Upload
matija-matovilac-prahin
View
13
Download
4
Embed Size (px)
DESCRIPTION
36
Citation preview
Prijevodna memorijaPrijevodna memorija
Déjà VuDéjà Vuwww.atril.com
Sječanj, 2009.
UvodUvod• raste potreba za automatiziranijim, gotovo
trenutnim prevođenjem, koje se ne može ostvariti bez pomoći računala
• EU • kod velikih projekata – pridonosi ujednačenosti i
konzistentnosti prijevoda kod rada više prevoditelja
• dvojaki cilj: – što manji nerazmjer uloženog vremena i količine
prevedenog– usklađenost prijevoda, standardiziranje termina
KLASIČNO PREVOĐENJE
VIZIJA PREVOĐENJA POMOĆU RAČUNALA
Prijevodna memorija (TM)
• tip baze podataka koja se koristi u sustavima za strojno i strojno potpomognuto prevođenje
• u njoj su spremljeni segmenti teksta na izvornom jeziku i njihovi prijevodi na jedan ili više ciljnih jezika – prijevodna jedinica (engl. Translation Unit, TU).
• najčešće integrirana u CAT softver• koncept prijevodne memorije – „reciklaža
prevedenih segmenata“.
Prijevodna memorijaPrijevodna memorija• jedan od raznih elektroničkih alata za prevođenje kao npr.:
– programi za automatsko prevođenje– elektronički rječnici i tezaurusi– ostali elektronički obrazovni mediji, npr. :
• enciklopedije• kazala• leksikoni
• TM (engl. translation memory) može se definirati kao tekstualni arhiv koji sadrži poravnate višejezične segmente teksta, dozvoljavajući pohranu i preuzimanje
• prijedlozi prijevoda već prevedenih tekstova iz baze• prevoditelj provjerava ponuđeno te prihvaća, mijenja ili odbija• izbjegavaju se ponovni prijevodi već prevedenog• postiže se ujednačenost i konzistentnost
Računalo prevodi, ali ne ispravlja neprecizne rečenice
"I saw the man with binoculars"
1001110101110010100100101110110
“Vidio sam čovjeka kako gleda dalekozorom "
“S dalekozorom sam vidio čovjeka "
“Vidio sam čovjeka s dalekozorom "
Prededitiranje Prevođenje Posteditiranje
Neprecizna rečenica
Neprecizna rečenica
Što je pisac htio reći?
... prijevodna memorija... prijevodna memorija
• prevoditelj ima na raspolaganju već prevedene riječi, fraze pa čak i cijele rečenice
• iz postojeće baze se preuzima ili prerađuje slična rečenica
• za prevođenje ostaju samo dijelovi teksta koji se ne podudaraju, niti su slični
• nove rečenice prevoditelj pohranjuje u bazu podataka za buduću uporabu
Kronologija…
• Kasnih 1970-ih – istraživanja o primjeni prijevodne memorije u prevođenju.
• Kraj 1980-ih – prva komercijalna izdanja sustava prijevodne memorije.
• 2000-te – šira praktična primjena• Nakon 2000. do danas – razvijanje dodatnih
alata za obradu teksta
Prijevodna memorija Prijevodna memorija vs.vs.
strojno prevođenje strojno prevođenje
• strojno prevođenje → program sam stvara prijevod (korisno kao predložak, nužne mnoge intervencije)
• PROBLEM: višeznačnost riječi i/ili rečenica• prijevodna memorija → ponuđeni prijevodi
profesionalnih prevoditelja (kontekstualno ovisni)– kod rada više prevoditelja, svi se koriste istom
prijevodnom memorijom i zajedničkim rječnikom
Prednosti i nedostaciPrednosti i nedostaci• prijevodna memorija nudi uporabu već
postojećih prijevoda• pridonosi konzistentnosti prijevoda
ALI !!
• zahtjeva mnogo vremena dok se napuni baza• skupo• zauzima puno diskovnog prostora• mogućnost ponovnog pogrešnog prijevoda
Problemi pri importiranju dokumenataProblemi pri importiranju dokumenata
• .rtf tekstualni dokument• dijakritički znakovi očuvani• Déjà Vu umeće šifre za formatiranje teksta
nespretno, npr. masno (bold) gdje ne treba – potrebna intervencija prevoditelja u eksportirani Word dokument, tj. u prijevod kao rezultat
Problemi pri prevođenjuProblemi pri prevođenju
• mnoge riječi imaju više prijevoda, ovisno o kontekstu – svrsishodan leksikon s frekvencijom riječi i ekvivalentnih prijevoda
• redoslijed riječi u rečenici je u različitim jezicima različito definiran
• lokucije i idiomatski izrazi prevode se kao značenjska cjelina
Proces prevođenjaProces prevođenja
• pred-urednik priprema tekst za prevođenje – smanjivanje jezičnih i strukturnih
nejasnoća– uklanjanje višeznačnosti– dugačke rečenice se rastavljaju na kraće– smanjuje se broj zamjenica i jasnije se
postavljaju veze među riječima
...proces prevođenja...proces prevođenja
• priprema teksta se isplati kada se prevodi na više jezika jer se smanjuje potreba za naknadnim doradama ili kada su pravila izvornog jezika prilično zamršena
• post-urednik nadograđuje prevedeni tekst.• interaktivnim uređivanjem korisnik smanjuje
broj naknadnih ispravaka – za dobar prijevod potrebno osigurati
razumijevanje ulaznog teksta.
RezultatRezultat
• kvaliteta prijevoda bolja što sustav koristi više pravila i veće rječnike
• upućuje se na korištenje jednoznačnih pojmova i jednostavnih rečenica, bez mnogo zamjenica
• bitna strukturna bliskost dvaju jezika, vrsta teksta i tematika– npr. priručnici – povećanje produktivnosti
prijevoda
Atril – Déjà VuAtril – Déjà Vu
Déjà Vu (Atril)
• kompanija Atril objavila je prvu verziju Déjà Vu-a 1993. godine – cilj pojednostavniti proces sravnjivanja.
• danas – Déjà Vu jedan od najpopularnijih paketa prijevodne memorije koji kombinira komercijalno dostupnu prijevodnu memoriju na bazi primjera (engl. Example-based translation memory) s fleksibilnim sustavom za upravljanje terminologijom, sadrži funkcije za upravljanje projektom.
Déjà Vu (Atril)
• Déjà Vu X – najnovija verzija koja podržava sve jezike koje podržava i Windows sustav
• Unicode – nema ograničenja, čak i kada se radi o kompliciranijim jezicima. Sadrži pravopisnu provjeru za 14 glavnih jezika.
• Déjà Vu X – više verzija programa za sve grupe korisnika: Standard (500 $), Professional (1000 $) i Workgroup (5000 $), koje se redovito obnavljaju.
Déjà Vu (Atril)
• Podržavani formati: Microsoft Word, Rich Text Format, Windows Help,
Microsoft Excel, Micosoft PowerPoint, Microsoft Access, OpenOffice/StarOffice, Adobe FrameMaker MIF, Adobe InDesign, Adobe PageMaker označeni tekst, QuarkXPress XTG, Interleaf ASCII, HTML, ASP/ASP.NET, PHP, JavaScript, VBScript, HTML Help, SGML, XML, RC, C/C++/Java, Java properties, IBM TM neprevedeni segmenti, Trados WorkBench dokumenti, TradosTag TTX, Trados TagEditor BIF, Trados TagEditor TMX, GNU PO i POT datoteke.
Memorijska baza (prijevodna memorija)
• baza podataka u koju su spremljeni prijašnji prijevodi, najčešće sravnjeni u parove rečenica izvornog i ciljnog jezika
• baza koja sadrži parove termina.• svaki je par povezan s gramatičkim informacijama,
područjem definicije za svaki jezik i informacijama o tematskom sadržaju teksta, klijentu, datumu i vremenu.
Terminološka baza podataka
Leksikon
• popis svih riječi ili fraza izvornog jezika koje se nalaze unutar projekta
• za određeni termin može postojati više od jednog prijevoda
• rješenje – stvaranje specifičnog leksikona za određeni projekt i unošenje pravilnih prijevoda
Rječnici
• prilagodive liste riječi koje sadrže dva ili više jezika u specijaliziranom i skraćenom obliku
• moguće ih je mijenjati ili izostaviti• najosnovniji oblik – tablica ekvivalentnih riječi• Pojmovnici (engl. Glossaries)
– specijalizirani jednojezični rječnik koji uključuje termine i moguće dodatne atribute (npr. izvor, područje, rod, broj i sl.)
Satelitski projekti• Male jednojezične datoteke – ne sadrže informacije o
formatiranju, formatu slika i rasporedu zbog kojih su projekti u DPT (Dynamic packet transport) formatu često vrlo opsežni.
• Razmjena preko Interneta ili drugih elektroničkih medija, mogu biti ponovno uneseni u glavni, višejezični projekt.
• Pack&Go paketi – samostojeće jako komprimirane datoteke, idealne za prijenos cjelokupnih projekata ili dijelova satelitskog projekta.
Atril – Déjà VuAtril – Déjà Vu• leksikon – širok jezični spektar, indeks termina i
fraza – daje frekvenciju pojavljivanja riječi !!!– kasnije može postati glosar termina za klijente
• terminološka baza – manji specificirani jezični segmenti
• prijevodna memorija – rečenice
• podržava import različitih datoteka: – .doc, .rtf, .html i plain text – PowerPoint, Quark Xpress, C++, etc.
DVI SUČELJE S IZBORNIKOM ZA KREIRANJE NOVIH ELEMENATA DVI SUČELJE S IZBORNIKOM ZA KREIRANJE NOVIH ELEMENATA
DVI SUČELJE S IZBORNIKOM ZA KREIRANJE NOVIH ELEMENATA DVI SUČELJE S IZBORNIKOM ZA KREIRANJE NOVIH ELEMENATA
PROJECT EXPLORERPROJECT EXPLORER
IZBOR CILJNOG JEZIKAIZBOR CILJNOG JEZIKA
IZBOR FORMATA UVOZNE DATOTEKE IZBOR FORMATA UVOZNE DATOTEKE
Déjà Vu Interactive (DVI) – OPCIJE ZA PODEŠAVANJE Déjà Vu Interactive (DVI) – OPCIJE ZA PODEŠAVANJE
BAZA PODATAKA - OPCIJE BAZA PODATAKA - OPCIJE
IZBOR OZNAKE ZAVRŠETKA REČENICE IZBOR OZNAKE ZAVRŠETKA REČENICE
IZBOR ZNAKOVA ZA SVAKI JEZIK – mala i velika slova, brojevi i simboli IZBOR ZNAKOVA ZA SVAKI JEZIK – mala i velika slova, brojevi i simboli
IZBOR TEMATSKOG PODRUČJA PRIJEVODA IZBOR TEMATSKOG PODRUČJA PRIJEVODA
DVI SUČELJE ZA PREVOĐENJEDVI SUČELJE ZA PREVOĐENJE
IMPORTIMPORT
OPCIJE KOD PREVOĐENJAOPCIJE KOD PREVOĐENJA
DVI SUČELJE S IZBORNIKOM ZA KREIRANJE NOVIH ELEMENATA DVI SUČELJE S IZBORNIKOM ZA KREIRANJE NOVIH ELEMENATA
DODAVANJE PAROVA TERMINA U TERMINOLOŠKU BAZU PODATAKADODAVANJE PAROVA TERMINA U TERMINOLOŠKU BAZU PODATAKA
LEKSIKONLEKSIKON
PUNJENJE SADRŽAJA LEKSIKONAPUNJENJE SADRŽAJA LEKSIKONA
IZBORNIK PRIKAZA REDOVA PRIJEVODA S MOGUĆNOŠĆU IZBORA KRITERIJA IZBORNIK PRIKAZA REDOVA PRIJEVODA S MOGUĆNOŠĆU IZBORA KRITERIJA
OZNAKE DJELOMIČNO TOČNOG PRIJEVODA I POGREŠKE U UMETNUTIM KODOVIMA
OZNAKE DJELOMIČNO TOČNOG PRIJEVODA I POGREŠKE U UMETNUTIM KODOVIMA
ZNAČENJE OZNAKA UZ PRIJEVODZNAČENJE OZNAKA UZ PRIJEVOD
PROVJERA RAZLIČITIH PRIJEVODA ISTOG TEKSTAPROVJERA RAZLIČITIH PRIJEVODA ISTOG TEKSTA
FUNKCIJA SAŽIMANJA SADRŽAJAFUNKCIJA SAŽIMANJA SADRŽAJA
EKSPORT OPCIJEEKSPORT OPCIJE
IstraživanjeIstraživanje
Primjer s korisničkim priručnikomza mobitel Nokia E90-1
• rad s Déjà Vu X Standard trial verzijom• uzet dvojezični priručnik za mobitel Nokia
E90-1 – prigodno za rad s prijevodnom memorijom radi mnogo termina koji se ponavljaju
……istraživanjeistraživanje
• dva projekta, ista terminološka baza i prijevodna memorija– s engleskog na hrvatski– s hrvatskog na engleski – pokazalo se
jednostavnijim
Primjer - prednostPrimjer - prednost
• u priručnicima za razne uređaje koristi se mnogo termina koji se ponavljaju, npr. dijelovi uređaja
• dijelovi mobitela, npr.: poklopac, memorijska kartica, baterija, itd. jednoznačno prevedeni na engleski (terminološka baza – lookup)
Primjer - nedostatakPrimjer - nedostatak
• prilikom prevođenja sačuvani parovi eng-hrv u terminološku bazu – lookup (potraga za već prevedenim terminima) → problem s padežima– pr. nom. memorijska kartica vs.
umetnite/upotrijebite memorijska kartica umjesto memorijsku karticu → nužna intervencija prevoditelja za padež u genitivu
Terminološka baza - Terminološka baza - lookuplookup
• označi se termin iz izvornog jezika• ako je termin pohranjen u leksikonu s
prijevodom na ciljni jezik, otvori se kompletna rječnička natuknica, ako nije, ne reagira (termin treba cijeli označiti, pr. SIM card – SIM kartica, drugačije ga ne prepoznaje)
• s hrv. na engl. prepoznaje riječ na hrv. ako je u drugom padežu nego potreban prijevod iz izvornog u ciljni jezik, pr. bateriju – the battery
Neke korisne prečice Neke korisne prečice keyboard shortcutskeyboard shortcuts
• CTRL + L = lookup• F10 = Add Pair to Lexicon• F11 = Add Pair to Terminology Database• F12 = Add Pair to Translation Memory• Alt-F12 = Add Project to Translation Memory• u odnosu na verziju 2000. god. (v. liteartura,
br. 3) – uvelike olakšan rad
ZaključakZaključak• strojno prevođenje treba promatrati upravo kao i samo računalo:
– ono služi kao pomoć u komunikacijskom procesu, zbog olakšavanja ljudskog rada, no za uspješan razvoj ovog područja potrebna su ogromna ulaganja (suradnja stručnjaka iz različitih područja, suvremena tehnologija, financijska podrška, vremenska raspoloživost rada isključivo na projektima strojnog prevođenja)
• potrebne česte intervencije prevoditelja, poglavito zbog padeža – sintaktički se engleski i hrvatski jezik najviše po tome razlikuju
• s hrvatskog na engleski puno jednostavnije, povećan stupanj automatiziranosti– nema padeža, pr. Umetnite SIM karticu = Insert SIM card – kako je
pohranjeno u terminološkoj bazi, nema intervencije prevoditelja radi dodavanja nastavaka
Zaključak - Déjà Vu (Atril)• Sustav prijevodne memorije koji sadrži brojne
funkcije za organizaciju i potpunu kontrolu procesa prevođenja.
• Prilagođen za rad sa svim značajnijim formatima dokumenata
• Sposobnost nalaženja približnih rješenja, koja se mogu transformirati u potpuna podudaranja – najveća prednost ovog programa
• Glavni nedostatak – ovisnost kvalitete i brzine prevođenja o raspoloživim kapacitetima baza podataka
Literatura
1. Dovedan, Z.; Seljan, S.; Vučković, K. Strojno prevođenje kao pomoć u procesu komunikacije. Str. 283-291. Informatologija 35 (4), 2002.
2. Schmidt Rio-Valle, Regina. Machine Translation today - An evaluation, 1999.
3. Assénat-Falcon, Suzanne. More Translation Memory Tools. Translation Journal. Vol. 4, No.2, April 2000– usporedba prije 8 godina i danas
• korisnički priručnici: – http://soft.splife.com/dn/0709/soft/S60v3/E90en.pdf– http://europe.nokia.com/