19
Корпоративная переводческая сеть с использованием специальных электронных библиотек RCDL 2009 17- 21 сентября 2009 г. 1 к.т.н. Абрамова Н.Н., к.т.н. Абрамов В.Е., Карнацкая А.А., Рожков В.М. ФГУП «НИЦИ при МИД России» [email protected], [email protected], [email protected], [email protected]

Корпоративная переводческая сеть с использованием специальных электронных библиотек

  • Upload
    leda

  • View
    55

  • Download
    0

Embed Size (px)

DESCRIPTION

Корпоративная переводческая сеть с использованием специальных электронных библиотек. RCDL 2009 17- 21 сентября 2009 г. к.т.н. Абрамова Н.Н., к.т.н. Абрамов В.Е., Карнацкая А.А., Рожков В.М. ФГУП «НИЦИ при МИД России» - PowerPoint PPT Presentation

Citation preview

Page 1: Корпоративная переводческая сеть с использованием специальных электронных библиотек

Корпоративная переводческая сеть с использованием специальных

электронных библиотек

RCDL 2009

17- 21 сентября 2009 г.

1

к.т.н. Абрамова Н.Н., к.т.н. Абрамов В.Е., Карнацкая А.А., Рожков В.М.

ФГУП «НИЦИ при МИД России»

[email protected], [email protected], [email protected], [email protected]

Page 2: Корпоративная переводческая сеть с использованием специальных электронных библиотек

Проблемы автоматизации перевода

В условиях глобализации современного мира выдвигаются более высокие требования к качеству и скорости перевода. Постоянно происходит рост требующих перевода на иностранные языки материалов, так как расширяются международные связи. На перевод накладываются довольно жесткие требования к используемой терминологии: термины, впервые появившиеся в основополагающих международных документах, таких как резолюции ООН, международные конвенции и договоры и переведенные на иностранные языки, в последующих документах должны переводиться таким же образом.

Из-за неудовлетворительного качества машинного перевода на постредактирование переведенного материала иногда можно затратить больше времени, чем на перевод по старинке без помощи программ.

Ни одна из ныне существующих в мире систем перевода не может обеспечить уровень перевода, сравнимый с уровнем человека-переводчика, однако переводчикам необходимы средства автоматизации, облегчающие их труд.

2

Page 3: Корпоративная переводческая сеть с использованием специальных электронных библиотек

3

Состояние проблемы

«Память переводчика», «накопители переводчика» или «накопители переводов» стали создаваться начиная с 80-х годов прошлого века.

Появились системы автоматизированного перевода, основанные на принципах «памяти переводчика» и выполняющие в отличие от систем машинного перевода не полный перевод текста, а его фрагменты без формирования связного текста, оставляя за человеком значительную часть по переводу, согласованию и редактированию текста. На сегодняшний день известно несколько часто используемых систем автоматизированного перевода, например, Trados , OmegaT, SDLX, Wordfisher, Metatexis , DejaVu , Transit , TermStar .

Помимо программных систем помощь переводчику оказывают автоматические словари, например, Translatelt, PROMT VER-Dict, ABBYY Lingvo, Мультитран, Контекст.

Page 4: Корпоративная переводческая сеть с использованием специальных электронных библиотек

4

Требования к автоматизированному рабочему месту (АРМ) переводчика

ПК с достаточным объемом оперативной и дисковой памяти и высокой скоростью обработки информации, оснащенный DVD и периферийными устройствами (сканер, принтер, web-камера) и имеющий доступ в корпоративную сеть и сеть Интернет.

Программное обеспечение (ПО) : текстовый редактор, система оптического распознавания текстов, электронные переводчики, клиент-серверное ПО для совместной работы.

Дополнительно на рабочую станцию можно установить системы автоматического реферирования текстов и системы распознавания голоса.

Page 5: Корпоративная переводческая сеть с использованием специальных электронных библиотек

5

Доводы в пользу использования платформы IBM Lotus Domino/Notes

Существует корпоративная информационная система, разработанная на этой платформе

Накоплены значительные объемы информации для автоматизации переводов, находящиеся в БД Lotus Notes.

Позволяет использовать Web–сервер для получения и обмена дополнительной информацией помимо имеющейся в корпоративной сети.

Позволяет легко переходить из одной ОС на другую или использовать несколько серверов под разными ОС.

Дает возможность организовать коллективную работу над переводимым документом.

Поддерживает формат Unicode, что позволяет работать с многоязычными документами.

Имеет встроенный текстовый редактор и сервис проверки орфографии.

Page 6: Корпоративная переводческая сеть с использованием специальных электронных библиотек

Корпоративная переводческая сеть

Page 7: Корпоративная переводческая сеть с использованием специальных электронных библиотек

7

Схема компонентов АРМ переводчика

На каждом АРМе установлены следующие средства: клиент-серверное программное обеспечение Lotus

Notes; текстовый редактор Word Microsoft Office 2007; система оптического распознавания текстов Abby

Fine Reader 8.0; электронный переводчик Promt ; электронный словарь Lingvo 9.0; реплика базы данных «Тексты для перевода»; реплика базы данных «Результаты поиска».

Page 8: Корпоративная переводческая сеть с использованием специальных электронных библиотек

8

Фрагмент тематического рубрикатора

Права человека Билль о правах человека Право на самоопределение Права коренных народов и меньшинств Предупреждение дискриминации Права женщин Права ребенка

Права пожилых людей Права инвалидов Права человека в области отправления правосудия Брак Право на здоровье Право на труд и на справедливые условия занятости Свобода ассоциации Рабство, сходная с рабством практика и принудительный труд Права мигрантов Гражданство, безгражданство, право убежища и беженцы

Page 9: Корпоративная переводческая сеть с использованием специальных электронных библиотек

9

Электронные библиотеки

Состав библиотеки Источники для формирования

Хранение

Терминологические словари

Глоссарии по внешнеполитической деятельности (русско-английские и русско-французские);электронный русско-английско-французско-испанский словарь по внешнеполитической деятельности

База данных «Память переводчика» на сервере Lotus Domino

Параллельные тексты

Резолюции ООН, меморандумы, международные конвенции и договоры

Page 10: Корпоративная переводческая сеть с использованием специальных электронных библиотек

10

Подготовка текстов для ввода в базу

данных «Память переводчика»

Этапы работ Средства

I. Проверка выравнивания абзацев в параллельных

текстах II. Автоматическое формирование файла для импорта в базу данныхo Разбивка каждого текста на части (24 абзаца)o Извлечение из параллельных текстов заголовков и запись их в поля названия документа на русском и иностранных языках. o Формирование полей из текста каждого абзаца.o Проведение морфологического анализа текста каждого абзаца на русском языке и запись результатов в соответствующие поля.

Текстовый редактор (Word, WordPad, )

Программа Formfile (язык С++)

Page 11: Корпоративная переводческая сеть с использованием специальных электронных библиотек

Программа автоматического формирования

файла для импорта в базу данных

Page 12: Корпоративная переводческая сеть с использованием специальных электронных библиотек

12

Фрагмент текста, предназначенного для импорта в базу данных

Chart: Часть 8Name_ru:Международная конвенция о борьбе с финансированием терроризма Name_en:International Convention for the Suppression of the Financing of Terrorism Name_es:Convenio internacional para la represión de la financiación del terrorismo Name_fr:Convention internationale pour la répressiondu financement du terrorisme Ab1_ru:8. Протокол о борьбе с незаконными актами, направленными против безопасностистационарных платформ, расположенных на континентальном шельфе, совершенный в Риме 10 марта 1988 года. Ab1_en:8. Protocol for the Suppression of Unlawful Acts against the Safety of Fixed Platforms located on the Continental Shelf, done at Rome on 10 March 1988. Ab1_es:8. Protocolo para la represión de actos ilícitos contra la seguridad de las plataformas fijas emplazadas en la plataforma continental, hecho en Roma el 10 de marzo de 1988. Ab1_fr:8. Protocole pour la répression d’actes illicites contre la sécurité des plates-formes fixes situées sur le plateau continental, fait à Rome le 10 mars 1988. Kod:Борьба с терроризмом и преступностьюKod:Борьба с финансированием терроризмаVid: ДRmaName: международн конвенци о борьб с финансировании терроризм #2 3 3 4 4 6 7 RmaAb1: 8 & протокол о борьб с незаконн акт & направлен против безопасност стационарнплатформ & расположенн на континентальн шельф & совершенн в рим 10 март 1988 год &#0 -1 -1 -1 0 0 3 6 5 8 8 9 11 11 10 12 12 14 15 14 16 16 17 17 18 18 19 18

Page 13: Корпоративная переводческая сеть с использованием специальных электронных библиотек

13

Представление по тематике русско-английских параллельных текстов

Page 14: Корпоративная переводческая сеть с использованием специальных электронных библиотек

14

Представление русско-французского словаря

Page 15: Корпоративная переводческая сеть с использованием специальных электронных библиотек

Работа с исходными текстами

Page 16: Корпоративная переводческая сеть с использованием специальных электронных библиотек

Представление результатов поиска

Page 17: Корпоративная переводческая сеть с использованием специальных электронных библиотек

Результат поиска в русско-английских тестах

Page 18: Корпоративная переводческая сеть с использованием специальных электронных библиотек

18

Результат поиска в русско-французских тестах

Page 19: Корпоративная переводческая сеть с использованием специальных электронных библиотек

Направления дальнейшей работыПроблема Решение

Вариативность терминологии Предварительная обработка текстов на русском языке с помощью тезауруса при подготовке файла для импорта в БД «Память переводчика», и тезаурусная обработка исходного текста, предназначенного для перевода, в процессе работы программы

Перевод исходного текста на основе имеющихся в БД «Память переводчика» иноязычных эквивалентов.

Установить критерий близости текстов абзацев на русском языке. Выдавать пользователю абзацы, отвечающие этому критерию, и соответствующие им абзацы параллельных текстов на нужном языке.

Насыщение БД «Память переводчика» Форсировать работы по предварительной обработке текстов за счет привлечения большего числа специалистов.

Оптимизация работы программного комплекса с целью улучшения временных характеристик

Доработка программного комплекса