32

Яков Длугач

Embed Size (px)

DESCRIPTION

Яков Длугач. Бригадир, отдел лингвистических технологий. Перестановки в машинном переводе. План. Зачем? Что и куда? Как? Ну и как?. Зачем?. Порядок слов в разных языках отличается но Модель канала с шумами (Noisy channel) подразумевает последовательный перевод. - PowerPoint PPT Presentation

Citation preview

Page 1: Яков Длугач
Page 2: Яков Длугач

Яков ДлугачБригадир, отдел лингвистических технологий

Перестановки в машинном переводе

Page 3: Яков Длугач

План

1.Зачем?

2.Что и куда?

3.Как?

4.Ну и как?

Page 4: Яков Длугач

Зачем?

• Порядок слов в разных языках отличается

но

• Модель канала с шумами (Noisy channel) подразумевает последовательный перевод

Page 5: Яков Длугач

Пример (из «Вавилонского разговорника»)

Page 6: Яков Длугач

Пример (из «Вавилонского разговорника»)

Кто

Вы

такой

,

и

что

мне

от

Вас

нужно

?

Wer

sind

Sie

und

was

möchte

ich

von

Sie

?

Page 7: Яков Длугач

Phrase-based модели часто правильно обрабатывают «локальные» перестановки

Page 8: Яков Длугач

Перестановки в phrase table

sind SieВы такой

мне от вас нужноmöchte ich von Sie

У коротких фраз больше вероятность встретиться в параллельном корпусе.

vs.

Page 9: Яков Длугач

Distortion (post-reordering)

• Позволяет переставлять фразы при переводе (по языковой модели)

• Сильно замедляет процесс перевода

• Плохо учитывает «окружающие» конструкции (например, “ne … pas”)

Page 10: Яков Длугач

Что и куда?

• Pre-reordering (preordering)

• Куда?

• Типы моделей

Page 11: Яков Длугач

Preordering

• Идея – поменять порядок слов до перевода

• Особенно нужно для языков с разной типологией порядка слов (например, SVO и OSV)

• Улучшает автоматические выравнивания (GIZA++)

When you reachmy age, you will not

look as good.

When my age youreach, look as good

you will not.

Page 12: Яков Длугач

Куда?

Предложение

Предложение

c изменённым

порядком слов

Перевод

reordering

Предложение

Предложение

c изменённым

порядком слов

Параллельное предложение

Page 13: Яков Длугач

Типы моделей

Page 14: Яков Длугач

Как?

• Описание модели

• Обучение

• Декодирование

Page 15: Яков Длугач

Немного про индийский кинематограф

series binding require skill much

does not.

Page 16: Яков Длугач

Описание модели: синхронные контекстно-свободные грамматики

[S]

[NP;1]

[VP;2]

[X]

[X;1]

[X;2]

• Были придуманы для компиляторов• Используются в синтаксическом SMT, а также

для построения семантических зависимостей

Page 17: Яков Длугач

• Обучение

Как?

Page 18: Яков Длугач

Дерево как набор помеченных отрезков

S

NPVP

NN VBGVBZ RB

VP

VBNP

JJ NN

.

series binding does not require much skill .VPrequire much skill

require skill muchСогласованный

VPrequire much skill

require skill ... muchНесогласованный

Page 19: Яков Длугач

Согласованность в выравнивании

Согласованный Несогласованныйse

ries

seriesbindingdoesnot

requiremuchskill

bind

ing

requ

iresk

illm

uch

does not

serie

s

seriesbindingdoesnot

requiremuchskill

bind

ing

requ

iresk

illm

uch

does not

Page 20: Яков Длугач

Извлечение правилS

NPVP

NN VBGVBZ RB

VP

VBNP

JJ NN

.

series binding does not require much skill .

VP: VBZ RB VP → VP VBZ RB

S

NPVP

NN VBGVBZ RB

VP

VBNP

JJ NN

.

series binding does not require much skill .

VP: VBZ not VB NP → VB NP VBZ not

Page 21: Яков Длугач

Реализация

• Основной инструмент – утилиты фреймворка Moses: extract и score

• Модель языка – IRSTLM

Page 22: Яков Длугач

• Декодирование

Как?

Page 23: Яков Длугач

Алгоритм Кока-Янгера-Касами (CYK)

• Для каждой группы слов, следующих друг за другом, строим возможные «гипотезы»

• Начинаем с однословных групп

• Увеличиваем размер групп динамическим программированием

Page 24: Яков Длугач

Построение гипотез

NN VBG VBZ RB VB JJ NN .

NP X X X X NP X

X X X X VP X

X X X X X

X X VP X

X X X

X X

S

seri

es

bi n

di n

g

do

es

no

t

r eq

uir

e

mu

ch

skil

l .

Гипотеза №1 Гипотеза №2

Page 25: Яков Длугач

Правило склейки (gluing)

NN VBG VBZ RB VB JJ NN .

NP X X X X NP X

X X X X VP X

X X X X X

X X VP X

X X X

X

S

series

bi ndi ng

does

not

require

much

s kill .

X

Page 26: Яков Длугач

Реализация

• “Chart” decoder – имеет реализацию в Moses

• Вывод пословного выравнивания

• Настройка весов – MERT или batch-MIRA

Page 27: Яков Длугач

Ну и как?

• Проверили на 3 языковых направлениях: Английский-Фарси, Английский-Итальянский и Английский-Урду

• Использовали данные RSMT12.

• Baseline: не менять порядок слов

• Соревновались с двумя другими командами

Page 28: Яков Длугач

Метрики

1.BLEU

2.Kendall τ-distance

3.Расстояние Хэмминга

Page 29: Яков Длугач

Результаты (BLEU/Hamming/Kendall)

Система Eng-Far Eng-Ita Eng-Urdu

Baseline 50.0/0.42/0.72 65.1/0.71/0.86 38.3/0.27/0.49

Dlougach & Galinskaya 65.56/0.55/0.75 76.65/0.77/0.88 55.79/0.43/0.59

Gupta et al. 55.7/0.43/0.71 73.0/0.75/0.87 44.7/0.31/0.51

Page 30: Яков Длугач

Лексические модели

TSP (задача коммивояжёра) –“A Word Reordering Model For Improved Machine Translation” (Visweswariah et al., 2011)

Page 31: Яков Длугач

Результаты (BLEU/Hamming/Kendall)

Система Eng-Far Eng-Ita Eng-Urdu

Baseline 50.0/0.42/0.72 65.1/0.71/0.86 38.3/0.27/0.49

Dlougach & Galinskaya 65.6/0.55/0.75 76.7/0.77/0.88 55.8/0.43/0.59

Gupta et al. 55.7/0.43/0.71 73.0/0.75/0.87 44.7/0.31/0.51

Visweswariah et al. 68.7/0.58/0.76 83.0/0.82/0.89 63.3/0.507/0.643

Page 32: Яков Длугач

Яков Длугач

Бригадир

[email protected]

Спасибо

http://yadi.sk/d/RVn9IVaC2_fkq