Ulanov nlp-8

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обработка текстов на естественном языке Александр Уланов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 2

Оглавление курса

1. Основы лингвистики. Слова, фразы, предложения, наборы текстов

2. Статистики, языковые модели

3. Марковские модели. Разбор текстов по частям речи

4. Извлечение отношений из текстов

5. Поиск дубликатов в тексте

6. Кластеризация и классификация текстов

7. Анализ мнений

8. Введение в статистический машинный перевод

Литература

• Chris Manning and Hinrich Schuetze. Foundations of Statistical Natural Language Processing, MIT Press, 1999

• Philipp Koehn. Statistical Machine Translation, Cambridge Univ. Press, 2010

• Научные статьи по теме, видеолекции Stanford и Coursera (Manning)


ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ

МАШИННЫЙ ПЕРЕВОД

Лекция 8


Оглавление

Подход к переводу

Оценка качества перевода

Подготовка корпуса, выравнивание

Модели, основанные на словах

Модели, основанные на фразах

Другие модели

Декодирование

Эффективность перевода для некоторых пар языков

Ресурсы


Введение

Предыстория

• Warren Weaver впервые описал в 1949, как может происходить перевод при помощи

компьютера

• Отчет ALPAC’66 про бесперспективность пост-редактирование автоматического перевода

• Systran`68 – русско-английский переводчик на правилах для ВМФ США

• Trados в 90е – автоматизация процесса человеческого перевода

• Создание промежуточного языка (interlingua), чтобы описывать знания независимо от языка

• Конец 80х – подходы на основе примеров перевода, начало 90х – стат модели IBM

• Конец 90х – на семинаре John Hopkins Uni реализуют модели IBM

• Начало 2000х – DARPA финансирует автоматический перевод (с арабского)

• Современные коммерческие системы основаны на статистических моделях


Введение

Машинный перевод

Machine translation

• Дано:

• Найти перевод на русский язык (чаще – на английский)

• Довольно сложная задача!


Введение

Как будем переводить?

Со словарем (при помощи словаря и правил)

• Правила грамматики и морфологии

• Выбор правильного смысла слова

При помощи примеров переводов

• Тексты вместе с их переводом на другой язык (параллельные корпусы - parallel corpora)

• Доступно большое количество данных

• При большом наборе текстов и в узкой предметной области можно получить достаточно

качественный перевод (т.е. частично выполненный человеком)

• Проблема недостаточности данных

• Проблемы грамматики и морфологии


Статистический машинный перевод

Параллельные тексты

(англо-русские) Английский текст

Модель перевода Языковая модель

Статистический анализ


Статистический анализ

Русский

текст

Английский

текст

Обучение

Перевод/Тест

𝒂𝒓𝒈𝒎𝒂𝒙𝒆𝒑 𝒆|𝒇 = 𝒂𝒓𝒈𝒎𝒂𝒙𝒆𝒑 𝒇|𝒆 𝒑 𝒆

на словах

на фразах

на синт.

деревьях

«канал с шумами» 𝒆 – English

𝒇 – foreign модель декодер



Ручная оценка

• Слишком долго

Автоматическая оценка

• BLEU, TER (Translation Edit Rate), METEOR, Word Error Rate, Precision, Recall

• BLEU – a Bilingual Evaluation Understudy

– 𝐵𝐿𝐸𝑈4 = 𝑚𝑖𝑛 1,длина перевода

длина эталонного перевода 𝑃𝑖4𝑖=1 , где 𝑃𝑖 =

Кол−во совпавших 𝑖−грамм

Кол−во 𝑖−грамм

– Вычисляется по всему корпусу, а не по предложениям

Как упоительны в России вечера

Эталон So delightful are evenings in Russia

Перевод G As a delightful evening in Russia

Перевод P As evenings are delightful in Russia

Перевод Y As упоительны in Russia PM

𝑃1 =2

6, 𝑃2 =1

5, 𝑃3 = 0

𝐵𝐿𝐸𝑈4 = 0

𝐵𝐿𝐸𝑈2 =6

6∙2

6∙1

5≈ 7%


Особенности BLEU

Достоинства BLEU

• Есть положительная корреляция с оценкой перевода

человеком (не бесспорно)

Недостатки BLEU

• Не учитывает важность слов

• Не учитывает грамматическую корректность, т.к.

работает на уровне фраз из 4-х слов

• Значение BLEU не имеет смысла, имеет смысл только

разница значений

• BLEU человеческих переводов не сильно выше

автоматических, хотя сам перевод лучше

*George Doddington, NIST

**2005 NIST evaluations on Arabic–English

(*)

(**)


Выравнивание текстов по предложениям

Sentence alignment

Обычно в тексте с его переводом нет точного соответствия по предложениям, более

того, тексты часто просто сравнимые (об одном и том же)

• Алгоритмы выравнивания

– Без учителя

– Основаны на динамическом программировании

– Используется предположение, что предложения монотонно упорядочены

– Пространство поиска уменьшают при помощи эвристик

• Наиболее известные:

– Gale and Church algorithm [Gale and Church, 93]

– Microsoft's Bilingual Sentence Aligner (MBA) [Moore, 2002]

– Hunalign [Varga et al, 2005]

– Gargantua [Braun and Fraser, 2010]

– Bleualign [Sennrich and Volk, 2010]

Abdul-Rauf, Sadaf, et al. "Extrinsic evaluation of sentence

alignment systems."Proceedings of LREC workshop on

Creating Cross-language Resources for Disconnected

Languages and Styles, CREDISLAS. 2012.


Выравнивание текстов по предложениям

[Gale & Church 1993]

• Вычисление значения для каждой пары предложений на основе отношения их длины и

дисперсии отношения

• Динамическое программирование для поиска максимального правдоподобия данным

MBA [Moore 2002]

• На подмножестве выравненных при помощи длины предложений обучается

модифицированная модель IBM

• Полученная таблица переводов используется для выравнивания остального

Hunalign [Varga et al, 2005]

• Аналогично MBA, только на основе внешних словарей



Word-based models

Как перевести слово

• Посмотреть в словаре

• Много вариантов

• Разная вероятность перевода

Как составить словарь

• На основе параллельных текстов

• Собрать статистику переводов слов

• Для этого надо сделать выравнивание (alignment) по словам

Трудности

• В разных языках разный порядок слов

• Некоторые вспомогательные слова могут не иметь перевода и наоборот

• Некоторые слова переводятся в несколько слов сразу и наоборот


So delightful are evenings in Russia

0

𝑎 ∶ 1 → 1, 2 → 2, 3 → 0, 4 → 5, 5 → 3, 6 → 4



Word-based models

IBM model 1 [Brown et al, 1993]

• Используются только лексическая вероятность перевода

– Для предложения 𝑓 = 𝑓1, … , 𝑓𝑛 длиной 𝑛

– в английское предложение 𝑒 = 𝑒1, … , 𝑒𝑘 длиной 𝑘,

– при выравнивании каждого английского слова 𝑒𝑗 к слову 𝑓𝑖 в соответствии с функцией

выравнивания 𝑎 ∶ 𝑗 → 𝑖 ,

– вероятность перевода 𝑝 𝑒, 𝑎|𝑓 =𝜖

𝑛+1 𝑘 𝑡 𝑒𝑗|𝑓𝑎 𝑗𝑘𝑗=1

– 𝜖 – для нормализации, 𝑡 – вероятность перевода слова

• Как найти функцию выравнивания?

Brown, Peter F., et al. "The mathematics of statistical machine translation: Parameter

estimation." Computational linguistics 19.2 (1993): 263-311.



Expectation-maximization algorithm

EM-алгоритм

• Инициализировать параметры (равномерно)

• Присвоить вероятности скрытым переменным

• Пересчитать параметры модели на основе данных

• Перейти к шагу 2

EM-алгоритм для IBM модели 1

– Expectation

• Скрытые переменные – выравнивание

• Присвоить вероятности всем возможным

выравниваниям

– Maximization

• Посчитать кол-во возможных выравниваний в

данных и пересчитать вероятности

𝑝 𝑎|𝑒, 𝑓 =𝑝 𝑒, 𝑎|𝑓

𝑝 𝑒|𝑓=

𝑡 𝑒𝑗|𝑓𝑎 𝑗

𝑡 𝑒𝑗|𝑓𝑗𝑛𝑖=0

𝑘

𝑗=1

𝑐 𝑒|𝑓; 𝐞, 𝐟 =𝑡 𝑒|𝑓

𝑡 𝑒|𝑓𝑖𝑛𝑖=0

𝛿 𝑒, 𝑒𝑗

𝑘

𝑗=1

𝛿 𝑓, 𝑓𝑖

𝑛

𝑖=0

𝑡 𝑒|𝑓; 𝐞, 𝐟 = 𝑐 𝑒|𝑓; 𝐞, 𝐟𝐞,𝐟

𝑐 𝑒|𝑓; 𝐞, 𝐟𝐞,𝐟𝑒


Пример EM для IBM model 1

этот дом этот мяч мой мяч

this house this ball my ball

e f Иниц. Ит. 1 2 3

this этот 0.25 0.5 0.6364 0.7479 ... 1 house этот 0.25 0.25 0.1818 0.1208 ... 0

ball этот 0.25 0.25 0.1818 0.1313 ... 0 this мяч 0.25 0.25 0.1818 0.1208 ... 0 ball мяч 0.25 0.5 0.6364 0.7479 ... 1

my мяч 0.25 0.25 0.1818 0.1313 ... 0 ball мой 0.25 0.5 0.4286 0.3466 ... 0

my мой 0.25 0.5 0.5714 0.6534 ... 1 this дом 0.25 0.5 0.4286 0.3466 ... 0

house дом 0.25 0.5 0.5714 0.6534 ... 1


Пример перевода для IBM model 1

Англ Рус t

was был 0.759358

a был 0.080214

NULL был 0.032086

been был 0.016043

were был 0.016043

would был 0.010695

… … …

Англ Рус t

here здесь 0.492647

is здесь 0.183824

there здесь 0.088235

are здесь 0.036765

this здесь 0.029412

NULL здесь 0.014706

… … …

Англ Рус t

he он 0.762153

it он 0.15625

NULL он 0.03125

He он 0.005208

nickname он 0.005208

, он 0.003472

… … …

Он был здесь

𝑝 𝑒, 𝑎|𝑓 =𝜖

43∙ 𝑡 ℎ𝑒|он ∙ 𝑡 𝑤𝑎𝑠|был ∙ 𝑡 ℎ𝑒𝑟𝑒|здесь =

𝜖

43∙ 0.762153 ∙ 0.759358 ∙ 0.492647≈0.00445𝜖

Вероятности посчитаты при помощи Giza++ на корпусе Romip-2013


Другие модели IBM

• Только модель 1 обеспечивает глобальный максимум

– Остальные модели обучаются на базе 1й

• Для моделей выше 2й используется сэмплирование, так как перебор слишком велик

Модель Особенности

IBM Model 1 лексический перевод

IBM Model 2 +изменение порядка перевода слов (перестановка)

IBM Model 3 +вставка слов(а)

IBM Model 4 относительное изменение порядка перевода слов

IBM Model 5 фикс того, что слова могут быть вставлены в одну и ту же позицию


Модели, основанные фразах

Phrase-based models

Переводить по несколько слов сразу («фразы» не в лингвистическом смысле)

Как составить словарь фраз

• На основе моделей IBM

Особенности

• Не нужно делать вставку и удаление слов

• При переводе сохраняется контекст, а следовательно, смысл

• Изменение порядка все равно нужно

На Новый Год мне подарили самоучитель кипячения для чайников

I was presented with a boiling tutorial for dummies on New Year’s eve


Модель, основанная на фразах

Phrase-based model

Простая фразовая модель [Och and Weber 1998]

• Модель канала с шумом

– 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑒|𝑓 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑓|𝑒 𝑝𝐿𝑀 𝑒

• Предложение 𝑓 разбивается на 𝐼 фраз 𝑓1𝐼 = 𝑓1 ,…𝑓𝐼

– 𝑝 𝑓1𝐼 |𝑒1𝐼 = 𝜙 𝑓𝑖 |𝑒𝑖 𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1

𝐼𝑖=1

– 𝜙 – вероятность перевода фразы,

– 𝑑 – вероятность изменения порядка перевода, пропорциональна экспоненте

• Как найти переводы фраз?

Рус Англ p

что это that it is 0.229167

, что это that it is 0.1875

что она that it is 0.0625

, что that it is 0.041667

, что она that it is 0.041667

, то that it is 0.020833

… …


Переводы фраз

Алгоритм

• Построить выравнивание по словам (например, по IBM)

• Собрать все фразы, согласующиеся с выравниванием по словам,

т.е. фразы должны включать все точки выравнивания

содержащихся в них слов в обоих языках

• Посчитать вероятности на основе частот:

Пример

• (Как, So), (упоительны, are delightful), (вечера, evenings), (в, in),

(России, Russia)

• (Как упоительны, So delightful are), (в России, in Russia), (в России

вечера, evenings in Russia)

• (упоительны в России вечера, delightful are evenings in Russia)

• (Как упоительны в России вечера, So delightful are evenings in

Russia)

Как

упои

тел

ьны

в

Росси

и

вечера

So

delightful

are

evenings

in

Russia

𝜙 𝑓 |𝑒 =𝑐𝑜𝑢𝑛𝑡 𝑒 |𝑓

𝑐𝑜𝑢𝑛𝑡 𝑒 ,𝑓𝑖 𝑓𝑖


Обобщение модели перевода

Логарифмические модели

Рассмотрим нашу модель

• 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑒|𝑓 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑓|𝑒 𝑝 𝑒

• В случае фразовой модели: 𝑒𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒 𝜙 𝑓𝑖 |𝑒𝑖 𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1 𝑝𝐿𝑀 𝑒𝐼𝑖=1

• Или 𝑒𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒 𝜙 𝑓𝑖 |𝑒𝑖 𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1 𝑝𝐿𝑀 𝑒𝑖|𝑒1…𝑒𝑖−1𝑒𝑖=1

𝐼𝑖=1

• Три состовляющих: перевод, перестановка и языковая модель. Введем веса для каждой

• 𝑒𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒 𝜙 𝑓𝑖 |𝑒𝑖 𝝀𝝓𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1

𝝀𝒅 𝑝𝐿𝑀 𝑒𝑖|𝑒1…𝑒𝑖−1𝝀𝑳𝑴𝑒

𝑖=1𝐼𝑖=1

• Можно сделать логарифмическую модель

– 𝑝 𝑥 = 𝑒𝑥𝑝 𝜆𝑖ℎ𝑖 𝑥𝑛𝑖=1

– 𝑝 𝑒, 𝑎|𝑓 = 𝑒𝑥𝑝 𝜆𝜙 log𝜙 𝑓𝑖 |𝑒𝑖 𝐼𝑖=1 + 𝜆𝑑 log𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1

𝐼𝑖=1 + 𝜆𝐿𝑀 log𝑝𝐿𝑀 𝑒𝑖|𝑒1…𝑒𝑖−1

𝑒𝑖=1

• Коэффициенты можно подбирать на выделенных данных (tuning)


Факторизованные модели

Factored models

Позволяют включить в модель дополнительную информацию

на уровне слов (например, как дополнительный член лог.

модели)

• Используются для морфологически богатых языков

Процесс генерации перевода

• Перевод леммы

• Перевод морфологии и частей речи

• Образование требуемых словоформ в целевом языке на основе

леммы, морфологии и части речи


• Модель для ∀ фактора строится аналогично подходу с фразами

• Модель словообразования

• Эффективна, если делать модель ЧР и применять

словообразование только к неизвестным формам

слово

лемма

часть речи

морфология

класс слова

слово

лемма

часть речи

морфология

класс слова

Вход Выход

WMT07 De-En, Koehn 2008


Модели на основе синтаксических деревьев

Syntax & tree based models

Позволяют включить синтаксическую информацию

• Перестановка слов на основе синтаксиса

• Более правильное использование вспомогательных слов

• Грамматически более верный перевод


• Эффективность сравнима с фразовыми моделями

• Хорошая перестановка глаголов в немецком, хотя для этого можно использовать правила

• Нужны хорошие синтаксические парсеры

• Вычислительно сложные


Пример [Yamada and Knight, 2001]



Decoding

Найти

• 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑒|𝑓 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑓|𝑒 𝑝 𝑒

• В случае фразовой модели: 𝑒𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒 𝜙 𝑓𝑖 |𝑒𝑖 𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1 𝑝𝐿𝑀 𝑒𝐼𝑖=1

Решение

• NP-сложная проблема [Knight, 1999]

• Предлагается ряд эвристических методов


• Перевод происходит слева направо

• Выбирается следующая фраза и ее перевод, затем вычисляются частичные значения для

частичного перевода

• Учитывается вероятность перевода, перестановки и языковой модели


Декодирование Раскрытие гипотезы

• Начинаем с пустой гипотезы

(пустой перевод)

• Выбираем фразу для

перевода, считаем

вероятность

So

0.056 0

As

0.421

How

0.303

delightful

are

xxx

evenings

xxx

in Russia

0.0015

delightful evening in Russia

0.0012

evenings

xxx

are

delightful

xxx

PM

xxx

delightful

xxx

in Russia

0.0011

in Russia

0.0008




Уменьшение вычислительной сложности

Рекомбинация гипотез

• Хранить только наиболее вероятный частичный перевод среди одинаковых

• Хранить только наиболее вероятный частичный перевод среди переводов одних и тех же

частей предложения



Уменьшение вычислительной сложности

Стек гипотез

• Складывать гипотезы в стеки по кол-ву переведенных слов

– O(размер стека*кол-во возможных переводов*длина предложения)~O(размер стека*длина

предложения2)

– Ограничение на размер стека (histogram pruning) как только стек переполняется – убирать

наименее вероятную гипотезу

• Предсказуемая сложность

– Ограничение по величине на которую самая плохая гипотеза может быть хуже самой

хорошей (beam search)

Ограничение перестановок

• Не больше нескольких слов

– O(размер стека*длина предложения)

Уместно также учитывать оценку стоимости перевода оставшихся фраз (future cost

estimation)


Эффективность машинного перевода*

Целевой язык И

схо

дн

ый

язы

к

Danish 21.47 18.49 21.12 28.57 14.24 28.79 22.22 24.32 26.49 28.33

20.51 Dutch 18.39 17.49 23.01 10.34 24.67 20.07 20.71 22.95 19.03

22.35 23.4 German 20.75 25.36 11.88 27.75 21.36 23.28 25.49 20.51

22.79 20.02 17.42 Greek 27.28 11.44 32.15 26.84 27.67 31.26 21.23

25.24 21.02 17.64 23.23 English 13 31.16 25.39 27.1 30.16 24.83

20.02 17.09 14.57 18.2 21.86 Finnish 22.49 18.39 19.14 21.16 18.85

23.73 21.13 18.54 26.13 30 12.63 French 32.48 35.37 38.47 22.68

21.47 20.07 16.92 24.83 27.89 11.08 36.09 Italian 31.2 34.04 20.26

23.27 20.23 18.27 26.46 30.11 11.99 39.04 32.07 Portug. 37.95 21.96

24.1 21.42 18.29 28.38 30.51 12.57 40.27 32.31 35.92 Spanish 23.9

30.35 21.94 18.97 22.86 30.2 15.37 29.77 23.94 25.95 28.66 Swedish

*BLEU, с ипользованием корпусов Europarl, по данным сайта http://www.statmt.org/matrix/

http://www.statmt.org/matrix/


Словарная дистанция между языками

Lexical Distance Among the Languages of Europe (Teresa Elms, 2008). Данные для графа взяты из К. Н. Тищенко

(1999), Метатеория языкознания


Эффективность машинного перевода

WMT-2013 [Bojar et al. WMT 2013]

• C английского на русский победил PROMT

• С русского на английский – open-source синтаксич. модель

• Фразовые системы на базе Moses - с небольшим отрывом

РОМИП-2013 (только англо-русский) [Braslavski et al. 2013 Dialog]

• Четыре онлайн-системы. OS2 – ПРОМТ (признались на конференции)

• ABBYY на первом месте среди не онлайн систем

• Moses с большим отрывом (наша система)

WMT-2013 Целевой язык

Исходный

язык

Чешский 27.1 16.2

19.2 Английский 19.8

14.4 24.6 Русский

OS1 OS2 OS3 OS4 ABBYY P2 (HP)

15 14.1 13.3 12.4 15.7 11.2

*все результаты в BLEU


Ресурсы

Сайт www.statmt.org

• Ссылки на программы, корпуса и конференции. Руководство по Moses

Параллельные корпусы с английским

• Europarl - европейские языки (>10M предложений)

• UN - арабский, китайский, русский (~10M предложений)

• Много других: http://www.statmt.org/moses/?n=Moses.LinksToCorpora, http://opus.lingfil.uu.se/

Основные программы

• HunAlign (С++): выравниватель по предложениям

• Moses : декодер (Perl & C++) на основе фраз

– Полный пакет вспомогательных средств типа токенизатора и скрипта для BLEU

– Интеграция со всем необходимым: Giza++(IBM модели), IRSTLM (языковая модель), сервер

• Joshua: декодер (Java) на основе синтаксиса

• Phrasal, cdec, Jane, Pharaoh

http://www.statmt.org/moses/?n=Moses.LinksToCorpora



http://opus.lingfil.uu.se/




Параллельные корпусы с русским языком*

Предложения Слова (RU) Слова (EN)

United Nations (UN) 11.7 285.6 248.1

Subtitles 17.1 106.8 91.3

UMC (news) 0.97 2.1 2.3

Yandex (Romip 13 & WMT-13) 1 24 26

News-commentary (WMT-13) 0.15 3.8 4

Common-crawl (WMT-13) 0.88 21 21.5

Wikipedia (WMT-13) 0.52 1.2 1.2

*В свободном доступе на январь 2014, значения в миллионах


Содержание



Подготовка корпуса, выравнивание


Модели, основанные на фразах

Другие модели


Эффективность перевода для некоторых пар языков

Ресурсы


Спасибо!

[email protected]

Documents

Ulanov nlp-8