Смирнова. Методы исправления ошибок в текстах, написанных иностранцами

Методы исправления ошибок в текстах, написанных иностранцами

Смирнова Александра, 425 группа

Содержание

• Особенности текстов, написанных иностранцами

– Типы ошибок

• Основные подходы

– Этапы коррекции

– Методы коррекции

• Языковая модель

• Классификатор на основе машинного обучения

• Технологии и процесс тестирования

• Примеры систем

2











3

Особенности написания текстов, написанных иностранцами

В основном – тексты на английском языке

ESL (English as Second Language)

• Особенности иностранного языка, отличные от особенностей родного

– Артикли

– Времена глаголов

• Несколько вариантов перевода слова с родного языка на иностранный

– Лексическая сочетаемость слов

4

Типы ошибок

• Предлоги

I'm {in/at} the room

• Артикли Где ручка? – Where is {a/the} pen?

• Глаголы – Неправильное время

Мы играли. – We {played/had played}.

– Неправильный выбор глагола

Общаться с другими людьми. – {Connect/Communicate} with other people.

5











6

Этапы коррекции

• Большинство методов состоят из двух этапов: – Поиск места ошибки или ошибочного слова

– Исправление ошибки (используются статистические методы) • Единственное исправление

• Ранжированный список исправлений

Поиск места ошибки: – Для предлогов и глаголов местом ошибки

считается любое вхождение предлога и глагола

– Для артиклей ищутся существительные

7

Методы коррекции

• Языковая модель (ЯМ)

– Для каждого места ошибки строится набор вариантов исправлений. Исходная фраза и каждое из исправлений оценивается.

– На основе оценок выносится решение о коррекции


– На основе оценки контекста места ошибки выносится решение.

8

Языковая модель: построение

• Строится языковая модель

Собирается статистика следующего вида:

– Словесные n-граммы

– N-граммы частей речи

– Синтаксические n-граммы

• Статистика подсчитывается по:

– Корпусам текстов, написанных носителями языка

– Интернет-текстам

9

Языковая модель: коррекция ошибки (этапы разделены)

• Построение вариантов исправлений для каждой исправляемой ошибки.

S – исходная фраза {S’} – варианты исправлений • Подсчет меры соответствия ЯМ для каждого

исправления и для исходной фразы. μ(S, LM), LM – языковая модель • Если мера исходной фразы меньше, чем мера

некоторого исправления, то диагностируется ошибка.

μ(S, LM)< μ(S’, LM) => ошибка, S’ – верное исправление

10

Языковая модель: коррекция ошибки (этапы не разделены)

• Исходная фраза:

• Построение для каждого слова вариантов исправлений:

• Построение множества фраз, состоящих из вариантов исправлений слов:

• Оценка каждой фразы из .

• - фраза имеющая наибольшую меру

• Если различны, то диагностируется ошибка

n21 ...WWWS

}{W'W j

ii

}'W W| ...WW{SS' i

j

i

j

n

j

1kiknk1k

S'

'S'

'S' и S

11

Пример

Исправление артикля: Оригинал: I’m student Место ошибки: I’m __ student Варианты исправлений: {a/an, the} Оценка предложений: I’m student – 0,2 I’m a student – 0,6 I’m the student – 0,1 Диагностируется ошибка. Второй вариант будет считаться верным.

12

Классификатор на основе машинного обучения

• Обучается классификатор, который для контекста места ошибки должен определить класс. – Класс – набор контекстов или признаков контекстов,

соответствующих некоторому слову

– Для обучения модели используются размеченные корпуса текстов, написанных носителями языка.

• Пример

Корпус:

I have a dog. The dog is black. This is an apple. Where is the pen? I go to school.

Классы:

a/an I have _ dog. This is _ apple.

the _ dog is black. Where is _ pen?

none I go to _ school. 13

Классификатор на основе машинного обучения: результат работы

• Для контекста места ошибки определяется класс

– Единственный класс

– Мн-во классов с вероятностями их соответствия.

• Если рекомендуемый классификатором класс не совпадает с классом исходной фразы, то диагностируется ошибка.

14

Пример

Исправление артикля: Возможные классы: [a/an], [the], [none] Оригинал: I’m student Место ошибки: I’m __ student Контекст: {I’m, student} Классификация: {I’m, student} [a/an]– 0.5 [the] – 0.1 [None] – 0.05 Диагностируется ошибка. Первый класс считается верным

15











16

Технологии и процесс тестирования

• Тестирование может производиться на различных текстах: – Корпуса с размеченными ошибками

– Тексты из интернета, написанные иностранцами

– Тексты с ошибками, сгенерированные из правильных текстов

• Правильность коррекции ошибки может определяться – Экспертом/носителем языка

– Исправлением, которое присутствует в размеченном корпусе

17

Оценка результатов

• Точность P

Процент верно исправленных ошибок среди всех исправлений

• Полнота R

Процент верно исправленных ошибок среди всех ошибок, присутствующих в тестах

• Средневзвешенное точности и полнота

• MRR (Mean reciprocal rank)

RP

PRF

21

18

Оценка результатов: MRR

Оценка для системы, которая выдает ранжированные результаты.

Для каждого списка вариантов q вычисляется величина rank – позиция, в которой находилось верное исправление.

Q – множество всех тестов

Qq iirank

1

|Q|

1MRR , 0 < MRR ≤ 1

Величина 1/MRR показывает в какой позиции в среднем находится верное исправление

19











20

Система Hermet & et al

Работа 2008 года:

• Using the Web as a Linguistic Resource to Automatically Correct Lexico-Syntactic Errors (Matthieu Hermet, Alain Désilets, Stan Szpakowicz)

• Исправление ошибок, связанных с неправильным употреблением предлогов в французском языке

• Используется ЯМ, базирующаяся на web-поиске

21

Система Hermet & et al: алгоритм

• Выбор возможных исправлений для каждого предлога. Для каждого предлога заранее генерируется мн-во семантически схожих предлогов.

Например: {pour, en, pendant, depuis} Так же есть мн-во самых частотных предлогов, которое

автоматически включается в мн-во исправлений. {de, à, sur, avec, par, pour} Обработка предложений: • Сокращение предложения до фразы, содержащей предлог.

– Синтаксический анализ предложения – Выбор главного и зависимого слова

• На основе вариантов исправления предлога сгенерировать мн-во исправляющих фраз

• Для каждой фразы вычислить ее частоту с помощью интернет-поисковика

• Ранжировать результаты по частоте 22

Система Hermet & et al: пример

• Оригинал Ils ont appelé immédiatement <pour> l'aide. (They immediately called <for> help.) • Сокращение предложения до фразы(словосочетания) appeler pour l'aide (call for help) • Построение мн-ва исправлений à, avec, de, depuis, en, jusqu'a, par, pendant, sur • Генерация фраз, Поиск, Ранжирование appeler à l'aide: 40800 hits => à – исправляющий предлог appeler de l'aide: 543 hits appeler en aide: 25 hits appeler pour l'aide: 16 hits appeler avec l'aide: 14 hits appeler sur l'aide: 1 hit all other substitutions have 0 hits

23

Система Hermet & et al: результаты

• Система тестировалась на 133 предложениях, написанных иностранцами.

• Оценивалась точность коррекции

• Система была протестирована на различных фрагментах франкоязычного веба

Весь

французский веб

N-граммы с частотой >40

1/1000 французского

веба

Точность 69.9% 59.4% 30.8%

24

Система Wu & Chang & et al

Работа 2010 года:

• Automatic Collocation Suggestion in Academic Writing (Jian-Cheng Wu, Yu-Chia Chang, Teruko Mitamura, Jason S. Chang)

• Исправление ошибок, связанных с неправильным употреблением глаголов в английском языке

• Используется классификатор на основе максимальной энтропии

25

Система Wu & Chang & et al: классификатор

• Строится классификатор на основе максимальной энтропии

• Обучение: – Синтаксический разбор предложения

– Извлечение словосочетаний вида глаг.+сущ.

– В качестве признаков для классификатора используются: • Head: Существительное из словосочетания

• Context: Всевозможные уни/би-граммы рядом со словосочетанием. Для них учитывается: кол-во слов, местонахождение, зависимость от сущ. или от глаг.

26

Система Wu & Chang & et al: работа системы

• Извлечение для предложения тех же признаков, что и при обучении

• Классификация извлеченных признаков. Для каждого класса определяется вероятность принадлежности к нему признаков.

• Результат работы: ранжированный список исправлений.

27

Система Wu & Chang & et al: пример разбора предложения

• Исходное предложение:

We introduce a novel method for learning to find documents on the web.

• Анализ предложения

We/PRP introduce/VB a/DT novel/JJ method/NN for/IN learning/VBG to/TO find/VB documents/NNS on/IN the/DT web/NN ./.

• Извлечение признаков

CN=method, UniV_L=we, UniV_R=a, UniN_L=a, BiV_I=we_a, BiN_I=novel_for и др.

28

Система Wu & Chang & et al: данные

• Обучение:

Из онлайн базы данных были извлечены 95650 предложений. В них были определены 790 классов-глаголов.

• Тестирование:

Для тестирования были отобраны 600 из вышеописанных предложений.

(Мн-ва предложений для обучения и для тестирования не пересекаются)

29

Система Wu & Chang & et al: результаты

• Для оценки результатов использовалась мера MRR

• Система протестирована при использовании различных признаков, извлекаемых из предложений.

Аргументы MRR

Head 0.407

Context 0.469

Head+Context 0.518

30

Коррекция ошибок с омофонами

• Омофоны - слова, которые звучат одинаково, но пишутся по-разному и имеют разное значение.

{Steal/steel} candy from a store.

• Способы коррекции:

– Системы проверки грамматики и орфографии

– Языковая модель. Подбор вариантов исправлений с помощью транскрипций.

31

Education

Смирнова. Методы исправления ошибок в текстах, написанных иностранцами