Upload
-
View
243
Download
3
Embed Size (px)
Citation preview
Методы исправления ошибок в текстах, написанных иностранцами
Смирнова Александра, 425 группа
Содержание
• Особенности текстов, написанных иностранцами
– Типы ошибок
• Основные подходы
– Этапы коррекции
– Методы коррекции
• Языковая модель
• Классификатор на основе машинного обучения
• Технологии и процесс тестирования
• Примеры систем
2
Содержание
• Особенности текстов, написанных иностранцами
– Типы ошибок
• Основные подходы
– Этапы коррекции
– Методы коррекции
• Языковая модель
• Классификатор на основе машинного обучения
• Технологии и процесс тестирования
• Примеры систем
3
Особенности написания текстов, написанных иностранцами
В основном – тексты на английском языке
ESL (English as Second Language)
• Особенности иностранного языка, отличные от особенностей родного
– Артикли
– Времена глаголов
• Несколько вариантов перевода слова с родного языка на иностранный
– Лексическая сочетаемость слов
4
Типы ошибок
• Предлоги
I'm {in/at} the room
• Артикли Где ручка? – Where is {a/the} pen?
• Глаголы – Неправильное время
Мы играли. – We {played/had played}.
– Неправильный выбор глагола
Общаться с другими людьми. – {Connect/Communicate} with other people.
5
Содержание
• Особенности текстов, написанных иностранцами
– Типы ошибок
• Основные подходы
– Этапы коррекции
– Методы коррекции
• Языковая модель
• Классификатор на основе машинного обучения
• Технологии и процесс тестирования
• Примеры систем
6
Этапы коррекции
• Большинство методов состоят из двух этапов: – Поиск места ошибки или ошибочного слова
– Исправление ошибки (используются статистические методы) • Единственное исправление
• Ранжированный список исправлений
Поиск места ошибки: – Для предлогов и глаголов местом ошибки
считается любое вхождение предлога и глагола
– Для артиклей ищутся существительные
7
Методы коррекции
• Языковая модель (ЯМ)
– Для каждого места ошибки строится набор вариантов исправлений. Исходная фраза и каждое из исправлений оценивается.
– На основе оценок выносится решение о коррекции
• Классификатор на основе машинного обучения
– На основе оценки контекста места ошибки выносится решение.
8
Языковая модель: построение
• Строится языковая модель
Собирается статистика следующего вида:
– Словесные n-граммы
– N-граммы частей речи
– Синтаксические n-граммы
• Статистика подсчитывается по:
– Корпусам текстов, написанных носителями языка
– Интернет-текстам
9
Языковая модель: коррекция ошибки (этапы разделены)
• Построение вариантов исправлений для каждой исправляемой ошибки.
S – исходная фраза {S’} – варианты исправлений • Подсчет меры соответствия ЯМ для каждого
исправления и для исходной фразы. μ(S, LM), LM – языковая модель • Если мера исходной фразы меньше, чем мера
некоторого исправления, то диагностируется ошибка.
μ(S, LM)< μ(S’, LM) => ошибка, S’ – верное исправление
10
Языковая модель: коррекция ошибки (этапы не разделены)
• Исходная фраза:
• Построение для каждого слова вариантов исправлений:
• Построение множества фраз, состоящих из вариантов исправлений слов:
• Оценка каждой фразы из .
• - фраза имеющая наибольшую меру
• Если различны, то диагностируется ошибка
n21 ...WWWS
}{W'W j
ii
}'W W| ...WW{SS' i
j
i
j
n
j
1kiknk1k
S'
'S'
'S' и S
11
Пример
Исправление артикля: Оригинал: I’m student Место ошибки: I’m __ student Варианты исправлений: {a/an, the} Оценка предложений: I’m student – 0,2 I’m a student – 0,6 I’m the student – 0,1 Диагностируется ошибка. Второй вариант будет считаться верным.
12
Классификатор на основе машинного обучения
• Обучается классификатор, который для контекста места ошибки должен определить класс. – Класс – набор контекстов или признаков контекстов,
соответствующих некоторому слову
– Для обучения модели используются размеченные корпуса текстов, написанных носителями языка.
• Пример
Корпус:
I have a dog. The dog is black. This is an apple. Where is the pen? I go to school.
Классы:
a/an I have _ dog. This is _ apple.
the _ dog is black. Where is _ pen?
none I go to _ school. 13
Классификатор на основе машинного обучения: результат работы
• Для контекста места ошибки определяется класс
– Единственный класс
– Мн-во классов с вероятностями их соответствия.
• Если рекомендуемый классификатором класс не совпадает с классом исходной фразы, то диагностируется ошибка.
14
Пример
Исправление артикля: Возможные классы: [a/an], [the], [none] Оригинал: I’m student Место ошибки: I’m __ student Контекст: {I’m, student} Классификация: {I’m, student} [a/an]– 0.5 [the] – 0.1 [None] – 0.05 Диагностируется ошибка. Первый класс считается верным
15
Содержание
• Особенности текстов, написанных иностранцами
– Типы ошибок
• Основные подходы
– Этапы коррекции
– Методы коррекции
• Языковая модель
• Классификатор на основе машинного обучения
• Технологии и процесс тестирования
• Примеры систем
16
Технологии и процесс тестирования
• Тестирование может производиться на различных текстах: – Корпуса с размеченными ошибками
– Тексты из интернета, написанные иностранцами
– Тексты с ошибками, сгенерированные из правильных текстов
• Правильность коррекции ошибки может определяться – Экспертом/носителем языка
– Исправлением, которое присутствует в размеченном корпусе
17
Оценка результатов
• Точность P
Процент верно исправленных ошибок среди всех исправлений
• Полнота R
Процент верно исправленных ошибок среди всех ошибок, присутствующих в тестах
• Средневзвешенное точности и полнота
• MRR (Mean reciprocal rank)
RP
PRF
21
18
Оценка результатов: MRR
Оценка для системы, которая выдает ранжированные результаты.
Для каждого списка вариантов q вычисляется величина rank – позиция, в которой находилось верное исправление.
Q – множество всех тестов
Qq iirank
1
|Q|
1MRR , 0 < MRR ≤ 1
Величина 1/MRR показывает в какой позиции в среднем находится верное исправление
19
Содержание
• Особенности текстов, написанных иностранцами
– Типы ошибок
• Основные подходы
– Этапы коррекции
– Методы коррекции
• Языковая модель
• Классификатор на основе машинного обучения
• Технологии и процесс тестирования
• Примеры систем
20
Система Hermet & et al
Работа 2008 года:
• Using the Web as a Linguistic Resource to Automatically Correct Lexico-Syntactic Errors (Matthieu Hermet, Alain Désilets, Stan Szpakowicz)
• Исправление ошибок, связанных с неправильным употреблением предлогов в французском языке
• Используется ЯМ, базирующаяся на web-поиске
21
Система Hermet & et al: алгоритм
• Выбор возможных исправлений для каждого предлога. Для каждого предлога заранее генерируется мн-во семантически схожих предлогов.
Например: {pour, en, pendant, depuis} Так же есть мн-во самых частотных предлогов, которое
автоматически включается в мн-во исправлений. {de, à, sur, avec, par, pour} Обработка предложений: • Сокращение предложения до фразы, содержащей предлог.
– Синтаксический анализ предложения – Выбор главного и зависимого слова
• На основе вариантов исправления предлога сгенерировать мн-во исправляющих фраз
• Для каждой фразы вычислить ее частоту с помощью интернет-поисковика
• Ранжировать результаты по частоте 22
Система Hermet & et al: пример
• Оригинал Ils ont appelé immédiatement <pour> l'aide. (They immediately called <for> help.) • Сокращение предложения до фразы(словосочетания) appeler pour l'aide (call for help) • Построение мн-ва исправлений à, avec, de, depuis, en, jusqu'a, par, pendant, sur • Генерация фраз, Поиск, Ранжирование appeler à l'aide: 40800 hits => à – исправляющий предлог appeler de l'aide: 543 hits appeler en aide: 25 hits appeler pour l'aide: 16 hits appeler avec l'aide: 14 hits appeler sur l'aide: 1 hit all other substitutions have 0 hits
23
Система Hermet & et al: результаты
• Система тестировалась на 133 предложениях, написанных иностранцами.
• Оценивалась точность коррекции
• Система была протестирована на различных фрагментах франкоязычного веба
Весь
французский веб
N-граммы с частотой >40
1/1000 французского
веба
Точность 69.9% 59.4% 30.8%
24
Система Wu & Chang & et al
Работа 2010 года:
• Automatic Collocation Suggestion in Academic Writing (Jian-Cheng Wu, Yu-Chia Chang, Teruko Mitamura, Jason S. Chang)
• Исправление ошибок, связанных с неправильным употреблением глаголов в английском языке
• Используется классификатор на основе максимальной энтропии
25
Система Wu & Chang & et al: классификатор
• Строится классификатор на основе максимальной энтропии
• Обучение: – Синтаксический разбор предложения
– Извлечение словосочетаний вида глаг.+сущ.
– В качестве признаков для классификатора используются: • Head: Существительное из словосочетания
• Context: Всевозможные уни/би-граммы рядом со словосочетанием. Для них учитывается: кол-во слов, местонахождение, зависимость от сущ. или от глаг.
26
Система Wu & Chang & et al: работа системы
• Извлечение для предложения тех же признаков, что и при обучении
• Классификация извлеченных признаков. Для каждого класса определяется вероятность принадлежности к нему признаков.
• Результат работы: ранжированный список исправлений.
27
Система Wu & Chang & et al: пример разбора предложения
• Исходное предложение:
We introduce a novel method for learning to find documents on the web.
• Анализ предложения
We/PRP introduce/VB a/DT novel/JJ method/NN for/IN learning/VBG to/TO find/VB documents/NNS on/IN the/DT web/NN ./.
• Извлечение признаков
CN=method, UniV_L=we, UniV_R=a, UniN_L=a, BiV_I=we_a, BiN_I=novel_for и др.
28
Система Wu & Chang & et al: данные
• Обучение:
Из онлайн базы данных были извлечены 95650 предложений. В них были определены 790 классов-глаголов.
• Тестирование:
Для тестирования были отобраны 600 из вышеописанных предложений.
(Мн-ва предложений для обучения и для тестирования не пересекаются)
29
Система Wu & Chang & et al: результаты
• Для оценки результатов использовалась мера MRR
• Система протестирована при использовании различных признаков, извлекаемых из предложений.
Аргументы MRR
Head 0.407
Context 0.469
Head+Context 0.518
30
Коррекция ошибок с омофонами
• Омофоны - слова, которые звучат одинаково, но пишутся по-разному и имеют разное значение.
{Steal/steel} candy from a store.
• Способы коррекции:
– Системы проверки грамматики и орфографии
– Языковая модель. Подбор вариантов исправлений с помощью транскрипций.
31