48
На каком языке этот текст? Ответ математиков Клышинский Э.С. ИПМ им. М.В. Келдыша РАН Санкт-Петербург 08.12.2012

Клышинский 8.12

Embed Size (px)

Citation preview

Page 1: Клышинский 8.12

На каком языке этот текст?

Ответ математиков

Клышинский Э.С.ИПМ им. М.В. Келдыша РАН

Санкт-Петербург08.12.2012

Page 2: Клышинский 8.12

Необходимость определения языка

Определение диалекта

Составление подшивок

документов

Машинный перевод

Фактографический анализ на основе

новостей

Определение языка текста

Многоязыковой анализ текстов

Page 3: Клышинский 8.12

Существующие решения

Определение языка текста

• Словарные методы, основанные на применении морфологического словаря.

• Решающие правила, учитывающие особенности языка

• Методы, основанные на выделении подстрок длины n (n-граммные методы).

Page 4: Клышинский 8.12

Существующие решения

Определение языка текста

• Словарные методыПри наличии морфологических словарей для всех языков можно попытаться проанализировать небольшой фрагмент текста. Язык, для которого разобралась наибольшая часть фрагмента, выигрывает.

Page 5: Клышинский 8.12

Существующие решения

Определение языка текста

• Словарные методыНо есть нюанс.Словарей не так много, как хотелось бы, а интерфейсов к ним гораздо больше, чем хотелось бы.

Page 6: Клышинский 8.12

Существующие решения

Определение языка текста

• Словарные методы – характерные словаНапример, использование артиклей или форм глагола «быть».англ. the, фр. le, la, нем. die, der, das, ит. Ilангл. a, an, фр. un, une,, нем. ein, нидерл. een, франц. un, исп. un, порт. um, тур. bir

Page 7: Клышинский 8.12

Существующие решения

Определение языка текста

• Словарные методы – характерные слова«Другие языки, такие как русский, большинство других славянских языков (за исключением болгарского и македонского), санскрит, латинский, китайский, японский, тамильский, тайский, формально не имеют артиклей вовсе». (Википедия)

Page 8: Клышинский 8.12

Существующие решения

Определение языка текста

• Словарные методы – характерные словаНо есть top-100 слов, вероятность встретить которые очень велика.Этот словарь может быть составлен автоматически по набору текстов на заданном языке. tf*idf, только наоборот.

Page 9: Клышинский 8.12

Существующие решения

Определение языка текста

• Решающие правила на основе характеристичных букв и их сочетаний

dh – хиндиtsch – немецкийё – русский, албанский, таджикскийカタカナ – катакана (яп.)

Page 10: Клышинский 8.12

Существующие решения

Определение языка текста

• Решающие правила на основе характеристичных букв и их сочетаний

Но есть нюанс.Стандарт ИКАО по оформлению проездных документов. Счастье, что не текстов! И японцы в латинице всё равно характерны.

Page 11: Клышинский 8.12

Существующие решения

Определение языка текста

• Методы основанные на построении языковой модели на основе n-грамм

По заранее классифицированным текстам рассчитывается вероятность встретить данное сочетание.

Page 12: Клышинский 8.12

Существующие решения

Определение языка текста

• Методы основанные на построении языковой модели на основе n-грамм

Классическая задача классификации: проводится обучение, после чего требуется отнести объект к одному из классов.

Page 13: Клышинский 8.12

Существующие решения

Определение языка текста«Это всем известно и никому не интересно».

Page 14: Клышинский 8.12

Определение языка имени собственного

«Что в имени тебе моем?» - сказал другой классик.

Page 15: Клышинский 8.12

Необходимость определения языка

Идентификация именованных

сущностей

Выделение именованных

сущностей

Синтез речи

Транскрипция имен

собственных

Определение языка

происхождения имени

собственного

Выделение заимствований

в тексте

Page 16: Клышинский 8.12

Выделение имени собственного

Есть несколько правил, которые серьезно помогают.1. Имя собственное пишется с большой буквы.Жаль не везде.Мухаммед ибн Муса Хорезми

خوارزمی موسی بن محمدИ не всё, что пишется с Большой Буквы есть Имя Собственное.

Page 17: Клышинский 8.12

Выделение имени собственного

Есть несколько правил, которые серьезно помогают.2. Префикс, указывающий на положение в обществе, звание, должность…

dr, mr, mrs, г-н, директор <название>, озеро, город, …

Page 18: Клышинский 8.12

Выделение имени собственного

Получается по-разному.

Малая Вишера - родительный падеж от

Малай Вишер

Page 19: Клышинский 8.12

Выделение имени собственного

Вообще, этим много кто занимается.

Оставайтесь с нами!Татьяна Ландо (Яндекс). Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты.03 Апрель 2010, Семинар NLP, Санкт-Петербург

Page 20: Клышинский 8.12

Идентификация носителя имени

Steinberger J., Lenkova P., Kabadjov M., Steinberger R., van der Goot E. Multilingual Statistical News Summarisation: Preliminary Experiments with English // In Proc. of the 8th International Conference Recent Advances in Natural Language Processing

Page 21: Клышинский 8.12

K. Knight and J. Graehl. 1998. Machine transliteration.Computational Linguistics, 24(4):599–612.

Идентификация носителя имени

Обучение КА производится с помощью:•Алгоритма Дейкстры (для распознающего

КА)

•EM-алгоритма (для преобразующих КА)

Page 22: Клышинский 8.12

Идентификация носителя имени

Другие алгоритмы идентификации:

•Транскрипция с последующим (не)четким поиском;

•Алгоритм Левенштейна на базе имен;

•Применение методов l- и lk-грамм при поиске в базе имен;

•…

Page 23: Клышинский 8.12

• Небольшая длина имени• Отсутствие полных словарей

имен собственных• Невозможность использования баз данных

(например, результатов переписи) в связи с многонациональностью имен

Недостатки методов определения языка текста

Page 24: Клышинский 8.12

Существующие решения

Холмс, но, черт возьми, как?

Page 25: Клышинский 8.12

Существующие решения

Определение языка имени собственного• Словарные методы

Как было сказано, мы не можем использовать словари – они неполны.

Page 26: Клышинский 8.12

Существующие решения

Определение языка имени собственного• Словарные методы

Но в принципе можем использовать результаты переписи.

«Выделено девять подвидов тигра, из которых к началу XXI века сохранились лишь шесть — общее поголовье порядка 4000—6500 особей, …»«Согласно данным Ассоциации зоопарков и аквариумов мира, примерно 12 000 особей тигров содержится в США в качестве домашних

животных.» (Википедия)

Page 27: Клышинский 8.12

Существующие решения

Определение языка имени собственного• Словарные методы

Но в принципе можем использовать результаты переписи.

Политкорректно получилось, да?

Page 28: Клышинский 8.12

Существующие решения

Определение языка имени собственного

• Решающие правила на основе характерных букв и их сочетаний

Вероятность обнаружить характеристичное сочетание в отдельном имени невелика.

Page 29: Клышинский 8.12

Существующие решения

Определение языка имени собственного

• Решающие правила на основе характеристичных букв и их сочетаний

Зачастую приходится работать с именами, записанными на чистой латинице.

Page 30: Клышинский 8.12

Существующие решения

Определение языка имени собственного

• Методы основанные на построении языковой модели на основе n-грамм

Метод применим при наличии размеченной базы имен.

Page 31: Клышинский 8.12

Существующие решения

Вероятностная модель• p(ci, ci-1, ci-2) – вероятность встретить триграмму;

• p(ci| ci-1, ci-2) – условная вероятность появления символа ci при условии, что он находится после символов ci-1, ci-2.

• p(ci| ci-1, ci-2) * p(ci| ci-1, ci+1) * p(ci| ci+1, ci+2) – условная вероятность встретить символ ci с учетом четырех соседних.

Page 32: Клышинский 8.12

Существующие решения

Вероятностная модель• p(ci, ci-1, ci-2) – вероятность встретить триграмму;

• p(ci| ci-1, ci-2) – условная вероятность появления символа ci при условии, что он находится после символов ci-1, ci-2.

• p(ci| ci-1, ci-2) * p(ci| ci-1, ci+1) * p(ci| ci+1, ci+2) – условная вероятность встретить символ ci с учетом четырех соседних.

Page 33: Клышинский 8.12

Существующие решения

Методы основанные на построении языковой модели на основе n-грамм• • • •

Page 34: Клышинский 8.12

Зависимость от количества языков

Page 35: Клышинский 8.12

Зависимость от количества языков

Обратите внимание, произведение вероятностей на достаточно большом тексте обязательно даст ноль. Пользуйтесь логарифмами. Или суммой.

Page 36: Клышинский 8.12

Зависимость от метода расчета

Основной Основной ОсновнойОсновной

Основной

Основной

БОЛГАРИЯ

ДАНИЯ

ЕГИПЕТ

ИЗРАИЛЬ

ИРАН

ИРЛАНДИЯ

ИСПАНИЯ

КИТАЙ

ЛИТВА

НИДЕРЛАНДЫ

ПОРТУГАЛьский

ФИНЛЯНДИЯ

ФРАНЦИЯ

ЯПОНИЯ

английский

немецкий

Сумма вероятностей, обучение

Page 37: Клышинский 8.12

Зависимость от метода расчета

Произведение вероятностей, обучениеОсновной Основной Основной

Основной

Основной

ОсновнойБОЛГАРИЯ

ДАНИЯ

ЕГИПЕТ

ИЗРАИЛЬ

ИРАН

ИРЛАНДИЯ

ИСПАНИЯ

КИТАЙ

ЛИТВА

НИДЕРЛАНДЫ

ПОРТУГАЛьский

ФИНЛЯНДИЯ

ФРАНЦИЯ

ЯПОНИЯ

английский

немецкий

Page 38: Клышинский 8.12

Зависимость от метода расчета

Сумма вероятностей, тест

Основной Основной ОсновнойОсновной

Основной

ОсновнойБОЛГАРИЯ ЕГИПЕТ ИЗРАИЛЬ ИРАН ИРЛАНДИЯ ИСПАНИЯ КИТАЙ ЛИТВА НИДЕРЛАНДЫ ПОРТУГАЛьский ФИНЛЯНДИЯ ФРАНЦИЯ ЯПОНИЯ английский немецкий

Page 39: Клышинский 8.12

Зависимость от метода расчета

Произведение вероятностей, тестОсновной Основной Основной

Основной

Основной

Основной

БОЛГАРИЯ ДАНИЯ ЕГИПЕТ ИЗРАИЛЬ ИРАН ИРЛАНДИЯ ИСПАНИЯ КИТАЙ ЛИТВА НИДЕРЛАНДЫ ПОРТУГАЛьский ФИНЛЯНДИЯ ФРАНЦИЯ ЯПОНИЯ английский немецкий

Page 40: Клышинский 8.12

Еще раз, для сравнения

Произведение вероятностей, обучениеОсновной Основной Основной

Основной

Основной

ОсновнойБОЛГАРИЯ

ДАНИЯ

ЕГИПЕТ

ИЗРАИЛЬ

ИРАН

ИРЛАНДИЯ

ИСПАНИЯ

КИТАЙ

ЛИТВА

НИДЕРЛАНДЫ

ПОРТУГАЛьский

ФИНЛЯНДИЯ

ФРАНЦИЯ

ЯПОНИЯ

английский

немецкий

Page 41: Клышинский 8.12

Вот такая вот арифметика

Page 42: Клышинский 8.12

Нечеткая классификация (3 языка)

Произведение вероятностей, тест

Основной Основной ОсновнойОсновной

Основной

ОсновнойБОЛГАРИЯ

ДАНИЯ

ЕГИПЕТ

ИЗРАИЛЬ

ИРАН

ИРЛАНДИЯ

ИСПАНИЯ

КИТАЙ

ЛИТВА

НИДЕРЛАНДЫ

ПОРТУГАЛьский

ФИНЛЯНДИЯ

ФРАНЦИЯ

ЯПОНИЯ

английский

немецкий

Page 43: Клышинский 8.12

А что про это думают те, кто лучше нас?

Vatanen T., Väyrynen J. J., Virpioja S. Language Identification of Short Text Segments with N-gram Models // In Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10), p. 3423–3430.

Page 44: Клышинский 8.12

А что про это думают те, кто лучше нас?

Thomas S., Verma A. Language Identification of Person Namesusing CF-IOF based Weighing Function // In Proc. of Annual Conference of the International Speech Communication Association - INTERSPEECH , pp. 1769-1772, 2007

Page 45: Клышинский 8.12

А что про это думают те, кто лучше нас?

Chen S.F., Maison B. Using Place Name Data to Train Language Identification Models // In Proc. of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies pp. 367-371

26 языков – это уже серьезно.

Page 46: Клышинский 8.12

Выводы

• Лучший результат был получен с использованием мультипликативного критерия

• Неплохо себя показывают комбинированные меры.

• Качество распознавания зависит от количества языков логарифмически.

Page 47: Клышинский 8.12

Еще Выводы

• На самом деле сильно влияет используемый корпус. Все приведенные на графиках результаты были получены при полном отсутствии диакритических знаков.

• Чуть лучше получается идентифицировать только фамилии, так как они реже заимствуются.

• Сперва определить группу языков, а потом язык иногда помогает.

Page 48: Клышинский 8.12

Спасибо за внимание!

В докладе использовались кадры из фильма