Клышинский 8.12

Preview:

Citation preview

На каком языке этот текст?

Ответ математиков

Клышинский Э.С.ИПМ им. М.В. Келдыша РАН

Санкт-Петербург08.12.2012

Необходимость определения языка

Определение диалекта

Составление подшивок

документов

Машинный перевод

Фактографический анализ на основе

новостей

Определение языка текста

Многоязыковой анализ текстов

Существующие решения

Определение языка текста

• Словарные методы, основанные на применении морфологического словаря.

• Решающие правила, учитывающие особенности языка

• Методы, основанные на выделении подстрок длины n (n-граммные методы).

Существующие решения

Определение языка текста

• Словарные методыПри наличии морфологических словарей для всех языков можно попытаться проанализировать небольшой фрагмент текста. Язык, для которого разобралась наибольшая часть фрагмента, выигрывает.

Существующие решения

Определение языка текста

• Словарные методыНо есть нюанс.Словарей не так много, как хотелось бы, а интерфейсов к ним гораздо больше, чем хотелось бы.

Существующие решения

Определение языка текста

• Словарные методы – характерные словаНапример, использование артиклей или форм глагола «быть».англ. the, фр. le, la, нем. die, der, das, ит. Ilангл. a, an, фр. un, une,, нем. ein, нидерл. een, франц. un, исп. un, порт. um, тур. bir

Существующие решения

Определение языка текста

• Словарные методы – характерные слова«Другие языки, такие как русский, большинство других славянских языков (за исключением болгарского и македонского), санскрит, латинский, китайский, японский, тамильский, тайский, формально не имеют артиклей вовсе». (Википедия)

Существующие решения

Определение языка текста

• Словарные методы – характерные словаНо есть top-100 слов, вероятность встретить которые очень велика.Этот словарь может быть составлен автоматически по набору текстов на заданном языке. tf*idf, только наоборот.

Существующие решения

Определение языка текста

• Решающие правила на основе характеристичных букв и их сочетаний

dh – хиндиtsch – немецкийё – русский, албанский, таджикскийカタカナ – катакана (яп.)

Существующие решения

Определение языка текста

• Решающие правила на основе характеристичных букв и их сочетаний

Но есть нюанс.Стандарт ИКАО по оформлению проездных документов. Счастье, что не текстов! И японцы в латинице всё равно характерны.

Существующие решения

Определение языка текста

• Методы основанные на построении языковой модели на основе n-грамм

По заранее классифицированным текстам рассчитывается вероятность встретить данное сочетание.

Существующие решения

Определение языка текста

• Методы основанные на построении языковой модели на основе n-грамм

Классическая задача классификации: проводится обучение, после чего требуется отнести объект к одному из классов.

Существующие решения

Определение языка текста«Это всем известно и никому не интересно».

Определение языка имени собственного

«Что в имени тебе моем?» - сказал другой классик.

Необходимость определения языка

Идентификация именованных

сущностей

Выделение именованных

сущностей

Синтез речи

Транскрипция имен

собственных

Определение языка

происхождения имени

собственного

Выделение заимствований

в тексте

Выделение имени собственного

Есть несколько правил, которые серьезно помогают.1. Имя собственное пишется с большой буквы.Жаль не везде.Мухаммед ибн Муса Хорезми

خوارزمی موسی بن محمدИ не всё, что пишется с Большой Буквы есть Имя Собственное.

Выделение имени собственного

Есть несколько правил, которые серьезно помогают.2. Префикс, указывающий на положение в обществе, звание, должность…

dr, mr, mrs, г-н, директор <название>, озеро, город, …

Выделение имени собственного

Получается по-разному.

Малая Вишера - родительный падеж от

Малай Вишер

Выделение имени собственного

Вообще, этим много кто занимается.

Оставайтесь с нами!Татьяна Ландо (Яндекс). Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты.03 Апрель 2010, Семинар NLP, Санкт-Петербург

Идентификация носителя имени

Steinberger J., Lenkova P., Kabadjov M., Steinberger R., van der Goot E. Multilingual Statistical News Summarisation: Preliminary Experiments with English // In Proc. of the 8th International Conference Recent Advances in Natural Language Processing

K. Knight and J. Graehl. 1998. Machine transliteration.Computational Linguistics, 24(4):599–612.

Идентификация носителя имени

Обучение КА производится с помощью:•Алгоритма Дейкстры (для распознающего

КА)

•EM-алгоритма (для преобразующих КА)

Идентификация носителя имени

Другие алгоритмы идентификации:

•Транскрипция с последующим (не)четким поиском;

•Алгоритм Левенштейна на базе имен;

•Применение методов l- и lk-грамм при поиске в базе имен;

•…

• Небольшая длина имени• Отсутствие полных словарей

имен собственных• Невозможность использования баз данных

(например, результатов переписи) в связи с многонациональностью имен

Недостатки методов определения языка текста

Существующие решения

Холмс, но, черт возьми, как?

Существующие решения

Определение языка имени собственного• Словарные методы

Как было сказано, мы не можем использовать словари – они неполны.

Существующие решения

Определение языка имени собственного• Словарные методы

Но в принципе можем использовать результаты переписи.

«Выделено девять подвидов тигра, из которых к началу XXI века сохранились лишь шесть — общее поголовье порядка 4000—6500 особей, …»«Согласно данным Ассоциации зоопарков и аквариумов мира, примерно 12 000 особей тигров содержится в США в качестве домашних

животных.» (Википедия)

Существующие решения

Определение языка имени собственного• Словарные методы

Но в принципе можем использовать результаты переписи.

Политкорректно получилось, да?

Существующие решения

Определение языка имени собственного

• Решающие правила на основе характерных букв и их сочетаний

Вероятность обнаружить характеристичное сочетание в отдельном имени невелика.

Существующие решения

Определение языка имени собственного

• Решающие правила на основе характеристичных букв и их сочетаний

Зачастую приходится работать с именами, записанными на чистой латинице.

Существующие решения

Определение языка имени собственного

• Методы основанные на построении языковой модели на основе n-грамм

Метод применим при наличии размеченной базы имен.

Существующие решения

Вероятностная модель• p(ci, ci-1, ci-2) – вероятность встретить триграмму;

• p(ci| ci-1, ci-2) – условная вероятность появления символа ci при условии, что он находится после символов ci-1, ci-2.

• p(ci| ci-1, ci-2) * p(ci| ci-1, ci+1) * p(ci| ci+1, ci+2) – условная вероятность встретить символ ci с учетом четырех соседних.

Существующие решения

Вероятностная модель• p(ci, ci-1, ci-2) – вероятность встретить триграмму;

• p(ci| ci-1, ci-2) – условная вероятность появления символа ci при условии, что он находится после символов ci-1, ci-2.

• p(ci| ci-1, ci-2) * p(ci| ci-1, ci+1) * p(ci| ci+1, ci+2) – условная вероятность встретить символ ci с учетом четырех соседних.

Существующие решения

Методы основанные на построении языковой модели на основе n-грамм• • • •

Зависимость от количества языков

Зависимость от количества языков

Обратите внимание, произведение вероятностей на достаточно большом тексте обязательно даст ноль. Пользуйтесь логарифмами. Или суммой.

Зависимость от метода расчета

Основной Основной ОсновнойОсновной

Основной

Основной

БОЛГАРИЯ

ДАНИЯ

ЕГИПЕТ

ИЗРАИЛЬ

ИРАН

ИРЛАНДИЯ

ИСПАНИЯ

КИТАЙ

ЛИТВА

НИДЕРЛАНДЫ

ПОРТУГАЛьский

ФИНЛЯНДИЯ

ФРАНЦИЯ

ЯПОНИЯ

английский

немецкий

Сумма вероятностей, обучение

Зависимость от метода расчета

Произведение вероятностей, обучениеОсновной Основной Основной

Основной

Основной

ОсновнойБОЛГАРИЯ

ДАНИЯ

ЕГИПЕТ

ИЗРАИЛЬ

ИРАН

ИРЛАНДИЯ

ИСПАНИЯ

КИТАЙ

ЛИТВА

НИДЕРЛАНДЫ

ПОРТУГАЛьский

ФИНЛЯНДИЯ

ФРАНЦИЯ

ЯПОНИЯ

английский

немецкий

Зависимость от метода расчета

Сумма вероятностей, тест

Основной Основной ОсновнойОсновной

Основной

ОсновнойБОЛГАРИЯ ЕГИПЕТ ИЗРАИЛЬ ИРАН ИРЛАНДИЯ ИСПАНИЯ КИТАЙ ЛИТВА НИДЕРЛАНДЫ ПОРТУГАЛьский ФИНЛЯНДИЯ ФРАНЦИЯ ЯПОНИЯ английский немецкий

Зависимость от метода расчета

Произведение вероятностей, тестОсновной Основной Основной

Основной

Основной

Основной

БОЛГАРИЯ ДАНИЯ ЕГИПЕТ ИЗРАИЛЬ ИРАН ИРЛАНДИЯ ИСПАНИЯ КИТАЙ ЛИТВА НИДЕРЛАНДЫ ПОРТУГАЛьский ФИНЛЯНДИЯ ФРАНЦИЯ ЯПОНИЯ английский немецкий

Еще раз, для сравнения

Произведение вероятностей, обучениеОсновной Основной Основной

Основной

Основной

ОсновнойБОЛГАРИЯ

ДАНИЯ

ЕГИПЕТ

ИЗРАИЛЬ

ИРАН

ИРЛАНДИЯ

ИСПАНИЯ

КИТАЙ

ЛИТВА

НИДЕРЛАНДЫ

ПОРТУГАЛьский

ФИНЛЯНДИЯ

ФРАНЦИЯ

ЯПОНИЯ

английский

немецкий

Вот такая вот арифметика

Нечеткая классификация (3 языка)

Произведение вероятностей, тест

Основной Основной ОсновнойОсновной

Основной

ОсновнойБОЛГАРИЯ

ДАНИЯ

ЕГИПЕТ

ИЗРАИЛЬ

ИРАН

ИРЛАНДИЯ

ИСПАНИЯ

КИТАЙ

ЛИТВА

НИДЕРЛАНДЫ

ПОРТУГАЛьский

ФИНЛЯНДИЯ

ФРАНЦИЯ

ЯПОНИЯ

английский

немецкий

А что про это думают те, кто лучше нас?

Vatanen T., Väyrynen J. J., Virpioja S. Language Identification of Short Text Segments with N-gram Models // In Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10), p. 3423–3430.

А что про это думают те, кто лучше нас?

Thomas S., Verma A. Language Identification of Person Namesusing CF-IOF based Weighing Function // In Proc. of Annual Conference of the International Speech Communication Association - INTERSPEECH , pp. 1769-1772, 2007

А что про это думают те, кто лучше нас?

Chen S.F., Maison B. Using Place Name Data to Train Language Identification Models // In Proc. of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies pp. 367-371

26 языков – это уже серьезно.

Выводы

• Лучший результат был получен с использованием мультипликативного критерия

• Неплохо себя показывают комбинированные меры.

• Качество распознавания зависит от количества языков логарифмически.

Еще Выводы

• На самом деле сильно влияет используемый корпус. Все приведенные на графиках результаты были получены при полном отсутствии диакритических знаков.

• Чуть лучше получается идентифицировать только фамилии, так как они реже заимствуются.

• Сперва определить группу языков, а потом язык иногда помогает.

Спасибо за внимание!

В докладе использовались кадры из фильма