30
МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ Бочаров Виктор Факультет филологии и искусств СПбГУ Санкт-Петербург

I M S Bocharov

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: I M S Bocharov

МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ

СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ

Бочаров ВикторФакультет филологии и искусств СПбГУ

Санкт-Петербург

Page 2: I M S Bocharov

Зачем?

• полуавтоматическое пополнение онтологии

– автоматическое выделение троек «понятие» - «отношение» - «понятие»

– проверка оператором

Page 3: I M S Bocharov

Источники

• Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров — М.: Большая Российская энциклопедия, 2001

• Раздел проекта «Википедия» на русском языке

Page 4: I M S Bocharov

Отношения

• Обобщение (значение по умолчанию)

• Тождество

• Частный случай (обратное к тождеству)

• Часть

• Целое

• Инструмент или назначение

• другое

Page 5: I M S Bocharov

Примеры

• СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды, в совокупности составляющих часть географической оболочки.

• СОЦИОСФЕРА same ЧЕЛОВЕЧЕСТВО

Page 6: I M S Bocharov

Ещё примеры

• СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств наряду со специфическими для него ощущениями возникают и ощущения, соответствующие другому органу чувств.

• СИНЕСТЕЗИЯ gen ЯВЛЕНИЕ• СИНЕСТЕЗИЯ same ВОСПРИЯТИЕ

Page 7: I M S Bocharov

Как?

• Базовая гипотеза:

– «родовой по отношению к определяемому термин представлен опорным словом - первым по порядку существительным в именительном падеже»

Page 8: I M S Bocharov

Первый результат

1 ИЗА («из» - рд. п., мн. ч., имя) 475

2 ЧАСТЬ 415

3 СОВОКУПНОСТЬ 406

4 НАЗВАНИЕ 389

5 СИСТЕМА 347

6 РАЗДЕЛ 336

7 ВИД 305

8 УСТРОЙСТВО 298

Page 9: I M S Bocharov

Проблемы

• Омонимия– «о чукотском море»

• леммы для словоформы «море»– МОРЕ (ср.р.)

– МОР (мр.р.)

– МОРА (жр.р.)

• Мало информации:– все связи одного типа (род-вид)– связи только с одним словом в определении

Page 10: I M S Bocharov

Усложнённый вариант

Дерево зависимостей

Словарная статья (текст)

Словарная статья (текст + пометы + сокр.)

Извлечение отношений

Синтаксический анализ

Лексикографическая обработка

Отношения (термин – ключевое слово)

Page 11: I M S Bocharov

Лексикографическая обработка

• сокращения (разворачиваются в полные слова, если это возможно)

• пометы (удаляются)

• текст в скобках (удаляется)

Page 12: I M S Bocharov

Примеры

АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь

АБРЕКИ - В прошлом у народов Северного Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь

АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков

АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков

Page 13: I M S Bocharov

Синтаксический анализ

• Используются компоненты АОТ

• Упрощённые правила: только группы с вершиной – существительным

• Строится дерево зависимостей

Page 14: I M S Bocharov

Грамматика

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА

[ANP] -> [ADJ] [NP root]

: $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm);

ГЕНИТИВНАЯ ГРУППА

[GP] -> [NP root] [NP grm="рд"];

ПРЕДЛОЖНАЯ ГРУППА

[PP] -> [PREP root] [NP];

ИМЕННАЯ ГРУППА

[NP] -> [NOUN];

[NP] -> [NP root] [PP] ;

[NP] -> [PP] | [GP] | [ANP];

Page 15: I M S Bocharov

Грамматика: примеры

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА

ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ

ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА

ГЕНИТИВНАЯ ГРУППА

АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ

АБЗАЦ – ЧАСТЬ ТЕКСТА

ПРЕДЛОЖНАЯ ГРУППА

АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ

АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ

Page 16: I M S Bocharov

Структура составляющих

ВЕРХНЯЯ

ОДЕЖДА

НЕКОТОРЫХ

У

НАРОДОВ

АЗИАТСКИХANP

ANP

ANP

PP

NP

Page 17: I M S Bocharov

Дерево зависимостей

ВЕРХНЯЯ

ОДЕЖДА

НЕКОТОРЫХ

У

НАРОДОВ

АЗИАТСКИХANP

ANP

ANP

PP

NP

Page 18: I M S Bocharov

До После

Лемм / слово 1,27 1,06

Морфологических вариантов / слово

2,26 1,64

Частичное снятие омонимии

Page 19: I M S Bocharov

Извлечение отношений

• Правила (код на Perl)

– обход дерева зависимостей– операции:

• записать текущее слово с текущим названием отношения

• изменить текущее название отношения• выбрать следующее слово

Page 20: I M S Bocharov

Род, вид, сорт…1. изменить текущее название отношения на

«обобщение»2. выбрать следующее существительное3. записать

ФИЛЬДЕПЕРС - высший сорт фильдекоса.

ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения.

Пример правила

Page 21: I M S Bocharov

Было / стало

1 иза 475

2 часть 415

3 совокупность 406

4 название 389

5 система 347

6 раздел 336

7 вид 305

8 устройство 298

1 устройство 332

2 минерал 322

3 единица 293

4 прибор 292

5 вещество 277

6 процесс 243

7 инструмент 235

8 элемент 228

Page 22: I M S Bocharov

Статистика

• 25.324 словарных статей

• 26.376 записей в БД

• 4.679 опорных слов

Page 23: I M S Bocharov

Качество

• Экспертная оценка

• 200 словарных статей:– 179 (90%) – правильно– 21 – неправильно:

• 16 - недоработки ПО (синтаксис)• 5 – неверна гипотеза о том, что опорное слово

есть в первом предложении определения

– предел точности: 179 + 16 / 200 = 97.5%

Page 24: I M S Bocharov

Примеры

• АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование , притирка и другие ).

• АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул.

• АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.

Page 25: I M S Bocharov

Википедия

• Отличия:– обработка wiki-разметки– оформление статей … разнообразно

• «первое предложение определения» надо искать

– статьи без определений («Советско-германские договоры 1939», «Список кодов ответов FTP», …)

– статьи-даты («23 марта — 82-й день года …»)– «формализованная» информация (шаблоны)

• Размер:– 430 тыс. статей (дамп от 6 октября 2009)

Page 26: I M S Bocharov

Вики-разметка

• вики-разметка:– '''Прего� ля''' (древнепрусск. ''Прэйгара'', {{lang-de|

Pregel}} — Прегель, {{lang-lt|Prieglius}}, {{lang-pl|Pregoła}}) — [[река]], впадающая в [[Балтийское море]], точнее в пресноводный [[Калининградский залив|Калининградский (Вислинский) залив]]. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км².

• результат:– Прего́� ля (древнепрусск. Прэйгара, нем. Pregel — Прегель,

лит. Prieglius, польск. Pregoła) — река, впадающая в Балтийское море, точнее в пресноводный Калининградский (Вислинский) залив. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км².

Page 27: I M S Bocharov

«Плохие» первые предложения

• Nyan Koi! (にゃんこい !) манга, созданная Сато Фудзиварой.

• ‘‘‘ИНСТИТУТ ГУМАНИТАРНЫХ ИСТОРИКО-ТЕОРЕТИЧЕСКИХ ИССЛЕДОВАНИЙ’’’ (ИГИТИ) создан в рамках Государственного университета – Высшей школы экономики (ГУ-ВШЭ) в 2002 г.

• «Описание мира в науке и религии отличается в своей основе. …»

Page 28: I M S Bocharov

Шаблоны{{НП-Россия |статус = Город |русское название = Великий Новгород|регион = Новгородская область|глава = [[Бобрышев, Юрий Иванович|Юрий Бобрышев]] |дата основания = VIII{{!}} VIII—IX век |первое упоминание = 859{{!}} 859 (Официально, условно) |прежние имена = Новгород (до [[1999 год]]а)|площадь = 90,08|население = {{Падение}} 215 351 |год переписи = 2009 |плотность = 2405,6|этнохороним = новгоро� дцы,<br />новгоро� дец,<br />новгоро� дка |часовой пояс = +3 |почтовые индексы = 173xxx |телефонный код = 8162 |автомобильный код = 53 |цифровой идентификатор = 49401000000 |категория в Commons = Velikiy Novgorod |сайт = http://www.adm.nov.ru |информация для туристов = http://www.visitnovgorod.ru }}

Page 29: I M S Bocharov

Инструменты

• Wikipedia XML dump (все статьи одним файлом)

• Wikiprep.pl (версия проекта Zemanta)– вики-разметка -> ~HTML / plain text– разворачивает шаблоны– URL: http://wikiprep.sf.net/

Page 30: I M S Bocharov

Вопросы?