Upload
lidia-pivovarova
View
579
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ
СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ
Бочаров ВикторФакультет филологии и искусств СПбГУ
Санкт-Петербург
Зачем?
• полуавтоматическое пополнение онтологии
– автоматическое выделение троек «понятие» - «отношение» - «понятие»
– проверка оператором
Источники
• Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров — М.: Большая Российская энциклопедия, 2001
• Раздел проекта «Википедия» на русском языке
Отношения
• Обобщение (значение по умолчанию)
• Тождество
• Частный случай (обратное к тождеству)
• Часть
• Целое
• Инструмент или назначение
• другое
Примеры
• СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды, в совокупности составляющих часть географической оболочки.
• СОЦИОСФЕРА same ЧЕЛОВЕЧЕСТВО
Ещё примеры
• СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств наряду со специфическими для него ощущениями возникают и ощущения, соответствующие другому органу чувств.
• СИНЕСТЕЗИЯ gen ЯВЛЕНИЕ• СИНЕСТЕЗИЯ same ВОСПРИЯТИЕ
Как?
• Базовая гипотеза:
– «родовой по отношению к определяемому термин представлен опорным словом - первым по порядку существительным в именительном падеже»
Первый результат
1 ИЗА («из» - рд. п., мн. ч., имя) 475
2 ЧАСТЬ 415
3 СОВОКУПНОСТЬ 406
4 НАЗВАНИЕ 389
5 СИСТЕМА 347
6 РАЗДЕЛ 336
7 ВИД 305
8 УСТРОЙСТВО 298
Проблемы
• Омонимия– «о чукотском море»
• леммы для словоформы «море»– МОРЕ (ср.р.)
– МОР (мр.р.)
– МОРА (жр.р.)
• Мало информации:– все связи одного типа (род-вид)– связи только с одним словом в определении
Усложнённый вариант
Дерево зависимостей
Словарная статья (текст)
Словарная статья (текст + пометы + сокр.)
Извлечение отношений
Синтаксический анализ
Лексикографическая обработка
Отношения (термин – ключевое слово)
Лексикографическая обработка
• сокращения (разворачиваются в полные слова, если это возможно)
• пометы (удаляются)
• текст в скобках (удаляется)
Примеры
АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь
АБРЕКИ - В прошлом у народов Северного Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь
АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков
АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков
Синтаксический анализ
• Используются компоненты АОТ
• Упрощённые правила: только группы с вершиной – существительным
• Строится дерево зависимостей
Грамматика
ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА
[ANP] -> [ADJ] [NP root]
: $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm);
ГЕНИТИВНАЯ ГРУППА
[GP] -> [NP root] [NP grm="рд"];
ПРЕДЛОЖНАЯ ГРУППА
[PP] -> [PREP root] [NP];
ИМЕННАЯ ГРУППА
[NP] -> [NOUN];
[NP] -> [NP root] [PP] ;
[NP] -> [PP] | [GP] | [ANP];
Грамматика: примеры
ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА
ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ
ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА
ГЕНИТИВНАЯ ГРУППА
АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ
АБЗАЦ – ЧАСТЬ ТЕКСТА
ПРЕДЛОЖНАЯ ГРУППА
АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ
АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ
Структура составляющих
ВЕРХНЯЯ
ОДЕЖДА
НЕКОТОРЫХ
У
НАРОДОВ
АЗИАТСКИХANP
ANP
ANP
PP
NP
Дерево зависимостей
ВЕРХНЯЯ
ОДЕЖДА
НЕКОТОРЫХ
У
НАРОДОВ
АЗИАТСКИХANP
ANP
ANP
PP
NP
До После
Лемм / слово 1,27 1,06
Морфологических вариантов / слово
2,26 1,64
Частичное снятие омонимии
Извлечение отношений
• Правила (код на Perl)
– обход дерева зависимостей– операции:
• записать текущее слово с текущим названием отношения
• изменить текущее название отношения• выбрать следующее слово
Род, вид, сорт…1. изменить текущее название отношения на
«обобщение»2. выбрать следующее существительное3. записать
ФИЛЬДЕПЕРС - высший сорт фильдекоса.
ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения.
Пример правила
Было / стало
1 иза 475
2 часть 415
3 совокупность 406
4 название 389
5 система 347
6 раздел 336
7 вид 305
8 устройство 298
1 устройство 332
2 минерал 322
3 единица 293
4 прибор 292
5 вещество 277
6 процесс 243
7 инструмент 235
8 элемент 228
Статистика
• 25.324 словарных статей
• 26.376 записей в БД
• 4.679 опорных слов
Качество
• Экспертная оценка
• 200 словарных статей:– 179 (90%) – правильно– 21 – неправильно:
• 16 - недоработки ПО (синтаксис)• 5 – неверна гипотеза о том, что опорное слово
есть в первом предложении определения
– предел точности: 179 + 16 / 200 = 97.5%
Примеры
• АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование , притирка и другие ).
• АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул.
• АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.
Википедия
• Отличия:– обработка wiki-разметки– оформление статей … разнообразно
• «первое предложение определения» надо искать
– статьи без определений («Советско-германские договоры 1939», «Список кодов ответов FTP», …)
– статьи-даты («23 марта — 82-й день года …»)– «формализованная» информация (шаблоны)
• Размер:– 430 тыс. статей (дамп от 6 октября 2009)
Вики-разметка
• вики-разметка:– '''Прего� ля''' (древнепрусск. ''Прэйгара'', {{lang-de|
Pregel}} — Прегель, {{lang-lt|Prieglius}}, {{lang-pl|Pregoła}}) — [[река]], впадающая в [[Балтийское море]], точнее в пресноводный [[Калининградский залив|Калининградский (Вислинский) залив]]. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км².
• результат:– Прего́� ля (древнепрусск. Прэйгара, нем. Pregel — Прегель,
лит. Prieglius, польск. Pregoła) — река, впадающая в Балтийское море, точнее в пресноводный Калининградский (Вислинский) залив. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км².
«Плохие» первые предложения
• Nyan Koi! (にゃんこい !) манга, созданная Сато Фудзиварой.
• ‘‘‘ИНСТИТУТ ГУМАНИТАРНЫХ ИСТОРИКО-ТЕОРЕТИЧЕСКИХ ИССЛЕДОВАНИЙ’’’ (ИГИТИ) создан в рамках Государственного университета – Высшей школы экономики (ГУ-ВШЭ) в 2002 г.
• «Описание мира в науке и религии отличается в своей основе. …»
Шаблоны{{НП-Россия |статус = Город |русское название = Великий Новгород|регион = Новгородская область|глава = [[Бобрышев, Юрий Иванович|Юрий Бобрышев]] |дата основания = VIII{{!}} VIII—IX век |первое упоминание = 859{{!}} 859 (Официально, условно) |прежние имена = Новгород (до [[1999 год]]а)|площадь = 90,08|население = {{Падение}} 215 351 |год переписи = 2009 |плотность = 2405,6|этнохороним = новгоро� дцы,<br />новгоро� дец,<br />новгоро� дка |часовой пояс = +3 |почтовые индексы = 173xxx |телефонный код = 8162 |автомобильный код = 53 |цифровой идентификатор = 49401000000 |категория в Commons = Velikiy Novgorod |сайт = http://www.adm.nov.ru |информация для туристов = http://www.visitnovgorod.ru }}
Инструменты
• Wikipedia XML dump (все статьи одним файлом)
• Wikiprep.pl (версия проекта Zemanta)– вики-разметка -> ~HTML / plain text– разворачивает шаблоны– URL: http://wikiprep.sf.net/
Вопросы?