Upload
rowan-mcconnell
View
59
Download
8
Embed Size (px)
DESCRIPTION
Курсовая работа. Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования. Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич. Задача реферирования. - PowerPoint PPT Presentation
Citation preview
Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования
Выполнил:Варламов Максим Игоревич
группа 427
Научный руководитель:Майоров Владимир Дмитриевич
Курсовая работа
Задача реферирования
• Реферирование - составление краткого изложения материала одного или нескольких информационных источников
• В данной работе– источники и реферат – текстовые документы– только один источник– рассматриваются общие рефераты
• не имеют специализированного назначения• в равной степени покрывают содержание исходных документов
Риторическая структура
• Rhetorical Structure Theory (Mann, Thompson, 1988)• Текст – иерархия риторических отношений• В листьях обычно клаузы• Два вида отношений:
– симметричные (многоядерные)– асимметричные (ядро – спутник)
• Ядро имеет смысл без спутника, обратное неверно => ядровые сегменты предпочтительнее для включения в реферат
Пример
• Синтаксический анализатор – ABBYY Compreno
• Подсистема взвешивания – алгоритм из статьи W. Bosma
• Свой эвристический алгоритм построения риторического дерева. В основе:– Кореферентность– Сигнальные фразы– Ключевые слова
Система автоматического реферирования отдела Информационных систем ИСП РАН
Система автоматического реферирования отдела Информационных систем ИСП РАН
• Демонстрирует неудовлетворительное качество рефератов
Baseline – по первому предложению с каждого абзаца
Цель работы
разработка и реализация алгоритма построения риторического дерева текста на
основе машинного обучения
Постановка задачи
• Исследовать известные подходы к построению риторических деревьев, в том числе на основе машинного обучения
• Реализовать подход к построению RST-деревьев на основе машинного обучения в исходной системе– должен обрабатывать текст за линейное от его длины время
• Сравнить качество работы ML-подхода с текущим алгоритмом– Качество деревьев (PARSEVAL)– Качество рефератов (ROUGE)
Алгоритм построения RST-дерева
• Основан на работе duVerle и Predinger (2009)• Пусть S – множество сегментов текста
– Сегмент – непрерывная последовательность клауз– Характеризуется своим RST-поддеревом
• Два классификатора:
– Оценивает вероятность наличия риторической связи между двумя сегментами
– Определяет тип отношения между сегментами
• Для реализации классификаторов использованы линейные SVM
Алгоритм построения RST-дерева
Признаки
• Длины сегментов• Сигнальные фразы
– присутствие/отсутствие в первых/последних 3 словах сегмента
• Синтаксические признаки– части речи, синтаксические функции, …– первые/последние 3 слова сегмента, верхние 5 слов при обходе в
ширину синтаксического дерева
• Лексические классы• Риторическая структура
– Типы верхних отношений в сегментах– Все предыдущие признаки для наиболее важных клауз сегментов
Обучение и тестирование
• Риторическая структура– Discourse Relation Reference Corpus
• 65 текстов, аннотированных экспертами в соответствии с RST• Распространяется свободно через сайт RST
– Оценка качества - PARSEVAL
• Рефераты– Материалы конференции DUC-2001
• 311 статей с abstract-аннотациями (~100 слов)• 147 статей с extract-аннотациями (~160 слов)
– Оценка качества – ROUGE• ROUGE-1,2• ROUGE-L• ROUGE-W
Feature Selection
• Необходимо отсеять неинформативные признаки– Ранжирование признаков с помощью статистики хи-квадрат– Подбор оптимального порога посредством кросс-валидации
• Размерность признакового пространства после бинаризации – 19 325 признаков
• Было отобрано 465 признаков для первого классификатора и 72 для второго
• Наиболее информативные признаки связаны с лексическими классами
Тестирование
• Качество деревьев
Тестирование
• Качество рефератов
Тестирование
• Время работы
Заключение
• Исследованы существующие подходы к построению риторических деревьев на основе машинного обучения
• Реализован и встроен в исходную систему алгоритм построения RST-деревьев на основе SVM-классификации– Показывает линейное время работы по результатам тестов
• Проведено тестирование алгоритма– Улучшилось как качество построения риторических деревьев, так
и качество рефератов
Заключение
• Тем не менее, новый подход– Слабо справляется с определением типов риторических
отношений– В половине случаев работает хуже baseline-алгоритма
реферирования
Спасибо за внимание!Вопросы?
Классификаторы
• Линейные SVM– Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle)– Возможность оценки вероятности принадлежности объекта классу– Возможность мультиклассовой классификации– Хорошо справляются с большим количеством взаимосвязанных
признаков при малой размерности обучающей выборки– Линейное время классификации
PARSEVAL
• Пусть P – множество составляющих (узлов) сгенерированного дерева, Q – экспертного. Тогда
Хи-квадрат
• Для данных признака f и класса c
– где A – число примеров класса c, где f =1;– B – число примеров, не принадлежащих c, где f =1;– C – число примеров класса c, где f =0;– D – число примеров, не принадлежащих c, где f =0;– m = A+B+C+D – общее число примеров
• Оценка признака f относительно всех классов