Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования

Выполнил:Варламов Максим Игоревич

группа 427

Научный руководитель:Майоров Владимир Дмитриевич

Курсовая работа

Задача реферирования

• Реферирование - составление краткого изложения материала одного или нескольких информационных источников

• В данной работе– источники и реферат – текстовые документы– только один источник– рассматриваются общие рефераты

• не имеют специализированного назначения• в равной степени покрывают содержание исходных документов

Риторическая структура

• Rhetorical Structure Theory (Mann, Thompson, 1988)• Текст – иерархия риторических отношений• В листьях обычно клаузы• Два вида отношений:

– симметричные (многоядерные)– асимметричные (ядро – спутник)

• Ядро имеет смысл без спутника, обратное неверно => ядровые сегменты предпочтительнее для включения в реферат

Пример

• Синтаксический анализатор – ABBYY Compreno

• Подсистема взвешивания – алгоритм из статьи W. Bosma

• Свой эвристический алгоритм построения риторического дерева. В основе:– Кореферентность– Сигнальные фразы– Ключевые слова

Система автоматического реферирования отдела Информационных систем ИСП РАН

Система автоматического реферирования отдела Информационных систем ИСП РАН

• Демонстрирует неудовлетворительное качество рефератов

Baseline – по первому предложению с каждого абзаца

Цель работы

разработка и реализация алгоритма построения риторического дерева текста на

основе машинного обучения

Постановка задачи

• Исследовать известные подходы к построению риторических деревьев, в том числе на основе машинного обучения

• Реализовать подход к построению RST-деревьев на основе машинного обучения в исходной системе– должен обрабатывать текст за линейное от его длины время

• Сравнить качество работы ML-подхода с текущим алгоритмом– Качество деревьев (PARSEVAL)– Качество рефератов (ROUGE)

Алгоритм построения RST-дерева

• Основан на работе duVerle и Predinger (2009)• Пусть S – множество сегментов текста

– Сегмент – непрерывная последовательность клауз– Характеризуется своим RST-поддеревом

• Два классификатора:

– Оценивает вероятность наличия риторической связи между двумя сегментами

– Определяет тип отношения между сегментами

• Для реализации классификаторов использованы линейные SVM

Алгоритм построения RST-дерева

Признаки

• Длины сегментов• Сигнальные фразы

– присутствие/отсутствие в первых/последних 3 словах сегмента

• Синтаксические признаки– части речи, синтаксические функции, …– первые/последние 3 слова сегмента, верхние 5 слов при обходе в

ширину синтаксического дерева

• Лексические классы• Риторическая структура

– Типы верхних отношений в сегментах– Все предыдущие признаки для наиболее важных клауз сегментов

Обучение и тестирование

• Риторическая структура– Discourse Relation Reference Corpus

• 65 текстов, аннотированных экспертами в соответствии с RST• Распространяется свободно через сайт RST

– Оценка качества - PARSEVAL

• Рефераты– Материалы конференции DUC-2001

• 311 статей с abstract-аннотациями (~100 слов)• 147 статей с extract-аннотациями (~160 слов)

– Оценка качества – ROUGE• ROUGE-1,2• ROUGE-L• ROUGE-W

Feature Selection

• Необходимо отсеять неинформативные признаки– Ранжирование признаков с помощью статистики хи-квадрат– Подбор оптимального порога посредством кросс-валидации

• Размерность признакового пространства после бинаризации – 19 325 признаков

• Было отобрано 465 признаков для первого классификатора и 72 для второго

• Наиболее информативные признаки связаны с лексическими классами

Тестирование

• Качество деревьев


• Качество рефератов


• Время работы

Заключение

• Исследованы существующие подходы к построению риторических деревьев на основе машинного обучения

• Реализован и встроен в исходную систему алгоритм построения RST-деревьев на основе SVM-классификации– Показывает линейное время работы по результатам тестов

• Проведено тестирование алгоритма– Улучшилось как качество построения риторических деревьев, так

и качество рефератов

Заключение

• Тем не менее, новый подход– Слабо справляется с определением типов риторических

отношений– В половине случаев работает хуже baseline-алгоритма

реферирования

Спасибо за внимание!Вопросы?

Классификаторы

• Линейные SVM– Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle)– Возможность оценки вероятности принадлежности объекта классу– Возможность мультиклассовой классификации– Хорошо справляются с большим количеством взаимосвязанных

признаков при малой размерности обучающей выборки– Линейное время классификации

PARSEVAL

• Пусть P – множество составляющих (узлов) сгенерированного дерева, Q – экспертного. Тогда

Хи-квадрат

• Для данных признака f и класса c

– где A – число примеров класса c, где f =1;– B – число примеров, не принадлежащих c, где f =1;– C – число примеров класса c, где f =0;– D – число примеров, не принадлежащих c, где f =0;– m = A+B+C+D – общее число примеров

• Оценка признака f относительно всех классов

Documents

Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич