28
Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич Курсовая работа

Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Embed Size (px)

DESCRIPTION

Курсовая работа. Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования. Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич. Задача реферирования. - PowerPoint PPT Presentation

Citation preview

Page 1: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования

Выполнил:Варламов Максим Игоревич

группа 427

Научный руководитель:Майоров Владимир Дмитриевич

Курсовая работа

Page 2: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Задача реферирования

• Реферирование - составление краткого изложения материала одного или нескольких информационных источников

• В данной работе– источники и реферат – текстовые документы– только один источник– рассматриваются общие рефераты

• не имеют специализированного назначения• в равной степени покрывают содержание исходных документов

Page 3: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Риторическая структура

• Rhetorical Structure Theory (Mann, Thompson, 1988)• Текст – иерархия риторических отношений• В листьях обычно клаузы• Два вида отношений:

– симметричные (многоядерные)– асимметричные (ядро – спутник)

• Ядро имеет смысл без спутника, обратное неверно => ядровые сегменты предпочтительнее для включения в реферат

Page 4: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Пример

Page 5: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

• Синтаксический анализатор – ABBYY Compreno

• Подсистема взвешивания – алгоритм из статьи W. Bosma

• Свой эвристический алгоритм построения риторического дерева. В основе:– Кореферентность– Сигнальные фразы– Ключевые слова

Система автоматического реферирования отдела Информационных систем ИСП РАН

Page 6: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Система автоматического реферирования отдела Информационных систем ИСП РАН

• Демонстрирует неудовлетворительное качество рефератов

Baseline – по первому предложению с каждого абзаца

Page 7: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Цель работы

разработка и реализация алгоритма построения риторического дерева текста на

основе машинного обучения

Page 8: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Постановка задачи

• Исследовать известные подходы к построению риторических деревьев, в том числе на основе машинного обучения

• Реализовать подход к построению RST-деревьев на основе машинного обучения в исходной системе– должен обрабатывать текст за линейное от его длины время

• Сравнить качество работы ML-подхода с текущим алгоритмом– Качество деревьев (PARSEVAL)– Качество рефератов (ROUGE)

Page 9: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Алгоритм построения RST-дерева

• Основан на работе duVerle и Predinger (2009)• Пусть S – множество сегментов текста

– Сегмент – непрерывная последовательность клауз– Характеризуется своим RST-поддеревом

• Два классификатора:

– Оценивает вероятность наличия риторической связи между двумя сегментами

– Определяет тип отношения между сегментами

• Для реализации классификаторов использованы линейные SVM

Page 10: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Алгоритм построения RST-дерева

Page 11: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Признаки

• Длины сегментов• Сигнальные фразы

– присутствие/отсутствие в первых/последних 3 словах сегмента

• Синтаксические признаки– части речи, синтаксические функции, …– первые/последние 3 слова сегмента, верхние 5 слов при обходе в

ширину синтаксического дерева

• Лексические классы• Риторическая структура

– Типы верхних отношений в сегментах– Все предыдущие признаки для наиболее важных клауз сегментов

Page 12: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Обучение и тестирование

• Риторическая структура– Discourse Relation Reference Corpus

• 65 текстов, аннотированных экспертами в соответствии с RST• Распространяется свободно через сайт RST

– Оценка качества - PARSEVAL

• Рефераты– Материалы конференции DUC-2001

• 311 статей с abstract-аннотациями (~100 слов)• 147 статей с extract-аннотациями (~160 слов)

– Оценка качества – ROUGE• ROUGE-1,2• ROUGE-L• ROUGE-W

Page 13: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Feature Selection

• Необходимо отсеять неинформативные признаки– Ранжирование признаков с помощью статистики хи-квадрат– Подбор оптимального порога посредством кросс-валидации

• Размерность признакового пространства после бинаризации – 19 325 признаков

• Было отобрано 465 признаков для первого классификатора и 72 для второго

• Наиболее информативные признаки связаны с лексическими классами

Page 14: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Тестирование

• Качество деревьев

Page 15: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Тестирование

• Качество рефератов

Page 16: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Тестирование

• Время работы

Page 17: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Заключение

• Исследованы существующие подходы к построению риторических деревьев на основе машинного обучения

• Реализован и встроен в исходную систему алгоритм построения RST-деревьев на основе SVM-классификации– Показывает линейное время работы по результатам тестов

• Проведено тестирование алгоритма– Улучшилось как качество построения риторических деревьев, так

и качество рефератов

Page 18: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Заключение

• Тем не менее, новый подход– Слабо справляется с определением типов риторических

отношений– В половине случаев работает хуже baseline-алгоритма

реферирования

Page 19: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Спасибо за внимание!Вопросы?

Page 20: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Классификаторы

• Линейные SVM– Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle)– Возможность оценки вероятности принадлежности объекта классу– Возможность мультиклассовой классификации– Хорошо справляются с большим количеством взаимосвязанных

признаков при малой размерности обучающей выборки– Линейное время классификации

Page 21: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

PARSEVAL

• Пусть P – множество составляющих (узлов) сгенерированного дерева, Q – экспертного. Тогда

Page 22: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич
Page 23: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич
Page 24: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич
Page 25: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич
Page 26: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич
Page 27: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич
Page 28: Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Хи-квадрат

• Для данных признака f и класса c

– где A – число примеров класса c, где f =1;– B – число примеров, не принадлежащих c, где f =1;– C – число примеров класса c, где f =0;– D – число примеров, не принадлежащих c, где f =0;– m = A+B+C+D – общее число примеров

• Оценка признака f относительно всех классов