Upload
-
View
240
Download
12
Embed Size (px)
Citation preview
Пользовательские интерфейсы систем лингвистической разметки
текстов
Автор: Смолина Мария, 425 группа
Содержание
1. Основные виды лингвистической разметки
2. Стандарты разметки 3. Этапы лингвистической разметки 4. Требования к системе разметки 5. Обзор систем разметки 6. Разрабатываемый программный
инструмент
2
Основные виды лингвистической разметки
• Лингвистическая разметка необходима для машинной обработки текстов на естественном языке.
• В размеченном виде тексты удобно хранить и подавать на вход различным программным инструментам.
Основные виды разметки:
Метаразметка (автор текста, название, место издания и т.п.) Графематическая (границы слов, заголовки, числа)
Морфологическая (часть речи, падеж, начальная форма) Синтаксическая (отражение синтаксической структуры
предложений)
Семантическая (отношения род-вид, часть-целое, синонимия)
3
Пример графематической разметки (проект Диалинг-АОТ)
4
5
Основные стандарты разметки Существует ряд международных стандартов представления размеченных текстов: Проект TEI
(использовался при создании НКРЯ)
Рекомендации EAGLES
CDIF
CES
XCES
6
Пример морфологической разметки в стандарте TEI
<s>
<w><ana lex=“конкурент” gr=“S”></ana>Конкуренты</w>
<w><ana lex=“наступать” gr=“V”></ana>наступают</w>
<w><ana lex=“на” gr=“PR”></ana>на</w>
<w><ana lex=“пятка” gr=“S”></ana>пятки</w>.
</s>
Тег <w> обозначает слово, <s> - предложение
Этапы лингвистической разметки • Естественный язык сложен и постоянно изменяется. • Разметка текстов, как правило, неоднозначна. • Системы автоматической разметки работают с ошибками Графематическая разметка: А. Кот смотрел на Ильина Б. В. Шпак смотрел на… Морфологическая разметка: слово ПЕЧЬ может быть как глаголом, так и существительным Как правило, разметка текста производится в два этапа: 1. Автоматическая разметка текста (корпуса текстов) 2. Ручная корректировка результатов экспертом
7
8
Требования к системе разметки
Система разметки должна обладать следующими свойствами: Доступность Простота использования, наличие документации Поддержка основных видов разметки Сохранение результатов в соответствующем
стандарту виде Поддержка русского языка Удобный пользовательский интерфейс для ручной
корректировки результата Плюсом является поддержка дополнительных видов
разметки
9
Системы разметки UAM CorpusTool Автор: Mick O` Donnell, 2011 год BRAT rapid annotation tool Авторы: Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Япония, Великобритания, 2012 год NooJApp Автор: Max Silberztein, Франция, 2002 год
Проекты OpenCorpora Цель проекта – создать открытый размеченный корпус текстов на русском языке
10
UAM CorpusTool: основные функции
Создание собственного корпуса текстов Автоматическая разметка для англоязычных текстов Исправление автоматической разметки Разметка текста вручную Добавление собственных дескрипторов Сохранение разметки в формате XML
11
UAM CorpusTool: интерфейс
12
UAM CorpusTool: особенности
Система доступна для скачивания, проста в установке, но ее исходный код закрыт
Проста в использовании, имеет полную документацию
Поддерживаются основные виды разметки для англоязычных текстов
Результат сохраняется в формате stand-off xml Нет автоматической разметки для русского языка Интерфейс для ручной корректировки результата
разметки прост и понятен
13
BRAT rapid annotation tool: основные функции
Автоматическая разметка для англоязычных текстов Исправление автоматической разметки Извлечение некоторой информации из текстов
(имен, названий географических объектов) Разметка текста вручную
14
BRAT rapid annotation tool: интерфейс
15
BRAT rapid annotation tool: особенности
Система доступна для скачивания, процесс установки сложен, открытый исходный код
Не очень сложна в использовании, имеет документацию
Для англоязычных текстов поддерживаются основные виды разметки
Результат сохраняется в формате stand-off ann Для русского языка поддерживается только
автоматическая графематическая разметка Интерфейс для ручной корректировки результата
разметки прост и понятен
16
NooJApp: основные функции
Автоматическая графематическая, морфологическая и синтаксическая разметка для английского языка
Исправление автоматической разметки Разметка текста вручную Подсчет количества букв, токенов и других
статистических данных
17
NooJApp: интерфейс
18
NooJApp: особенности
Система доступна для скачивания, процесс установки легкий, открытый исходный код
Не очень сложна в использовании, имеет документацию
Основные виды разметки поддерживаются только для английского языка
Результаты сохраняются в формате not, xml (стандарт TEI) Автоматическая разметка поддерживается только
для английского языка Интерфейс системы не очень удобен для работы
19
Проект OpenCorpora • Проект предназначен для создания размеченного
корпуса русскоязычных текстов силами сообщества. • Каждый может принять участие в его создании. • Сначала тексты размечаются автоматически, затем
участникам предлагается исправить ошибки автоматической разметки.
Интерфейс
20
Итог • На данный момент существует множество систем разметки,
но все они ориентированы на работу с англоязычными текстами.
• Некоторые из этих систем недостаточно удобные и требуют немало времени для освоения своего интерфейса.
Необходим программный инструмент: 1. Доступный, простой в использовании 2. Поддерживающий основные виды разметки 3. Отвечающий стандартам 4. Ориентированный на работу с русскоязычными
текстами 5. Обладающий удобным пользовательским
интерфейсом для корректировки результата
21
Linguistic annotation system: основные функции
Автоматическая графематическая разметка для
русского языка Исправление автоматической разметки Сохранение разметки в формате XML
В дальнейшем будут добавлены модули морфологической и терминологической разметки, возможность сохранения разметки в соответствии со стандартом TEI.
22
Linguistic annotation system: интерфейс
23
Linguistic annotation system: интерфейс
24
Linguistic annotation system: особенности Доступное web-приложение, установка не требуется Простота использования Поддержка графематической разметки, в
дальнейшем и других основных видов разметки Полностью ориентировано на работу с
русскоязычными текстами Есть интуитивно понятный интерфейс для ручной
корректировки результата Поддержка дополнительных видов разметки
(терминологическая разметка)
Спасибо за внимание!
25