25
Пользовательские интерфейсы систем лингвистической разметки текстов Автор: Смолина Мария, 425 группа

Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

  • Upload
    -

  • View
    240

  • Download
    12

Embed Size (px)

Citation preview

Page 1: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

Пользовательские интерфейсы систем лингвистической разметки

текстов

Автор: Смолина Мария, 425 группа

Page 2: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

Содержание

1. Основные виды лингвистической разметки

2. Стандарты разметки 3. Этапы лингвистической разметки 4. Требования к системе разметки 5. Обзор систем разметки 6. Разрабатываемый программный

инструмент

2

Page 3: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

Основные виды лингвистической разметки

• Лингвистическая разметка необходима для машинной обработки текстов на естественном языке.

• В размеченном виде тексты удобно хранить и подавать на вход различным программным инструментам.

Основные виды разметки:

Метаразметка (автор текста, название, место издания и т.п.) Графематическая (границы слов, заголовки, числа)

Морфологическая (часть речи, падеж, начальная форма) Синтаксическая (отражение синтаксической структуры

предложений)

Семантическая (отношения род-вид, часть-целое, синонимия)

3

Page 4: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

Пример графематической разметки (проект Диалинг-АОТ)

4

Page 5: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

5

Основные стандарты разметки Существует ряд международных стандартов представления размеченных текстов: Проект TEI

(использовался при создании НКРЯ)

Рекомендации EAGLES

CDIF

CES

XCES

Page 6: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

6

Пример морфологической разметки в стандарте TEI

<s>

<w><ana lex=“конкурент” gr=“S”></ana>Конкуренты</w>

<w><ana lex=“наступать” gr=“V”></ana>наступают</w>

<w><ana lex=“на” gr=“PR”></ana>на</w>

<w><ana lex=“пятка” gr=“S”></ana>пятки</w>.

</s>

Тег <w> обозначает слово, <s> - предложение

Page 7: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

Этапы лингвистической разметки • Естественный язык сложен и постоянно изменяется. • Разметка текстов, как правило, неоднозначна. • Системы автоматической разметки работают с ошибками Графематическая разметка: А. Кот смотрел на Ильина Б. В. Шпак смотрел на… Морфологическая разметка: слово ПЕЧЬ может быть как глаголом, так и существительным Как правило, разметка текста производится в два этапа: 1. Автоматическая разметка текста (корпуса текстов) 2. Ручная корректировка результатов экспертом

7

Page 8: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

8

Требования к системе разметки

Система разметки должна обладать следующими свойствами: Доступность Простота использования, наличие документации Поддержка основных видов разметки Сохранение результатов в соответствующем

стандарту виде Поддержка русского языка Удобный пользовательский интерфейс для ручной

корректировки результата Плюсом является поддержка дополнительных видов

разметки

Page 9: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

9

Системы разметки UAM CorpusTool Автор: Mick O` Donnell, 2011 год BRAT rapid annotation tool Авторы: Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Япония, Великобритания, 2012 год NooJApp Автор: Max Silberztein, Франция, 2002 год

Проекты OpenCorpora Цель проекта – создать открытый размеченный корпус текстов на русском языке

Page 10: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

10

UAM CorpusTool: основные функции

Создание собственного корпуса текстов Автоматическая разметка для англоязычных текстов Исправление автоматической разметки Разметка текста вручную Добавление собственных дескрипторов Сохранение разметки в формате XML

Page 11: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

11

UAM CorpusTool: интерфейс

Page 12: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

12

UAM CorpusTool: особенности

Система доступна для скачивания, проста в установке, но ее исходный код закрыт

Проста в использовании, имеет полную документацию

Поддерживаются основные виды разметки для англоязычных текстов

Результат сохраняется в формате stand-off xml Нет автоматической разметки для русского языка Интерфейс для ручной корректировки результата

разметки прост и понятен

Page 13: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

13

BRAT rapid annotation tool: основные функции

Автоматическая разметка для англоязычных текстов Исправление автоматической разметки Извлечение некоторой информации из текстов

(имен, названий географических объектов) Разметка текста вручную

Page 14: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

14

BRAT rapid annotation tool: интерфейс

Page 15: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

15

BRAT rapid annotation tool: особенности

Система доступна для скачивания, процесс установки сложен, открытый исходный код

Не очень сложна в использовании, имеет документацию

Для англоязычных текстов поддерживаются основные виды разметки

Результат сохраняется в формате stand-off ann Для русского языка поддерживается только

автоматическая графематическая разметка Интерфейс для ручной корректировки результата

разметки прост и понятен

Page 16: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

16

NooJApp: основные функции

Автоматическая графематическая, морфологическая и синтаксическая разметка для английского языка

Исправление автоматической разметки Разметка текста вручную Подсчет количества букв, токенов и других

статистических данных

Page 17: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

17

NooJApp: интерфейс

Page 18: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

18

NooJApp: особенности

Система доступна для скачивания, процесс установки легкий, открытый исходный код

Не очень сложна в использовании, имеет документацию

Основные виды разметки поддерживаются только для английского языка

Результаты сохраняются в формате not, xml (стандарт TEI) Автоматическая разметка поддерживается только

для английского языка Интерфейс системы не очень удобен для работы

Page 19: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

19

Проект OpenCorpora • Проект предназначен для создания размеченного

корпуса русскоязычных текстов силами сообщества. • Каждый может принять участие в его создании. • Сначала тексты размечаются автоматически, затем

участникам предлагается исправить ошибки автоматической разметки.

Интерфейс

Page 20: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

20

Итог • На данный момент существует множество систем разметки,

но все они ориентированы на работу с англоязычными текстами.

• Некоторые из этих систем недостаточно удобные и требуют немало времени для освоения своего интерфейса.

Необходим программный инструмент: 1. Доступный, простой в использовании 2. Поддерживающий основные виды разметки 3. Отвечающий стандартам 4. Ориентированный на работу с русскоязычными

текстами 5. Обладающий удобным пользовательским

интерфейсом для корректировки результата

Page 21: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

21

Linguistic annotation system: основные функции

Автоматическая графематическая разметка для

русского языка Исправление автоматической разметки Сохранение разметки в формате XML

В дальнейшем будут добавлены модули морфологической и терминологической разметки, возможность сохранения разметки в соответствии со стандартом TEI.

Page 22: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

22

Linguistic annotation system: интерфейс

Page 23: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

23

Linguistic annotation system: интерфейс

Page 24: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

24

Linguistic annotation system: особенности Доступное web-приложение, установка не требуется Простота использования Поддержка графематической разметки, в

дальнейшем и других основных видов разметки Полностью ориентировано на работу с

русскоязычными текстами Есть интуитивно понятный интерфейс для ручной

корректировки результата Поддержка дополнительных видов разметки

(терминологическая разметка)

Page 25: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

Спасибо за внимание!

25