Upload
lutic
View
704
Download
3
Embed Size (px)
Citation preview
Интенсивный курс повышения квалификации
по полевой лингвистике
Синтаксическая разметка материала. Коммуникативный
сценарий
Филиппова Нина
ОСНОВНЫЕ ПРИНЦИПЫкорпусная разметка:
Разметка (или аннотация)
• является инструментом и этапом анализа текста
• представляет собой систему комментариев, сопровождающих текст и содержащих информацию о тексте, его единицах, строении.
Разметка позволяет
• выделить единицы анализа,• обозначить их расположение
относительно друг друга во времени,• классифицировать,• охарактеризовать их по отношению друг к
другу,• автоматически получить статистику• выполнить поиск элементов по тегам.
Теги
• оформляются отлично от текста
• ставятся до или/и после элемента с указанием.
• в имени и атрибутах тега могут быть указаны принадлежность к классу единиц и ссылки на элементы.
СИНТАКСИСкорпусная разметка:
Пунктирование: в поисках предложения
• методика, позволяющая объективно определять границы предложений в речи
• разметка текстов и основа дальнейшего анализа
Процедура пунктирования
• 20 экспертов расставляют точки в тексте расшифровки
• совпадение в одном месте 12 и более 12 точек признаётся границей предложения
Пример размеченного текста
Существует много примет (19) // бывают приметы простые и сложные (9) // но когда человек живет в городе / приметами как правило он не пользуется (8) // так как (1) рябина заменяет табличка на у…/ на а-а / э-э (3) / на доме (7) / часы (7) / мы можем узнать время (4) мы можем узнать по радио (10) // прогноз погоды (1) также нам сообщат а-а по радио (14)
Структурная разметка
• результат анализа синтаксического
уровня спонтанной речи
• без опоры на предложение
• на базе выделяемых предикативных
основ
Существуетмногоприметбываютприметы
простые исложные нокогда человекживетв
городеп риметами какправило
оннепользуется так
как рябиназаменяеттабличкана ...у на -аа на
-ээ надомечасымыможемузнатьвремямы
можемузнатьпорадиопрогнозпогоды также нам
сообщат -ээ порадио
Классификация элементов
• неречевые элементы – смех, кашель и подобные
<nsu> (смех) </nsu>
• условно-речевые элементы – сопровождающие собственно речевые
<su type="ph"> эээ </su>
• речевые элементы – все остальные
Речевые элементы
• структурные• неструктурные
Структурные элементы
<X> бывают </X>
<X> приметы </X>
<X to="2"> простые </X>
<op to="3,4”> и </op>
<X to="2"> сложные </X>
Структурно-синтаксическое единство
<bd> <X> бывают </X> <X> приметы </X>
<X to="2"> простые </X> <op to="3,4”> и
</op> <X to="2"> сложные </X> <bd>
Теги структурных элементов
Название тегаРасшифровка
тега (англ.)Значение тега
Условное обозначение на семантическом
дереве
<bd> </bd> Basic discourseНачало и
окончание CCЕ. Bd = CCE
<X> </X> X – любой элемент в
составе ССЕ, кроме оператора
Рамки независимых
элементов внутри CCE.
A – уровень главных членов в CCE
<X to="1"> </X>Рамки зависимых
элементов.B, C или D – уровни зависимых членов в
CCE
<op to="1,2"> </op> operator
Включает союзы, связывающие
члены внутри CCE и разные ССЕ
op
Глубина зависимости
bd: мы можем узнать время
X: мы X: можем Depth = A Depth = A
X: узнать @to = 2
Depth = B
X: время @to = 3
Depth = C
Неструктурные элементы
• не являются членами предложения
• не связаны синтаксическими связями с другими элементами
• могут по смыслу относиться к ССЕ/ к части ССЕ
Неструктурные элементы
1. Неформообразующие частицы
<bd> <X> я</X>
<ad type="np">только</ad>
<X> посоветовал </X> <X to="2"> ему </X> <X
to="2"> уехать </X> </bd>
Неструктурные элементы
1. Обращения
<ad type="aw"> мам </ad>
<bd> <X> скажи </X> </bd>
Неструктурные элементы
1. Вводные слова
<ad type="pw"> наверное </ad>
<bd> <X> люди </X> <X to="3"> иногда</X>
<X> заходят </X> <X to="3"> туда </X>
</bd>
Неструктурные элементы
1. Междометия
<ad type="i"> ой </ad>
<bd> <X to="3"> как </X> <X> это </X> <X>
получилось</X> </bd>
Неструктурные элементы
1. Непредложенческие высказывания
<ad type="slu"> Ага </ad>
<bd> <X to="2"> меня </X> <X> зовут </X>
<X to="2"> Стас </X> </bd>
Теги неструктурных элементов
Название тегаРасшифровка тега
(англ.)Значение тега
<ad type="slu"> </ad> Sentence-like utteranceНепредложенческие
высказывания
<ad type="np"> </ad> Non-structural partsНеформообразующие
частицы
<ad type="i"> </ad> Interjections Междометия
<ad type="aw"> </ad> Addressing words Обращения
<ad type="pw"> </ad> Parenthetic words Вводные слова
Метки неинформативности элемента
Название тегаРасшифровка
тега (англ.)Значение тега
<su type="el"> </su> Empty lexemes Слова-паразиты
<su type="ph"> </su> Pauses of hesitationПаузы хезитации
(звуковые)
<su type="udce"> </su>Undecipherable
elementsНеразборчивоепроизнесение
Примеры
<su type="udce"> неразб. </su> <bd>
<X> можно </X> <X to="1"> кратко </X>
</bd> <bd> <X>мы </X> <X> решили </X>
</bd>
<su type="ph"> э-э </su>
<su type="el"> значит </su>
ПРОБЛЕМЫ ОПИСАНИЯспонтанная речь:
Специфика СР
• одновременное формирование речи и мысли
• самокоррекции, самоперебивы, обрывы, перестройки «на ходу»
• неоднозначность членения• множественность интерпретаций
Речевой сбой: тип I
• продолжение речи без исправлений
Тогда решили прибегнуть к помощи деревенского мальчишки который сновал у них самым таким ну шустрым умным изобретательным
Речевой сбой: тип II
• появление комментария о сбое
… вижу на картине три дуба значит свет падает со стороны от меня в смысле нет наоборот от меня падает свет вот освещает через крону дуба...
Речевой сбой: операции отмены
• часть текста до точки сбоя переговаривается со значительными или незначительными изменениями
...накормили кота а накормили не пр... ни больше ни меньше как жареной свининой
Типы операций отмены• нулевая
…(он пытается (.) пытается подманить кота рыбой)…
• частичная…что (кошку можно попытаться заставить
спрыгнув (.) заставить спрыгнуть показав ей рыбу)…
• полная.…(это не могут быть одуванчики) потому что (они
растут летом э (.) весной)…
Отражение операции отмены в разметке
<bd> <X to="2"> под деревьями </X> <X>
растут </X> <fixed> <X to="6">
разные </X> </fixed> <X to="5">
разного </X> <X to="6"> вида </X> <X>
растения</X> </bd>
ОСНОВНЫЕ ПРЕДСТАВЛЕНИЯкорпусная разметка:
Среда работы с разметкой xml
Линейное представление
[[на картине]X1 [Шишкина]X2 ["Старые липы"]X3
[изображен]X4 [пейзаж]X5]bd1 [[действие]X1
[происходит]X2 [по-видимому]ad1 [летом]X4 [в [яркий]X2 [солнечный]X3 день]X5 [под кронами]X6
[огромных]X7 [развесистых]X8 [старых ]X9 [лип ]X10]bd2
Графическое представление текста
Операции отмены
Программная среда
• подсвечивание тегов• визуализация• поиск по тексту, по тегам• статистика• конвертер данных
КОММУНИКАТИВНЫЙ (РЕЧЕВОЙ) СЦЕНАРИЙ
перспективы дальнейшего анализа:
Сценарий в теории информации
типовая структура для некоторого действия, понятия, события, включающая характерные элементы этого действия, понятия, события.
(М.Мински. Фреймы для представления знаний).
Оплата проезда в троллейбусе
Речевой сценарий
• сложился в процессе речевой деятельности
• наиболее общая модель развития речевого события
• коммуникативно-смысловая единица
Коммуникативные сценарии корпуса
• пересказ прочитанного текста:– сюжетного – фрагмент из рассказа К.
Паустовского «Кот-ворюга»– несюжетного – фрагмент из повести того
же автора «Мещёрская сторона»- «Несколько слов о приметах»
Коммуникативные сценарии корпуса
• описание изображения:
– сюжетного – рассказ в картинках
– несюжетного – репродукция картины
Х.Бидструп «Здоровый отдых»
И.Шишкин «Старые липы»
Коммуникативные сценарии корпуса
• свободный рассказ на заданную тему:– Как Вы проводите свободное время?
Описание изображения: общая структура сценария
• может присутствовать введение (например, сценарий представления, сценарий пересказа задания или маркеры начала: так, значит, поехали)
<intr> Ну значит тут это самое значит </intr> …
<intr> Так ну вот э-э </intr> …
<intr> Так </intr> заброшенный какой-то тут то ли сарайчик …
Описание изображения: общая структура сценария
• может присутствовать заключение (используется метакоммуникация или другой сценарий, маркеры конца текста: вот, всё)
<concl>это я тоже знаю так даже а больше наверно ничего и не скажу </concl>
<concl> не знаю чего ещё </concl>
<concl> всё наверно </concl>
<concl> всё больше ничего не могу сказать <concl>
Описание изображения: общая структура сценария
• основная часть – выполнение задачи описания, предложенной исследователем.
Человек очень устает на работе и ему хочется отвлечься отдохнуть. (18) В данном случае конечно человек хочет на природу на лыжи. (19) Увидел что здесь горный спуск наверно какой-то есть на лыжах покататься. (16) Но конечно надо с умом отдыхать чтобы все было в порядке чтобы не было травм после отдыха и потом к врачу. (18) Ну конечно я бы лучше конечно поехала на природу так уже давно хочется отдохнуть.
Описание: основная часть
• собственно описание изображения• Метакоммуникация
…<mc>я много не умею говорить могу красиво
молчать </mc> …
… <mc> что бы еще вам такого описать </mc> …
• комментирование
…<nar>у каждого должны быть свои уголки </nar> …
… <nar> но он у нас пейзажист был (о Шишкине) так что в общем что с него взять </nar> …
Собственно описание включает
• A. называние, перечисления объектов/событий
…<A>старая такая то ли ну то ли сторожка то ли м-м ну типа может быть этот самый колодец
бывший </A>…
…<A> красивые осенние деревья ручей течет мостик через ручей </A>…
Собственно описание включает
• B. установление отношений объектов/событий с внетекстовой реальностью; суждения,
домыслы, догадки…
…<B>по всей вероятности здесь изображена весна так как зелень еще свежая ярко-зеленая </B>…
… <B> вся эта картина навевает такое спокойствие какие-то такие размышления о природе и о жизни
</B> …
Структура коммуникативного сценария «описание изображения»