12
Лекция 7. Корпусный менеджер как поисковая система В.П. Захаров Санкт-Петербургский государственный университет

Лекция 7 . Корпусный менеджер как поисковая система

Embed Size (px)

DESCRIPTION

Лекция 7 . Корпусный менеджер как поисковая система. В.П. Захаров Санкт-Петербургский государственный университет. Лингвистические поисковые системы: корпусные менеджеры и конкордансеры. поиск конкретных словоформ и вывод результатов в виде конкорданса; поиск словоформ по леммам; - PowerPoint PPT Presentation

Citation preview

Page 1: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7. Корпусный менеджер

как поисковая система

В.П. Захаров

Санкт-Петербургский государственный университет

Page 2: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 2

Лингвистические поисковые системы: Лингвистические поисковые системы:

корпусные менеджеры и корпусные менеджеры и конкордансерыконкордансеры поиск конкретных словоформ и вывод результатов в

виде конкорданса; поиск словоформ по леммам; поиск группы словоформ в виде разрывной или

неразрывной синтагмы; поиск словоформ по набору морфологических

признаков; отображение информации о происхождении, типе

текста и т.п.; вывод результатов поиска с указанием контекста

заданной длины; получение различных лексико-грамматических

статистических данных; сохранение отобранных строк конкорданса в

отдельном файле на компьютере пользователя и др.

Page 3: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 3

КонкордансКонкорданс Конкорданс – список контекстов, где искомая единица представлена в ее лексическом окружении и характеризуется набором статистических данных.

В простейшем случае представляет собой алфавитный список слов в тексте с теми контекстами, в которых они встречались.

Пример конкорданса (KWIC – Key Word In Context)

для слова “poor”:

taste it is that such poor cattle always have in their mouths of sparing the poor child the inheritance of any part of small property of my poor father, whom I never saw--so long

desolate, while your poor heart pined away, weep for it Miss, if the poor lady had suffered so intensely

the love of my poor mother hid his torture from me

Page 4: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 4

Программы-конкордансерыПрограммы-конкордансеры

Concordance; MicroConcord; MonoCorc; TACT (Text Analysis Computing Tools); TACTWeb; SARA

Page 5: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 5

MicroConcordMicroConcord((

http://www1.oup.co.uk/oup/elt/softwhttp://www1.oup.co.uk/oup/elt/softwareare

))MicroConcord может строить лишь KWIC, но довольно быстро. DOS-интерфейс.Пользователь определят КС (строка запроса), текстовые файлы, в которых должен производиться запрос, положение слова в предложении. Программа отображает имя каждого обработанного файла, количество вхождений КС. Существует возможность просмотра конкорданса в режиме прокрутки (scrolling), несколько режимов сортировки выдаваемого материала, просмотр полного текста для каждого вхождения КС в отдельном окне, сохранение в файл и печать результатов. MicroConcord поддерживает европейские языки. Ограничения: невозможно запросить полный конкорданс; число выдаваемых строк ограничено (1662 на компьютере исследователя).

Page 6: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 6

ConcordanceConcordance ( (http://http://www.rjcw.freeserve.co.ukwww.rjcw.freeserve.co.uk//))

Обладает высокой скоростью поиска. Возможен вывод результатов на печать. Существует поддержка большинства

европейских языков. Может преобразовывать полный

конкорданс в html-файл.

Page 7: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 7

ConcordanceConcordance (2) (2)

Page 8: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 8

MonoConсMonoConс((httphttp://://

www.camsoftpartners.co.ukwww.camsoftpartners.co.uk//)) Способен создавать KWIC и полные

конкордансы; сортировать полученные списки по правому и

левому контексту; работать с аннотированными корпусами

(форматы html и xml); создавать сложные запросы по шаблонам

(часть слова, позиция слова в предложении, поиск внутри тэгов и т.д.);

просматривать контекст КС в отдельной области окна программы, получать частотные данные.

Page 9: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 9

MonoConсMonoConс

Page 10: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 10

От конкордансеров к От конкордансеров к корпусным менеджерам корпусным менеджерам

Простой конкордансер может построить конкорданс отдельных слов, словосочетаний, частей слов, знаков пунктуации и т.д. в контекстном окружении. Но более сложные программы способны строить полные конкордансы, включающие в себя не только слова, но и другие элементы корпуса.

Это лемма и морфологические характеристики слова; позиция слова в предложении и в структуре размеченного текста (HTML, XML); библиографические и типологические признаки документа, из которого выбран контекст (автор, название, источник, год издания, тип текста и т.д.); статистические данные и многое другое.

Программы такого рода получили название ‘corpus manager’.

Page 11: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 11

Корпусные менеджерыКорпусные менеджеры Корпусным менеджером (или корпус-

менеджером) (англ. corpus manager) называют специализированную поисковую систему управления текстовыми и лингвистическими данными, которая включает программные средства для поиска в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. • Bonito;• CQP;• DDC;• WebCorp;• Xaira• ...

Page 12: Лекция  7 . Корпусный менеджер  как поисковая система

Лекция 7 Корпусная лингвистика 12

Корпусный менеджер как поисковая Корпусный менеджер как поисковая системасистема

Формальная релевантность Информационно-поисковый язык

фактографического типа НО: умение работать с лексемами и

словоформами. Операции над запросами. Сравнение с архитектурой поисковых систем в

сети Интернет: роботы, программы загрузки индексов, собственно поисковые системы, с которыми работают пользователи. Их автономность (распределенность) и взаимосвязь.

Аналогичная картина в корпусах.