Upload
bozhidar-bozhanov
View
453
Download
8
Embed Size (px)
DESCRIPTION
Въведение в някои приложения на компютърната лингвистика
Citation preview
Приложения на компютърната лингвистика
Божидар Божанов
Компютри и език?● Компютрите разбират ли езика?
● Защо е нужно компютрите да разбират езика?
● Какво е компютърна лингвистика?
Основни “инструменти”● Стеминг (stemming)
● Откриване на части на речта (PoS tagging)
● Синтактичен анализ
● Семантичен анализ
Части на речта● части на речта + морфологичен анализ
● списък с думи със съответната им част на речта? (гори, lead)
● контекст, вероятности (зелени гори, the lead)
● скрити вериги на Марков, Витерби, динамично програмине, машинно самообучение, статистика… ко? да..
Стеминг● таблица с форми
● правила за премахване на афикси
● лематизацияo каква част на речта е?o премахване на афикси, таблица с формиo идвам-ела, гори
● статистика, машинно самообучение
Синтактичен и семантичен анализ
● синтактични дървета
● семантични ролиo вършителo пациенсo темаo инструментo мястоo причинаo ...
● Как? Магия… формална граматика.
[AGENTShaw Publishing] offered [RECEPIENTMr. Smith] [THEMEa reimbursement] [TIMElast March]
Анализ на сентимент● Дали един текст е положителен, отрицателен или неутрален?
● http://nlp.stanford.edu:8080/sentiment/rntnDemo.html
● “торба с думи”, сентимент на дума (стеминг, определяне части на речта)
● Приложения: анализ на ревюта на продукт, на мнения за компания или събитие в социални мрежи
Корекция на правопис● необхидими данни: списък с думи; речник на афикси => пълен речник
на словоформите
● ефективна структура от данни (trie)
● предложения - левенщайново разстояние:o броят букви, които е нужно да се променят, за да се превърне
една дума в друга (добавяне, изтриване, замяна)o паронимиo барлина:балерина (?), ленгвист:лингвист (?), лекксиика:лексика(?)
Машинен превод● свещеният граал на компютърната лингвистика
● приложения: o за ежедневна употреба o машинно-асистиран преводo превод, специфичен за дадена област - прогнози за времето,
футболни коментари
● Google translate, Skype translate ● “out of sight, out of mind” -> китайски -> “blind idiot”; constipated potatoes,
strangled language
Машинен превод - как работи?
● какво е корпус? А двуезичен (паралелен) корпус?
● методи: правила; аналогия; статистика/n-gram-и.
● “от всичко”: стеминг, части на речта, синтактичен анализ
● интерлингва
Машинен превод (3)
Интерлингва?
Машинен превод (4)● решима задача ли е? Да. Решението е нашият мозък.
● невронни мрежи?
● машинно учене на език. Първи език?
● съществува ли абстрактна интерлингва?o Сапир-Уорф
Статистика, статистика...● вероятности
● теоретичната лингвистика е само малка част. Правилно ли е това?
● компютърните лингвисти нямат задълбочени познания по теоретична лингвистика (обобщение)
● мозъкът ползва статистика при вземане на решения
А задачи?● задачи за компютърна лингвистика
● решаване на традиционни задачи задачиo хаос и редo стеминг на ум
Въпроси?