16
Приложения на компютърната лингвистика Божидар Божанов

Приложения на компютърната лингвистика

Embed Size (px)

DESCRIPTION

Въведение в някои приложения на компютърната лингвистика

Citation preview

Page 1: Приложения на компютърната лингвистика

Приложения на компютърната лингвистика

Божидар Божанов

Page 2: Приложения на компютърната лингвистика

Компютри и език?● Компютрите разбират ли езика?

● Защо е нужно компютрите да разбират езика?

● Какво е компютърна лингвистика?

Page 3: Приложения на компютърната лингвистика

Основни “инструменти”● Стеминг (stemming)

● Откриване на части на речта (PoS tagging)

● Синтактичен анализ

● Семантичен анализ

Page 4: Приложения на компютърната лингвистика

Части на речта● части на речта + морфологичен анализ

● списък с думи със съответната им част на речта? (гори, lead)

● контекст, вероятности (зелени гори, the lead)

● скрити вериги на Марков, Витерби, динамично програмине, машинно самообучение, статистика… ко? да..

Page 5: Приложения на компютърната лингвистика

Стеминг● таблица с форми

● правила за премахване на афикси

● лематизацияo каква част на речта е?o премахване на афикси, таблица с формиo идвам-ела, гори

● статистика, машинно самообучение

Page 6: Приложения на компютърната лингвистика

Синтактичен и семантичен анализ

● синтактични дървета

● семантични ролиo вършителo пациенсo темаo инструментo мястоo причинаo ...

● Как? Магия… формална граматика.

[AGENTShaw Publishing] offered [RECEPIENTMr. Smith] [THEMEa reimbursement] [TIMElast March]

Page 7: Приложения на компютърната лингвистика

Анализ на сентимент● Дали един текст е положителен, отрицателен или неутрален?

● http://nlp.stanford.edu:8080/sentiment/rntnDemo.html

● “торба с думи”, сентимент на дума (стеминг, определяне части на речта)

● Приложения: анализ на ревюта на продукт, на мнения за компания или събитие в социални мрежи

Page 8: Приложения на компютърната лингвистика

Корекция на правопис● необхидими данни: списък с думи; речник на афикси => пълен речник

на словоформите

● ефективна структура от данни (trie)

● предложения - левенщайново разстояние:o броят букви, които е нужно да се променят, за да се превърне

една дума в друга (добавяне, изтриване, замяна)o паронимиo барлина:балерина (?), ленгвист:лингвист (?), лекксиика:лексика(?)

Page 9: Приложения на компютърната лингвистика

Машинен превод● свещеният граал на компютърната лингвистика

● приложения: o за ежедневна употреба o машинно-асистиран преводo превод, специфичен за дадена област - прогнози за времето,

футболни коментари

● Google translate, Skype translate ● “out of sight, out of mind” -> китайски -> “blind idiot”; constipated potatoes,

strangled language

Page 10: Приложения на компютърната лингвистика

Машинен превод - как работи?

● какво е корпус? А двуезичен (паралелен) корпус?

● методи: правила; аналогия; статистика/n-gram-и.

● “от всичко”: стеминг, части на речта, синтактичен анализ

● интерлингва

Page 11: Приложения на компютърната лингвистика

Машинен превод (3)

Page 12: Приложения на компютърната лингвистика

Интерлингва?

Page 13: Приложения на компютърната лингвистика

Машинен превод (4)● решима задача ли е? Да. Решението е нашият мозък.

● невронни мрежи?

● машинно учене на език. Първи език?

● съществува ли абстрактна интерлингва?o Сапир-Уорф

Page 14: Приложения на компютърната лингвистика

Статистика, статистика...● вероятности

● теоретичната лингвистика е само малка част. Правилно ли е това?

● компютърните лингвисти нямат задълбочени познания по теоретична лингвистика (обобщение)

● мозъкът ползва статистика при вземане на решения

Page 15: Приложения на компютърната лингвистика

А задачи?● задачи за компютърна лингвистика

● решаване на традиционни задачи задачиo хаос и редo стеминг на ум

Page 16: Приложения на компютърната лингвистика

Въпроси?