44
GRAZ 2007 AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala Laboratorija za akustiku i govorne tehnologije

AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS

  • Upload
    morey

  • View
    54

  • Download
    0

Embed Size (px)

DESCRIPTION

AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS. Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala Laboratorija za akustiku i govorne tehnologije. Jezičke tehnologije. Automatsko prevođenje teksta Automatsko rezimiranje teksta - PowerPoint PPT Presentation

Citation preview

Page 1: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS

Milan SečujskiFakultet tehničkih nauka, Novi SadKatedra za telekomunikacije i obradu signalaLaboratorija za akustiku i govorne tehnologije

Page 2: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Jezičke tehnologije

Automatsko prevođenje tekstaAutomatsko rezimiranje tekstaAutomatsko nalaženje informacije u tekstuOptičko prepoznavanje pisanog tekstaAutomatsko vođenje dijaloga

Sinteza govora na osnovu tekstaPrepoznavanje govora

Page 3: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Problemi jezičkih tehnologija

Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja

rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

Page 4: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Problemi jezičkih tehnologija

Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja

rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

Page 5: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Problemi jezičkih tehnologija

Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja

rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

DANAS JE LEPO VREMEDA NAS JE LEPO VREMEDANAS JELE PO VREMEDA NAS JELE PO VREME

Page 6: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Problemi jezičkih tehnologija

Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja

rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

Ovaj kurs trajaće mesec dana.Mesec je blistao na nebu.

Page 7: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Problemi jezičkih tehnologija

Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja

rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

Kupili su francuski sir i konjak.

Dali su joj da pojede bananu jer je bila gladna.Dali su joj da pojede bananu jer je bila prezrela.

Page 8: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Problemi jezičkih tehnologija

Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja

rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

Jeli primio platu?

Page 9: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Problemi jezičkih tehnologija

Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja

rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

Možeš li mi dodati so?

Koliko ste automobila prodali u februaru?

Pod je klizav.Pod je klizav!

Page 10: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Može li računar da razmišlja kao čovek?

Page 11: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Model prirodnog jezika

Opisati prirodni jezik na matematički način, razumljiv računaru Kako bi ta pravila trebalo da izgledaju? Kako se može doći do tih pravila? Opisati jezik nije isto što i naučiti koristiti ga!

Ovim problemom bavi se računarska lingvistika

Page 12: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Statistička obrada prirodnog jezika

Podoblast veštačke inteligencije i lingvistikePotrebna je vrlo velika količina tekstualnog (ili

govornog) materijala za analizu Rečnici Tezaurusi Tekstualni korpusi

Potrebni su algoritmi za stohastičku analizu Deterministički algoritmi, pogotovo kod dužih

rečenica, vrlo često ne daju jedinstveno rešenje.

Page 13: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Statistička obrada prirodnog jezika

Podoblast veštačke inteligencije i lingvistikePotrebna je vrlo velika količina tekstualnog (ili

govornog) materijala za analizu Rečnici Tezaurusi Tekstualni korpusi

Potrebni su algoritmi za stohastičku analizu Deterministički algoritmi, pogotovo kod dužih

rečenica, vrlo često ne daju jedinstveno rešenje.

TIME FLIES LIKE AN ARROW

Page 14: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Rečnik

Spisak reči sa podacima o vrednostima morfoloških kategorija, čitljiv od straneračunara

LC Star

AlfaNum

Page 15: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Rad na rečniku

Page 16: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Korpus

Anotiran ili neanotiran U tekstu se reči javljaju u svim svojim pojavnim

oblicima

Kako razrešiti dvosmislenost? Na osnovu učestanosti vrste reči / vrednosti morf. kategorija Na osnovu učestanosti reči Na osnovu konteksta

KNJIGANc nom.sg.f.

KNJÎGANc gen.pl.f.

Pored svoje izdavačke delatnosti, Narodna knjiga počinje sa distribucijom stručne literature na engle-skom jeziku iz različitih oblasti.

?

Page 17: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

KorpusKorpus srpskog jezika (CSL)

Page 18: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

KorpusAlfaNumMULTEXT East

Page 19: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Morfološka anotacija korpusa

Ručno ili automatski U oba slučaja podložno greškama

Morfološki deskriptori (tagovi) Šta će se obeležavati – stvar je dogovora Od toga šta će se obeležavati zavisi:

tačnost anotacije – ručne ili automatske upotrebljivost dobijenog korpusa

• Npr. ako je urađena lematizacija, dobijeni korpus može biti koristan u leksikografiji

Page 20: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Tačnost automatske anotacije

Podatak koji uvek treba uzeti sa rezervom Treba reći koliko ima različitih tagova u usvojenom

sistemu i šta se tačno obeležava Treba reći pod kakvim uslovima je vršeno merenje

Tip teksta korišćenog za obuku Tip teksta korišćenog za testiranje

Postoje algoritmi koji rade i sa neanotiranim korpusom

Page 21: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Zavisnost problema od jezika

Problem je u velikoj meri zavisan od jezikaPrimer: engleski i BKS

Engleski – siromašna morfologija, jednostavan sistem tagova

BKS – bogata morfologija, vrlo velik broj različitih tagova (preko 1000)

U engleskom jeziku informacija o službi u rečenici u mnogo većoj meri je sadržana u redu reči

Page 22: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Zavisnost problema od jezika

Veća tačnost automatskih metoda za engleski Između većeg broja tagova lakše je pogrešiti Potreban je daleko veći obim materijala za obuku

automatskog algoritma za anotaciju na BKS da bi materijal bio statistički reprezentativan!

Problem retkih podataka

Page 23: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Algoritmi za automatsku morfološku anotaciju

Algoritmi zasnovani na pravilima Ekspertski sistemi Transformaciona anotacija

Algoritmi zasnovani na statističkom modelu jezika Skriveni Markovljevi modeli

Page 24: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Ekspertski sistemi

Najstariji pristup I faza: određivanje potencijalnih tagova rečnikom II faza: primena ručno pisanih pravilaKarlsson (1995), Voutilainen (1999)

Princip je u upotrebi u AlfaNum sistemu za sintezu govora na srpskom/hrvatskom jeziku 88% tačnosti morfološke anotacije 97.5% tačnosti akcentuacije

Page 25: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

AlfaNum sistem za morfološku anotaciju

VELIKA GOMILA KNJIGA ...

VELIKAADJ nom.sg.f.

VELIKAADJ voc.sg.f.

VELIKAADJ nom.pl.n.

VELIKAADJ acc.pl.n.

VELIKAADJ voc.pl.n.

. . .

GOMILANc nom.sg.f.

`

GOMILANc gen.pl.f.

`GOMILAVtr/ref pres.3p.sg.

. . .

KNJIGANc nom.sg.f.

KNJÎGANc gen.pl.f.

. . .

Primer: VELIKA GOMILA KNJIGA STOJI NA STOLU.

Page 26: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

AlfaNum sistem za morfološku anotaciju

ADJ nom.sg.f.["00] / Nc nom.sg.f.[\00]ADJ nom.sg.f.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ nom.pl.n.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ acc.pl.n.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ nom.pl.n.["00] / Nc nom.sg.f.[\00]ADJ acc.pl.n.["00] / Nc nom.sg.f.[\00]ADJ nom.pl.n.["00] / Nc gen.pl.f.["00]ADJ nom.sg.f.["00] / Nc gen.pl.f.["00]ADJ acc.pl.n.["00] / Nc gen.pl.f.["00]ADJ voc.sg.f.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ voc.pl.n.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ voc.sg.f.["00] / Nc nom.sg.f.[\00]

ADJ voc.pl.n.["00] / Nc nom.sg.f.[\00]ADJ voc.sg.f.["00] / Nc gen.pl.f.["00]ADJ voc.pl.n.["00] / Nc gen.pl.f.["00]

126654322100

-2

-2-4-4

VELIKAADJ nom.sg.f.

VELIKAADJ voc.sg.f.

VELIKAADJ nom.pl.n.

VELIKAADJ acc.pl.n.

VELIKAADJ voc.pl.n.

GOMILANc nom.sg.f.

`

GOMILANc gen.pl.f.

`GOMILAVtr/ref pres.3p.sg.

KNJIGANc nom.sg.f.

KNJÎGANc gen.pl.f.

odbacuje se

Algoritam se izvršava u vremenu proporcionalnom dužini rečenice

Algoritam brzo daje parcijalne rezultate

Page 27: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

AlfaNum sistem za morfološku anotaciju

Izbor pravila Na osnovu statistika pojedinih vrsta reči Na osnovu gramatičkih pravila nađenih u

raspoloživoj literaturi Na osnovu empirijskih zaključaka koji se tiču

konkretnih reči

Page 28: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

AlfaNum sistem za morfološku anotaciju

Obrasci pravila Dodela n poena parcijalnoj hipotezi h = (w1, w2,... wl)

ako wl ima tag ti

ako wl ima tag ti a wl-1 ima tag tj ako wl ima tag ti, wl-1 ima tag tj, a wl-2 ima tag tk

ako wl ima tag ti, wl-1 ima tag tj, a vrednost morfološke kategorije c sadržane u tagu ti je ista (nije ista) kao vrednost odgovarajuće morfološke kategorije sadržane u tagu tj

Page 29: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Mogućnost poluautomatske anotacije

Na opisani način može se izgraditi (skoro) 100% tačno anotiran korpus I faza: automatska morfološka anotacija II faza: ručno ispravljanje grešaka

Prednosti: Brzina i efikasnost Dobija se procena tačnosti algoritma Analiza grešaka → pravci daljeg usavršavanja

Page 30: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Izgradnja korpusa

Page 31: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Trenutno stanje na AlfaNum projektu

Realizovan akcenatski rečnik Preko 80.000 odrednica Preko 3.000.000 izvedenih oblika reči

Realizovan sistem za automatsku morfološku anotaciju 88% tačnosti

Realizovan (skoro) 100% tačno anotiran korpus rečenica na srpskom jeziku 100.000 reči mešovit sadržaj

Page 32: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Poređenje sa MULTEXT East projektom

Realizovan ručno anotiran korpus rečenica na raznim istočnoevropskim jezicima uključujući i srpski 100.000 reči (George Orwell: „1984.“)

Nema odgovarajućeg rečnika Za srpski jezik postoji rečnik koji sadrži samo izvedene oblike

reči koje se javljaju u tekstu Nemoguća je potpuno objektivna evaluacija

algoritama za automatsku morfološku anotaciju Dobili bi se bolji rezultati nego što stvarno jesu

Page 33: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Poređenje sa MULTEXT East projektom

Delimična kompatibilnost MULTEXT East posmatra kontekst širi od reči:

...no nedovoljno brzo da bi sprečio jednu spiralu oštre prašine da uđe zajedno s njim.

<w lemma="biti" ana="Vmca3s-an-n---p">bi</w>

Hodnik je zaudarao na kuvani kupus i stare otirače.

<w lemma="jesam" ana="Va-p3s-an-y---p">je</w>

KONDICIONAL AORIST

? PREZENT

Page 34: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Šta možemo kada imamo korpus?

Možemo razvijati algoritme za još tačniju automatsku morfološku anotaciju Transformaciona anotacija Skriveni Markovljevi modeli Eksponencijalni morfološki anotatori Metode maksimizacije unakrsne entropije

Page 35: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Transformaciona morfološka anotacija

Automatsko učenje na sopstvenim greškama Obuka

I faza: određivanje najverovatnijeg taga II faza: identifikacija pravila koja bi smanjila broj grešaka

Page 36: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Transformaciona morfološka anotacija

Automatsko učenje na sopstvenim greškama Obuka

I faza: određivanje najverovatnijeg taga II faza: identifikacija pravila koja bi smanjila broj grešaka

Anotacija Primena naučenih pravila na novom tekstu

Page 37: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Transformaciona morfološka anotacija

Problem visoko inflektivnih jezika Prevelik skup tagova Potrebna ogromna količina materijala za

reprezentativnu obukuKorak ka rešenju

Uvođenje generalnih pravila

Page 38: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Skriveni Markovljevi modeli

Primer: estimacija mesta preseka (5) između eksona (E) i introna (I) kod DNA

MESTO PRESEKA

Page 39: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Skriveni Markovljevi modeli

Obuka Ispitivanje verovatnoća da se posle određenog taga

(ili niza tagova) nađe neki drugiAnotacija

Određivanje najverovatnijeg niza tagovaVELIKA

ADJ nom.sg.f.`̀

VELIKAADJ voc.sg.f.

VELIKAADJ nom.pl.n.

VELIKAADJ acc.pl.n.

VELIKAADJ voc.pl.n.

GOMILANc nom.sg.f.

`

GOMILANc gen.pl.f.

`GOMILAVtr/ref pres.3p.sg.

KNJIGANc nom.sg.f.

KNJÎGANc gen.pl.f.

P (ADJ nom.sg.f → Nc nom.sg.f.) = 0.33P (ADJ nom.sg.f → Nc gen.pl.f.) = 0.02P (ADJ nom.sg.f → Vtr/ref pres.3p.sg.) = 0.05P (ADJ voc.sg.f → Nc nom.sg.f.) = 0.01P (ADJ voc.sg.f → Nc gen.pl.f.) = 0.02 . . .

Page 40: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Skriveni Markovljevi modeli

Red Markovljevih modela Zavisno od toga da li posmatramo zavisnost samo

od prethodne reči ili od nekoliko prethodnih reči Sa porastom reda drastično raste potrebna količina

materijala za obukuProblemi vezani za inflektivne jezike

Svi problemi koji se javljaju i kod ostalih jezika daleko su izraženiji kod visoko inflektivnih

Page 41: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Šta još možemo kada imamo korpus?

Analiza različitih upotreba iste rečiAnaliza učestanosti pojedinih rečiAnaliza fraza, idioma i kolokacija

Krušaka: Pita od krušaka u karamelu, slatkiš od krušaka, stare sorte jabuka, krušaka, Tržište ranim kvalitetnim sortama krušaka, Nakon pranja i sušenja krušaka, fero-hloroza krušaka, desert od krušaka, sastaviti polovine krušaka, 1kg krušaka, Rakija od krušaka, salata od jabuka i krušaka, odlična zaštita jabuka i krušaka, dvije sorte krušaka na istom stablu, umjesto krušaka može i jabuke, površina plantažnih voćnjaka krušaka, Najopasnija bolest jabuka i krušaka.

Page 42: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Šta još možemo kada imamo korpus?

Analiza različitih upotreba iste rečiAnaliza učestanosti pojedinih rečiAnaliza fraza, idioma i kolokacija

Krušaka: Pita od krušaka u karamelu, slatkiš od krušaka, stare sorte jabuka, krušaka, Tržište ranim kvalitetnim sortama krušaka, Nakon pranja i sušenja krušaka, fero-hloroza krušaka, desert od krušaka, sastaviti polovine krušaka, 1kg krušaka, Rakija od krušaka, salata od jabuka i krušaka, odlična zaštita jabuka i krušaka, dvije sorte krušaka na istom stablu, umjesto krušaka može i jabuke, površina plantažnih voćnjaka krušaka, Najopasnija bolest jabuka i krušaka.

Internet kao korpus: izuzetno velik neanotiran besplatan pun grešaka

Page 43: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Zaključak

Ovde se radi o matematičkom problemuZavisnost od jezika

Neki algoritmi su pogodniji za neke porodice jezika Neke porodice jezika su pogodnije za automatsku

morfološku anotacijuOvo su za sada najreprezentativniji rezultati

istraživanja za BKS

Page 44: AUTOMATSKA MORFOLOŠKA ANOTACIJA  U SVETLU SPECIFIČNOSTI BKS

GRAZ 2007

Hvala na pažnji!

44