of 44/44
GRAZ 2007 AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala Laboratorija za akustiku i govorne tehnologije

AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS

  • View
    44

  • Download
    0

Embed Size (px)

DESCRIPTION

AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS. Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala Laboratorija za akustiku i govorne tehnologije. Jezičke tehnologije. Automatsko prevođenje teksta Automatsko rezimiranje teksta - PowerPoint PPT Presentation

Text of AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS

  • AUTOMATSKA MORFOLOKA ANOTACIJA U SVETLU SPECIFINOSTI BKSMilan Seujski Fakultet tehnikih nauka, Novi Sad Katedra za telekomunikacije i obradu signala Laboratorija za akustiku i govorne tehnologije

    DOGS2000, FTN - Novi Sad

  • Jezike tehnologijeAutomatsko prevoenje tekstaAutomatsko rezimiranje tekstaAutomatsko nalaenje informacije u tekstuOptiko prepoznavanje pisanog tekstaAutomatsko voenje dijaloga

    Sinteza govora na osnovu tekstaPrepoznavanje govora

    DOGS2000, FTN - Novi Sad

  • Problemi jezikih tehnologijaSegmentacija pisanog tekstaSegmentacija govoraReavanje dvosmislenosti u pogledu znaenja reiReavanje sintaksnih dvosmislenostiPrevazilaenje nesavrenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

    DOGS2000, FTN - Novi Sad

  • Problemi jezikih tehnologijaSegmentacija pisanog tekstaSegmentacija govoraReavanje dvosmislenosti u pogledu znaenja reiReavanje sintaksnih dvosmislenostiPrevazilaenje nesavrenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

    DOGS2000, FTN - Novi Sad

  • Problemi jezikih tehnologijaSegmentacija pisanog tekstaSegmentacija govoraReavanje dvosmislenosti u pogledu znaenja reiReavanje sintaksnih dvosmislenostiPrevazilaenje nesavrenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

    DANAS JE LEPO VREME DA NAS JE LEPO VREME DANAS JELE PO VREME DA NAS JELE PO VREME

    DOGS2000, FTN - Novi Sad

  • Problemi jezikih tehnologijaSegmentacija pisanog tekstaSegmentacija govoraReavanje dvosmislenosti u pogledu znaenja reiReavanje sintaksnih dvosmislenostiPrevazilaenje nesavrenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

    Ovaj kurs trajae mesec dana. Mesec je blistao na nebu.

    DOGS2000, FTN - Novi Sad

  • Problemi jezikih tehnologijaSegmentacija pisanog tekstaSegmentacija govoraReavanje dvosmislenosti u pogledu znaenja reiReavanje sintaksnih dvosmislenostiPrevazilaenje nesavrenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

    Kupili su francuski sir i konjak.Dali su joj da pojede bananu jer je bila gladna. Dali su joj da pojede bananu jer je bila prezrela.

    DOGS2000, FTN - Novi Sad

  • Problemi jezikih tehnologijaSegmentacija pisanog tekstaSegmentacija govoraReavanje dvosmislenosti u pogledu znaenja reiReavanje sintaksnih dvosmislenostiPrevazilaenje nesavrenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

    Jeli primio platu?

    DOGS2000, FTN - Novi Sad

  • Problemi jezikih tehnologijaSegmentacija pisanog tekstaSegmentacija govoraReavanje dvosmislenosti u pogledu znaenja reiReavanje sintaksnih dvosmislenostiPrevazilaenje nesavrenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika

    Moe li mi dodati so?Koliko ste automobila prodali u februaru?Pod je klizav. Pod je klizav!

    DOGS2000, FTN - Novi Sad

  • Moe li raunar da razmilja kao ovek?

    DOGS2000, FTN - Novi Sad

  • Model prirodnog jezikaOpisati prirodni jezik na matematiki nain, razumljiv raunaruKako bi ta pravila trebalo da izgledaju?Kako se moe doi do tih pravila?Opisati jezik nije isto to i nauiti koristiti ga!Ovim problemom bavi se raunarska lingvistika

    DOGS2000, FTN - Novi Sad

  • Statistika obrada prirodnog jezikaPodoblast vetake inteligencije i lingvistikePotrebna je vrlo velika koliina tekstualnog (ili govornog) materijala za analizuReniciTezaurusiTekstualni korpusi Potrebni su algoritmi za stohastiku analizuDeterministiki algoritmi, pogotovo kod duih reenica, vrlo esto ne daju jedinstveno reenje.

    DOGS2000, FTN - Novi Sad

  • Statistika obrada prirodnog jezikaPodoblast vetake inteligencije i lingvistikePotrebna je vrlo velika koliina tekstualnog (ili govornog) materijala za analizuReniciTezaurusiTekstualni korpusi Potrebni su algoritmi za stohastiku analizuDeterministiki algoritmi, pogotovo kod duih reenica, vrlo esto ne daju jedinstveno reenje. TIME FLIES LIKE AN ARROW

    DOGS2000, FTN - Novi Sad

  • RenikSpisak rei sa podacima o vrednostima morfolokih kategorija, itljiv od strane raunaraLC Star

    DOGS2000, FTN - Novi Sad

  • Rad na reniku

    DOGS2000, FTN - Novi Sad

  • KorpusAnotiran ili neanotiranU tekstu se rei javljaju u svim svojim pojavnim oblicima

    Kako razreiti dvosmislenost?Na osnovu uestanosti vrste rei / vrednosti morf. kategorijaNa osnovu uestanosti reiNa osnovu konteksta

    DOGS2000, FTN - Novi Sad

  • KorpusKorpus srpskog jezika (CSL)

    DOGS2000, FTN - Novi Sad

  • Korpus

    DOGS2000, FTN - Novi Sad

  • Morfoloka anotacija korpusaRuno ili automatskiU oba sluaja podlono grekamaMorfoloki deskriptori (tagovi)ta e se obeleavati stvar je dogovoraOd toga ta e se obeleavati zavisi:tanost anotacije rune ili automatskeupotrebljivost dobijenog korpusaNpr. ako je uraena lematizacija, dobijeni korpus moe biti koristan u leksikografiji

    DOGS2000, FTN - Novi Sad

  • Tanost automatske anotacijePodatak koji uvek treba uzeti sa rezervomTreba rei koliko ima razliitih tagova u usvojenom sistemu i ta se tano obeleavaTreba rei pod kakvim uslovima je vreno merenjeTip teksta korienog za obukuTip teksta korienog za testiranjePostoje algoritmi koji rade i sa neanotiranim korpusom

    DOGS2000, FTN - Novi Sad

  • Zavisnost problema od jezikaProblem je u velikoj meri zavisan od jezikaPrimer: engleski i BKSEngleski siromana morfologija, jednostavan sistem tagovaBKS bogata morfologija, vrlo velik broj razliitih tagova (preko 1000)U engleskom jeziku informacija o slubi u reenici u mnogo veoj meri je sadrana u redu rei

    DOGS2000, FTN - Novi Sad

  • Zavisnost problema od jezikaVea tanost automatskih metoda za engleskiIzmeu veeg broja tagova lake je pogreitiPotreban je daleko vei obim materijala za obuku automatskog algoritma za anotaciju na BKS da bi materijal bio statistiki reprezentativan!Problem retkih podataka

    DOGS2000, FTN - Novi Sad

  • Algoritmi za automatsku morfoloku anotacijuAlgoritmi zasnovani na pravilimaEkspertski sistemiTransformaciona anotacijaAlgoritmi zasnovani na statistikom modelu jezikaSkriveni Markovljevi modeli

    DOGS2000, FTN - Novi Sad

  • Ekspertski sistemiNajstariji pristupI faza: odreivanje potencijalnih tagova renikomII faza: primena runo pisanih pravilaKarlsson (1995), Voutilainen (1999)Princip je u upotrebi u AlfaNum sistemu za sintezu govora na srpskom/hrvatskom jeziku88% tanosti morfoloke anotacije97.5% tanosti akcentuacije

    DOGS2000, FTN - Novi Sad

  • AlfaNum sistem za morfoloku anotacijuPrimer: VELIKA GOMILA KNJIGA STOJI NA STOLU.

    DOGS2000, FTN - Novi Sad

  • AlfaNum sistem za morfoloku anotacijuAlgoritam se izvrava u vremenu proporcionalnom duini reeniceAlgoritam brzo daje parcijalne rezultate

    DOGS2000, FTN - Novi Sad

    ADJ nom.sg.f.["00] / Nc nom.sg.f.[\00] ADJ nom.sg.f.["00] / Vtr/ref pres.3p.sg.[0\0] ADJ nom.pl.n.["00] / Vtr/ref pres.3p.sg.[0\0] ADJ acc.pl.n.["00] / Vtr/ref pres.3p.sg.[0\0] ADJ nom.pl.n.["00] / Nc nom.sg.f.[\00]ADJ acc.pl.n.["00] / Nc nom.sg.f.[\00] ADJ nom.pl.n.["00] / Nc gen.pl.f.["00] ADJ nom.sg.f.["00] / Nc gen.pl.f.["00] ADJ acc.pl.n.["00] / Nc gen.pl.f.["00] ADJ voc.sg.f.["00] / Vtr/ref pres.3p.sg.[0\0] ADJ voc.pl.n.["00] / Vtr/ref pres.3p.sg.[0\0] ADJ voc.sg.f.["00] / Nc nom.sg.f.[\00]

    ADJ voc.pl.n.["00] / Nc nom.sg.f.[\00] ADJ voc.sg.f.["00] / Nc gen.pl.f.["00] ADJ voc.pl.n.["00] / Nc gen.pl.f.["00]

    126654322100-2

    -2-4-4

    VELIKAADJ nom.sg.f.

    `

    `

    VELIKAADJ voc.sg.f.

    `

    `

    VELIKAADJ nom.pl.n.

    `

    `

    VELIKAADJ acc.pl.n.

    `

    `

    VELIKAADJ voc.pl.n.

    `

    `

    GOMILANc nom.sg.f.

    `

    GOMILANc gen.pl.f.

    `

    GOMILAVtr/ref pres.3p.sg.

    KNJIGANc nom.sg.f.

    KNJGANc gen.pl.f.

    `

    `

    `

    `

    odbacuje se

  • AlfaNum sistem za morfoloku anotacijuIzbor pravilaNa osnovu statistika pojedinih vrsta reiNa osnovu gramatikih pravila naenih u raspoloivoj literaturiNa osnovu empirijskih zakljuaka koji se tiu konkretnih rei

    DOGS2000, FTN - Novi Sad

  • AlfaNum sistem za morfoloku anotacijuObrasci pravilaDodela n poena parcijalnoj hipotezi h = (w1, w2,... wl)ako wl ima tag tiako wl ima tag ti a wl-1 ima tag tj ako wl ima tag ti, wl-1 ima tag tj, a wl-2 ima tag tkako wl ima tag ti, wl-1 ima tag tj, a vrednost morfoloke kategorije c sadrane u tagu ti je ista (nije ista) kao vrednost odgovarajue morfoloke kategorije sadrane u tagu tj

    DOGS2000, FTN - Novi Sad

  • Mogunost poluautomatske anotacijeNa opisani nain moe se izgraditi (skoro) 100% tano anotiran korpusI faza: automatska morfoloka anotacijaII faza: runo ispravljanje greakaPrednosti:Brzina i efikasnostDobija se procena tanosti algoritmaAnaliza greaka pravci daljeg usavravanja

    DOGS2000, FTN - Novi Sad

  • Izgradnja korpusa

    DOGS2000, FTN - Novi Sad

  • Trenutno stanje na AlfaNum projektuRealizovan akcenatski renik Preko 80.000 odrednicaPreko 3.000.000 izvedenih oblika reiRealizovan sistem za automatsku morfoloku anotaciju88% tanostiRealizovan (skoro) 100% tano anotiran korpus reenica na srpskom jeziku100.000 reimeovit sadraj

    DOGS2000, FTN - Novi Sad

  • Poreenje sa MULTEXT East projektomRealizovan runo anotiran korpus reenica na raznim istonoevropskim jezicima ukljuujui i srpski100.000 rei (George Orwell: 1984.)Nema odgovarajueg renikaZa srpski jezik postoji renik koji sadri samo izvedene oblike rei koje se javljaju u tekstuNemogua je potpuno objektivna evaluacija algoritama za automatsku morfoloku anotacijuDobili bi se bolji rezultati nego to stvarno jesu

    DOGS2000, FTN - Novi Sad

  • Poreenje sa MULTEXT East projektomDelimina kompatibilnostMULTEXT East posmatra kontekst iri od rei:

    ...no nedovoljno brzo da bi spreio jednu spiralu otre praine da ue zajedno s njim.bi

    Hodnik je zaudarao na kuvani kupus i stare otirae.je

    DOGS2000, FTN - Novi Sad

  • ta moemo kada imamo korpus?Moemo razvijati algoritme za jo taniju automatsku morfoloku anotacijuTransformaciona anotacijaSkriveni Markovljevi modeliEksponencijalni morfoloki anotatoriMetode maksimizacije unakrsne entropije

    DOGS2000, FTN - Novi Sad

  • Transformaciona morfoloka anotacijaAutomatsko uenje na sopstvenim grekamaObukaI faza: odreivanje najverovatnijeg tagaII faza: identifikacija pravila koja bi smanjila broj greaka

    DOGS2000, FTN - Novi Sad

  • Transformaciona morfoloka anotacijaAutomatsko uenje na sopstvenim grekamaObukaI faza: odreivanje najverovatnijeg tagaII faza: identifikacija pravila koja bi smanjila broj greakaAnotacijaPrimena nauenih pravila na novom tekstu

    DOGS2000, FTN - Novi Sad

  • Transformaciona morfoloka anotacijaProblem visoko inflektivnih jezikaPrevelik skup tagovaPotrebna ogromna koliina materijala za reprezentativnu obukuKorak ka reenjuUvoenje generalnih pravila

    DOGS2000, FTN - Novi Sad

  • Skriveni Markovljevi modeliPrimer: estimacija mesta preseka (5) izmeu eksona (E) i introna (I) kod DNAMESTO PRESEKA

    DOGS2000, FTN - Novi Sad

  • Skriveni Markovljevi modeliObukaIspitivanje verovatnoa da se posle odreenog taga (ili niza tagova) nae neki drugiAnotacijaOdreivanje najverovatnijeg niza tagovaP (ADJ nom.sg.f Nc nom.sg.f.) = 0.33P (ADJ nom.sg.f Nc gen.pl.f.) = 0.02P (ADJ nom.sg.f Vtr/ref pres.3p.sg.) = 0.05P (ADJ voc.sg.f Nc nom.sg.f.) = 0.01P (ADJ voc.sg.f Nc gen.pl.f.) = 0.02 . . .

    DOGS2000, FTN - Novi Sad

    VELIKAADJ nom.sg.f.

    `

    `

    VELIKAADJ voc.sg.f.

    `

    `

    VELIKAADJ nom.pl.n.

    `

    `

    VELIKAADJ acc.pl.n.

    `

    `

    VELIKAADJ voc.pl.n.

    `

    `

    GOMILANc nom.sg.f.

    `

    GOMILANc gen.pl.f.

    `

    GOMILAVtr/ref pres.3p.sg.

    KNJIGANc nom.sg.f.

    KNJGANc gen.pl.f.

    `

    `

    `

    `

  • Skriveni Markovljevi modeliRed Markovljevih modelaZavisno od toga da li posmatramo zavisnost samo od prethodne rei ili od nekoliko prethodnih reiSa porastom reda drastino raste potrebna koliina materijala za obukuProblemi vezani za inflektivne jezikeSvi problemi koji se javljaju i kod ostalih jezika daleko su izraeniji kod visoko inflektivnih

    DOGS2000, FTN - Novi Sad

  • ta jo moemo kada imamo korpus?Analiza razliitih upotreba iste reiAnaliza uestanosti pojedinih reiAnaliza fraza, idioma i kolokacijaKruaka: Pita od kruaka u karamelu, slatki od kruaka, stare sorte jabuka, kruaka, Trite ranim kvalitetnim sortama kruaka, Nakon pranja i suenja kruaka, fero-hloroza kruaka, desert od kruaka, sastaviti polovine kruaka, 1kg kruaka, Rakija od kruaka, salata od jabuka i kruaka, odlina zatita jabuka i kruaka, dvije sorte kruaka na istom stablu, umjesto kruaka moe i jabuke, povrina plantanih vonjaka kruaka, Najopasnija bolest jabuka i kruaka.

    DOGS2000, FTN - Novi Sad

  • ta jo moemo kada imamo korpus?Analiza razliitih upotreba iste reiAnaliza uestanosti pojedinih reiAnaliza fraza, idioma i kolokacijaKruaka: Pita od kruaka u karamelu, slatki od kruaka, stare sorte jabuka, kruaka, Trite ranim kvalitetnim sortama kruaka, Nakon pranja i suenja kruaka, fero-hloroza kruaka, desert od kruaka, sastaviti polovine kruaka, 1kg kruaka, Rakija od kruaka, salata od jabuka i kruaka, odlina zatita jabuka i kruaka, dvije sorte kruaka na istom stablu, umjesto kruaka moe i jabuke, povrina plantanih vonjaka kruaka, Najopasnija bolest jabuka i kruaka.

    Internet kao korpus: izuzetno velik neanotiran besplatan pun greaka

    DOGS2000, FTN - Novi Sad

  • ZakljuakOvde se radi o matematikom problemuZavisnost od jezikaNeki algoritmi su pogodniji za neke porodice jezikaNeke porodice jezika su pogodnije za automatsku morfoloku anotacijuOvo su za sada najreprezentativniji rezultati istraivanja za BKS

    DOGS2000, FTN - Novi Sad

  • Hvala na panji!

    DOGS2000, FTN - Novi Sad