View
42
Download
2
Category
Preview:
DESCRIPTION
Valency Lexicon of Czech Verbs. Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK. Osnova. Úvod Re šeršní část Teoretická část Praktická část Závěr. Úvod a motivace. - PowerPoint PPT Presentation
Citation preview
Valency Lexicon of Czech Verbs
Zdeněk Žabokrtský
obhajoba disertační práce
29. září 2005
ÚFAL MFF UK
Osnova
• Úvod
• Rešeršní část
• Teoretická část
• Praktická část
• Závěr
Úvod a motivace
• valence – schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury
– stát – někde, o někoho, za něco, za něčím, při někom…
– odpovídat – někomu na něco, za někoho, něčemu
– brát – něco někomu, za něco, roha, zasvé,…
• valenci lexikální jednotky nelze obecně předpovědět pro automatické zpracování potřebujeme slovník
• předpokládané možnosti využití valenčního slovníku– lemmatizace, tagging
– parsing
– word sense disambiguation
– strojový překlad...
• hlavní cíl předkládané práce: vytvořit dostatečně rozsáhlý, kvalitní valenční slovník českých sloves pro využití v NLP
REŠERŠNÍ ČÁST
Zkoumání valence v češtině
• dva dominující teoretické směry– Teorie větných vzorců [Daneš,Hlavsa-87]– Funkční generativní popis [Sgall-67] [Panevová-80]
• existující data– valenční slovník BRIEF [Pala,Ševeček-97]– Český syntaktický slovník [Skoumalová-01]– Slovesa pro praxi [Svozilová et al.-97]– PDT-VALLEX [Hajič et al.-03]– VerbaLex [Hlaváčková,Horák-05]
Zkoumání valence v jiných jazycích
• angličtina– [Fillmore-02] FrameNet– [Levin-93]– [Kingsbury-Palmer-02]
PropBank
• němčina– [Helbig,Schenkel-69]– [Erk et al.-03] SALSA
• polština– [Polanski-92]
• slovenština– [Nižníková,Sokolová-98]
• ruština– [Silnickij-99]– [Mel’čuk,Žolkovskij-84]– ETAP [Boguslavsky-04]
• bulharština– [Popova-87]
• francouzština, holandština– [van den Eynde,Mertens,03]
• angličtina-japonština– [Bond,Shirai-97]
TEORETICKÁ ČÁST
Struktura slovníku
• základní termíny: – lexém– lexikální jednotka– lemma– m-lemma
• v našem slovníku:– lexikální jednotka = formálně popsaný valenční rámec + neformálně
popsaný význam + další atributy
• při návrhu makrostruktury slovníku je třeba zohlednit řadu jazykových jevů:– reflexivita (brát / brát se / brát si )– varianty lemmat (myslet / myslit )– homografie (žít I / žít II)– vidové „dvojice“ (vzít / brát / brávat )– determinovaná slovesa ( jít / chodit)
lexical formslexical units
lexeme
give
gave
givengives
give-1 give-2
give-3
give-4give-5
…
lexical formslexical units
lexeme
give
gave
givengives
give-1 give-2
give-3
give-4give-5
…
Struktura slovníkového hesla
• pro každou LU – valenční rámec – posloupnost slotů– další atributy: příklad užití, glosa, typ kontroly ...
• pro každý slot v rámci– funktor + obligatornost– povrchová forma
Valence v syntaktických stromech:
dvouvrstvý model valence
• zavedení termínů pro explicitní popis výskytů rámců na tektogramatické a analytické rovině– (deep or surface) frame evoker– (deep or surface) frame slot filler– (deep or surface) frame instance
• deep/surface – ve stylu t-roviny a a-roviny PDT 2.0
• zavedení termínů pro koordinační struktury– direct vs. effective children/parents/subtree root– direct vs. terminal coordination member
Surface vs. deep frame evoker (1)
(c)
(a)
(b)
Jan
miluje
Marii Jan
milovat
Marie
Marie se mu
směje
Marie
smát_se
#PersPron
Jan
milovat
Marii Jan
milovat
Mariebude
Surface vs. deep frame evoker (2)
(d) Jan dal
Marii
a
Petrovi hrušku
jablko
Jandát
Marii
a
jablko
dát
Petr hruška
(g)
(e)
(f)
Jan
zpívat
Marii
ale
nebude
bude Jan
zpívat
Marii
ale
zpívat
#Neg
Jan
a
poslouchatbude
hudbu
psát
dopis
Jan
a
poslouchat
hudba
psát
dopis
Jan
bojí
se smát Jan
bát_se
smát_se
#Cor
Surface vs. deep frame filler (1)
Jan
potkal
bratra
svého mladšího
(a)
(b)
(c)
Jan
potkat
bratr
#PersPronmladý
Jan
potkal
a
Marii Petra
Jan
potkat
a
Marie Petr
Jan
čekal
na
Marii
Jan
čekat
Marie
Surface vs. deep frame filler (2)
(d)
(e)
(f)
Jan
slíbil
že
přijde
Jan
slíbit
přijít
#PersPron
Jan
čekal
naa
Marii Petra
Jan
čekat
a
Marie Petr
Jan
čekat
a
Marie Petr
Jan
čekal
na
a
Marii Petra
na
• pozorování: u řady sloves páry velmi blízkých LU– naložit vůz cementem – cement na vůz– odevzdat nález policii – na policii– ukradl bance peníze – peníze z banky– vyčistit šaty od bláta – bláto z šatů– osázet park stromy – stromy do parku– vyjít na kopec – vyjít kopec– oloupat slupku z jablka – jablko
• předpoklad: jde o pravidelné transformace (pravidelné pro skupinu sloves), jejichž znalost lze využít ke snížení redundance slovníku
• trojí projev alternace– změna valenčního rámce– změna lexikálního významu– změna SFE
Alternace
Alternační model valenčního slovníku
lexical formslexical units
lexeme
………
BLU DLU
DLUDLU
BLU DLU
BLU
CLU
CLU
CLU
• zavedení nových termínů– základní lex. jednotka (BLU)
– odvozená lex. jednotka (DLU)
– shluk lex. jednotek (CLU)
• dvě formy slovníku
– minimální (BLU+alternace)
– expandovaná (BLU+DLU)
PRAKTICKÁ ČÁST
Anotační schéma VALLEXu
• výběr sloves ke zpracování
• prostředí pro ruční editace slovníkových hesel
• nástroje umožňující využití existujících jazykových zdrojů
(tradiční slovníky, vzorek z ČNK...)
• logická struktura slovníku (mikrostruktura a makrostruktura)
• fyzická struktura slovníku - datové formáty
• konverze mezi formáty
• nástroje pro vyhledávání
• nástroje pro testování konzistence slovníku
Výběr sloves
• postupné zpracování v dávkách po několika stovkách sloves (resp. m-lemmat)
• hlavní kritérium – četnost podle ČNK
• kumulativní pokrytí slovesných m-lemmat v ČNK:
Anotační prostředí• primární podoba hesel – jednoduchý řádkově-orientovaný
textový formát (regulární jazyk)• editace v textovém editoru WinEdt• režim pro zvýrazňování syntaxe
Příprava slovníku pro publikaci
primarytextfiles
vallex.xml
HTML files
vallex.tex vallex.pdf
txt2xml.plxml2html.pl
xml2latex.pllatex,dvips,ps2pdf
VALLEX 1.0
• první zveřejněná verze valenčního slovníku, podzim 2003
• autoři hesel: Markéta Lopatková, Karolína Skwarska, Václava
Benešová
• cca 1400 sloves (cca 1000 m-lemmat), 4000 valenčních rámců
• distribuce – slovník je zdarma ke stáhnutí po zaregistrování na
Internetu:
http://ckl.mff.cuni.cz/zabokrtsky/vallex/1.0
• neomezená licence pro výzkumné a výukové nekomerční
účely
Možnosti vyhledávání ve VALLEXu
• v primárním textovém formátu
– během anotace přímo ve WinEdt
– vyhledávací WWW interface založený na regulárních výrazech
• v HTML verzi (podle vybraných kritérií)
• v XML verzi (např. pomocí XPath)
Změny od vydání VALLEX 1.0
• kvalitativní změny (VALLEX XML, verze B)– přechod na novou terminologii (lexémy, lexikální
jednotky...)– sloučení vidových protějšků– připraveno na alternační model
• kvantitativní změny – současná (interní) verze VALLEX 1.5:– 1624 lexémů (1841 m-lemmat)– 4414 lexikálních jednotek
ZÁVĚR
Hlavní přínos práce
(1) implementace anotačního schématu, zveřejnění VALLEX 1.0 (nyní cca 130 zaregistrovaných uživatelů)
(2) doplnění teoretického modelu
• upřesnění užívaných termínů
• zavedení nových termínů pro popis instancí valenčních rámců v závislostních stromech
• alternační model slovníku
(3) přehled dalších projektů souvisejících s valencí
Další využití dat/zkušeností/nástrojů
– PDT-VALLEX [Hajič-03]
– VerbaLex [Hlaváčková,Horák-05]
– švédsko-český slovník verbonominálních konstrukcí
[Cinková,Žabokrtský-05]
– VALEVAL [Bojar et al.-05]
Recommended