27
Valency Lexicon of Czech Verbs Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK

Valency Lexicon of Czech Verbs

Embed Size (px)

DESCRIPTION

Valency Lexicon of Czech Verbs. Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK. Osnova. Úvod Re šeršní část Teoretická část Praktická část Závěr. Úvod a motivace. - PowerPoint PPT Presentation

Citation preview

Page 1: Valency Lexicon of Czech Verbs

Valency Lexicon of Czech Verbs

Zdeněk Žabokrtský

obhajoba disertační práce

29. září 2005

ÚFAL MFF UK

Page 2: Valency Lexicon of Czech Verbs

Osnova

• Úvod

• Rešeršní část

• Teoretická část

• Praktická část

• Závěr

Page 3: Valency Lexicon of Czech Verbs

Úvod a motivace

• valence – schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury

– stát – někde, o někoho, za něco, za něčím, při někom…

– odpovídat – někomu na něco, za někoho, něčemu

– brát – něco někomu, za něco, roha, zasvé,…

• valenci lexikální jednotky nelze obecně předpovědět pro automatické zpracování potřebujeme slovník

• předpokládané možnosti využití valenčního slovníku– lemmatizace, tagging

– parsing

– word sense disambiguation

– strojový překlad...

• hlavní cíl předkládané práce: vytvořit dostatečně rozsáhlý, kvalitní valenční slovník českých sloves pro využití v NLP

Page 4: Valency Lexicon of Czech Verbs

REŠERŠNÍ ČÁST

Page 5: Valency Lexicon of Czech Verbs

Zkoumání valence v češtině

• dva dominující teoretické směry– Teorie větných vzorců [Daneš,Hlavsa-87]– Funkční generativní popis [Sgall-67] [Panevová-80]

• existující data– valenční slovník BRIEF [Pala,Ševeček-97]– Český syntaktický slovník [Skoumalová-01]– Slovesa pro praxi [Svozilová et al.-97]– PDT-VALLEX [Hajič et al.-03]– VerbaLex [Hlaváčková,Horák-05]

Page 6: Valency Lexicon of Czech Verbs

Zkoumání valence v jiných jazycích

• angličtina– [Fillmore-02] FrameNet– [Levin-93]– [Kingsbury-Palmer-02]

PropBank

• němčina– [Helbig,Schenkel-69]– [Erk et al.-03] SALSA

• polština– [Polanski-92]

• slovenština– [Nižníková,Sokolová-98]

• ruština– [Silnickij-99]– [Mel’čuk,Žolkovskij-84]– ETAP [Boguslavsky-04]

• bulharština– [Popova-87]

• francouzština, holandština– [van den Eynde,Mertens,03]

• angličtina-japonština– [Bond,Shirai-97]

Page 7: Valency Lexicon of Czech Verbs

TEORETICKÁ ČÁST

Page 8: Valency Lexicon of Czech Verbs

Struktura slovníku

• základní termíny: – lexém– lexikální jednotka– lemma– m-lemma

• v našem slovníku:– lexikální jednotka = formálně popsaný valenční rámec + neformálně

popsaný význam + další atributy

• při návrhu makrostruktury slovníku je třeba zohlednit řadu jazykových jevů:– reflexivita (brát / brát se / brát si )– varianty lemmat (myslet / myslit )– homografie (žít I / žít II)– vidové „dvojice“ (vzít / brát / brávat )– determinovaná slovesa ( jít / chodit)

lexical formslexical units

lexeme

give

gave

givengives

give-1 give-2

give-3

give-4give-5

lexical formslexical units

lexeme

give

gave

givengives

give-1 give-2

give-3

give-4give-5

Page 9: Valency Lexicon of Czech Verbs

Struktura slovníkového hesla

• pro každou LU – valenční rámec – posloupnost slotů– další atributy: příklad užití, glosa, typ kontroly ...

• pro každý slot v rámci– funktor + obligatornost– povrchová forma

Page 10: Valency Lexicon of Czech Verbs

Valence v syntaktických stromech:

dvouvrstvý model valence

• zavedení termínů pro explicitní popis výskytů rámců na tektogramatické a analytické rovině– (deep or surface) frame evoker– (deep or surface) frame slot filler– (deep or surface) frame instance

• deep/surface – ve stylu t-roviny a a-roviny PDT 2.0

• zavedení termínů pro koordinační struktury– direct vs. effective children/parents/subtree root– direct vs. terminal coordination member

Page 11: Valency Lexicon of Czech Verbs

Surface vs. deep frame evoker (1)

(c)

(a)

(b)

Jan

miluje

Marii Jan

milovat

Marie

Marie se mu

směje

Marie

smát_se

#PersPron

Jan

milovat

Marii Jan

milovat

Mariebude

Page 12: Valency Lexicon of Czech Verbs

Surface vs. deep frame evoker (2)

(d) Jan dal

Marii

a

Petrovi hrušku

jablko

Jandát

Marii

a

jablko

dát

Petr hruška

(g)

(e)

(f)

Jan

zpívat

Marii

ale

nebude

bude Jan

zpívat

Marii

ale

zpívat

#Neg

Jan

a

poslouchatbude

hudbu

psát

dopis

Jan

a

poslouchat

hudba

psát

dopis

Jan

bojí

se smát Jan

bát_se

smát_se

#Cor

Page 13: Valency Lexicon of Czech Verbs

Surface vs. deep frame filler (1)

Jan

potkal

bratra

svého mladšího

(a)

(b)

(c)

Jan

potkat

bratr

#PersPronmladý

Jan

potkal

a

Marii Petra

Jan

potkat

a

Marie Petr

Jan

čekal

na

Marii

Jan

čekat

Marie

Page 14: Valency Lexicon of Czech Verbs

Surface vs. deep frame filler (2)

(d)

(e)

(f)

Jan

slíbil

že

přijde

Jan

slíbit

přijít

#PersPron

Jan

čekal

naa

Marii Petra

Jan

čekat

a

Marie Petr

Jan

čekat

a

Marie Petr

Jan

čekal

na

a

Marii Petra

na

Page 15: Valency Lexicon of Czech Verbs

• pozorování: u řady sloves páry velmi blízkých LU– naložit vůz cementem – cement na vůz– odevzdat nález policii – na policii– ukradl bance peníze – peníze z banky– vyčistit šaty od bláta – bláto z šatů– osázet park stromy – stromy do parku– vyjít na kopec – vyjít kopec– oloupat slupku z jablka – jablko

• předpoklad: jde o pravidelné transformace (pravidelné pro skupinu sloves), jejichž znalost lze využít ke snížení redundance slovníku

• trojí projev alternace– změna valenčního rámce– změna lexikálního významu– změna SFE

Alternace

Page 16: Valency Lexicon of Czech Verbs

Alternační model valenčního slovníku

lexical formslexical units

lexeme

………

BLU DLU

DLUDLU

BLU DLU

BLU

CLU

CLU

CLU

• zavedení nových termínů– základní lex. jednotka (BLU)

– odvozená lex. jednotka (DLU)

– shluk lex. jednotek (CLU)

• dvě formy slovníku

– minimální (BLU+alternace)

– expandovaná (BLU+DLU)

Page 17: Valency Lexicon of Czech Verbs

PRAKTICKÁ ČÁST

Page 18: Valency Lexicon of Czech Verbs

Anotační schéma VALLEXu

• výběr sloves ke zpracování

• prostředí pro ruční editace slovníkových hesel

• nástroje umožňující využití existujících jazykových zdrojů

(tradiční slovníky, vzorek z ČNK...)

• logická struktura slovníku (mikrostruktura a makrostruktura)

• fyzická struktura slovníku - datové formáty

• konverze mezi formáty

• nástroje pro vyhledávání

• nástroje pro testování konzistence slovníku

Page 19: Valency Lexicon of Czech Verbs

Výběr sloves

• postupné zpracování v dávkách po několika stovkách sloves (resp. m-lemmat)

• hlavní kritérium – četnost podle ČNK

• kumulativní pokrytí slovesných m-lemmat v ČNK:

Page 20: Valency Lexicon of Czech Verbs

Anotační prostředí• primární podoba hesel – jednoduchý řádkově-orientovaný

textový formát (regulární jazyk)• editace v textovém editoru WinEdt• režim pro zvýrazňování syntaxe

Page 21: Valency Lexicon of Czech Verbs

Příprava slovníku pro publikaci

primarytextfiles

vallex.xml

HTML files

vallex.tex vallex.pdf

txt2xml.plxml2html.pl

xml2latex.pllatex,dvips,ps2pdf

Page 22: Valency Lexicon of Czech Verbs

VALLEX 1.0

• první zveřejněná verze valenčního slovníku, podzim 2003

• autoři hesel: Markéta Lopatková, Karolína Skwarska, Václava

Benešová

• cca 1400 sloves (cca 1000 m-lemmat), 4000 valenčních rámců

• distribuce – slovník je zdarma ke stáhnutí po zaregistrování na

Internetu:

http://ckl.mff.cuni.cz/zabokrtsky/vallex/1.0

• neomezená licence pro výzkumné a výukové nekomerční

účely

Page 23: Valency Lexicon of Czech Verbs

Možnosti vyhledávání ve VALLEXu

• v primárním textovém formátu

– během anotace přímo ve WinEdt

– vyhledávací WWW interface založený na regulárních výrazech

• v HTML verzi (podle vybraných kritérií)

• v XML verzi (např. pomocí XPath)

Page 24: Valency Lexicon of Czech Verbs

Změny od vydání VALLEX 1.0

• kvalitativní změny (VALLEX XML, verze B)– přechod na novou terminologii (lexémy, lexikální

jednotky...)– sloučení vidových protějšků– připraveno na alternační model

• kvantitativní změny – současná (interní) verze VALLEX 1.5:– 1624 lexémů (1841 m-lemmat)– 4414 lexikálních jednotek

Page 25: Valency Lexicon of Czech Verbs

ZÁVĚR

Page 26: Valency Lexicon of Czech Verbs

Hlavní přínos práce

(1) implementace anotačního schématu, zveřejnění VALLEX 1.0 (nyní cca 130 zaregistrovaných uživatelů)

(2) doplnění teoretického modelu

• upřesnění užívaných termínů

• zavedení nových termínů pro popis instancí valenčních rámců v závislostních stromech

• alternační model slovníku

(3) přehled dalších projektů souvisejících s valencí

Page 27: Valency Lexicon of Czech Verbs

Další využití dat/zkušeností/nástrojů

– PDT-VALLEX [Hajič-03]

– VerbaLex [Hlaváčková,Horák-05]

– švédsko-český slovník verbonominálních konstrukcí

[Cinková,Žabokrtský-05]

– VALEVAL [Bojar et al.-05]