Upload
normunds-gruzitis
View
843
Download
0
Embed Size (px)
Citation preview
Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē
Normunds GrūzītisGunta Nešpore
LU Matemātikas un informātikas institūtaMākslīgā intelekta laboratorija
Latviešu leksikoloģija, leksikogrāfija un terminoloģijaApvienotais Pasaules latviešu zinātnieku III kongress un Letonikas IV kongress
Rīgā, 2011. gada 25. oktobrī
Īsumā...
• Pilnīga informācija par vārdu = korpuss + vārdnīca– Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu
korpusā• www.korpuss.lv• Morfosintaktiskais marķējums
– Kāda informācija būtu iekļaujama (abstraktā) vārdnīcā
• Korpuss vārdnīca
Informācija par vārdu
1. Formas apraksts – korpuss
2. Leksēmas apraksts – vārdnīca
3. Cita (neskaidra, nevēlama) informācija
• Korpuss: deskriptīvs valodas apraksts– faktiskais lietojums– no vārdformām un vārdu secības izrietošās morfosintaktiskās pazīmes
• Vārdnīca: vispārinājumi, pieņēmumi, ieteikumi, noteikumi– vienskaitlinieks/daudzskaitlinieks, ģenitīvenis, kopdzimte, kādības/attieksmes
īp.v., lokāms/nelokāms/daļēji lokāms, transitīvs/intransitīvs, prepozicija/postpozicija, deklinācija, konjugācija, ...
Pazīmes
Morfosintaktiskas
MorfoloģiskasSintaktiskas
Leksēmas p.
Korpusā izmantoto pazīmju kopa
Vārdnīcā iekļaujamās leksēmas pazīmes
Ko piesaista (lietojumā), nevis kas piemīt (tipiski)
MULTEXT-East pazīmju kopas atvasinājums, ņemot vērā:- līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā- pieredzi latviešu valodas sintaktiskajā analīzē- pieredzi latviešu valodas ģenerēšanā (sintēzē)- pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē- esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi- latviešu valodniecības tradīciju
Piemērs
pazīme attiecināma uz leksēmu, taču nosakāma ortogrāfiski un/vai kontekstuāli
piem., “daudzstāvu” – Ncmpg
pazīme attiecināma uz leksēmu, taču nosakāma morfoloģiski
Piem., Krustev B. The Bulgarian Morphology in 187 Type Tables. Nauka i Izkustvo, 1984
Marķējumā neiekļautās pazīmes:- kopdzimte- vsk-nieks, dsk-nieks- ģenitīvenis, nelokāms- deklinācija
tradicionālivs.
formāli
Korpusa un vārdnīcas mijiedarbība
• Vārdnīca pilnīga gramatiskā informācija par leksēmu– Precīzai locīšanas paradigmai (t.sk. vārdšķirai) ir jābūt viennozīmīgi
“nolasāmai” vai izsecināmai
• Informācijas atainojums galalietotājam (rādīt/nerādīt, formatējums, secība u.tml.) – sekundārs jautājums
– Mašīnlasāma vārdnīca drukāta, tiešsaistes, mobilā, CD, … vārdnīca
– Dators = “ārzemnieks” (!)
morfosintaktiskās pazīmes
leksēmas pazīmes leksiskā
nozīme
sintaktiskā struktūra
vārdlietojumsdimens. #1
dimens. #2 dimens. #3
dimens. #4
Pieejamie korpusi
Nosaukums Raksturojums
Vārdlie-tojumu
skaits
Morfo-
loģiski marķēts
miljons-2.03,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem.
~3,5 milj. nē
miljons–2.0mlīdzsvarota mūsdienu latviešu valodas korpusa morfoloģiski marķēta versija; morfoloģiskais marķējums nav precīzs, jo nav novērsta daudznozīmība
~3,5 milj. jā
Saeima-2.0Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar metadatiem
22,5 milj. nē
timeklis-1.0liels latviešu valodas tīmekļa korpuss ar daļēju morfoloģisko marķējumu
~97 milj. jā
ledusmanuāli morfoloģiski marķēts paraugkorpuss (P. Bankovskis „Plāns ledus“, 1. nodaļa)
~14 000 jā
sintaktiski anotēts paraugkorpuss
izstrādes stadijā (VPP “Nacionālā identitāte” ietvaros) >900 teik.morf. un
sint. marķēts
Zifa likums
> 100 milj. vārdlietojumu korpuss
Korpuss vārdnīca
• Korpuss (“digitālā kartotēka”) –konkordances–> vārdnīca
• Teorētiski: vispusīgs materiāls, objektīvas analīzes iespējas– “man liekas ka” vs. “faktiski ir tā”
– statistika
– lietojumpiemēri
• biežākie (tipiskie) savienojumi
• stabili vārdu savienojumi
– kolokāciju analīze
– nozīmju dalījums
• piem., valences analīze
Vārdformu biežums
Bonito: Konkordance >> Statistika >> Biežuma sadalījums
Vārdformu biežums
Bonito: Konkordance >> Statistika >> Biežuma sadalījums
KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas
atslēgvārds “iet”:- sakārtots pēc relatīvā biežuma
KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas
atslēgvārds “iet”:- sakārtots pēc absolūtā biežuma
KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas
atslēgvārds “sāpēt”:- sakārtots pēc relatīvā biežuma
Kolokācijas – pēc sintaktiskās valencesBonito: Konkordance >> Statistika >> Kolokācijas
atslēgvārds “skriet”:- pēc dimensijas “tag”
Konkordances kārtošana
Bonito: Konkordance >> Vienkāršā kārtošana (pēc dimensijas “tag”)
Paldies!www.korpuss.lv www.tezaurs.lv
twitter.com/AILab_lvSekojiet jaunumiem: