H. Paasonen’s dialect dictionary of the Mordvin languages

Preview:

DESCRIPTION

SOOME-UGRI SÕNARAAMATUSEMINAR „Soome-ugri keelte sõnaraamatud: mis neid liidab ja mis lahutab“ 13.-14. november 2008, Tallinn, Eesti Keele Instituut. H. Paasonen’s dialect dictionary of the Mordvin languages. From dictionary to database. Elektroninen mordvan murresanakirja. - PowerPoint PPT Presentation

Citation preview

SOOME-UGRI SÕNARAAMATUSEMINAR

„Soome-ugri keelte sõnaraamatud:

mis neid liidab ja mis lahutab“13.-14. november 2008, Tallinn,

Eesti Keele Instituut

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 2

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 3

H. Paasonen’s dialect dictionary of the Mordvin languages

• From dictionary to database

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 4

Elektroninen mordvan murresanakirja

• Alkuperäiset tavoitteet ja niiden toteutuminen

• Tämän hetkinen työvaihe ja sen tavoitteet

• Elektronisen sanakirjan lopullinen sijoitus

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 5

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 6

The original goals and what was achieved

• 1. Text with Quark tags to be converted to an XML document

• 2. Font conversion XML document to UNICODE• 3. Conversion of dictionary entries to granular

XML• 4. Head words tagged and DB information

enhanced by automatic means

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 7

The original goals and what was achieved

• 2. Font conversion XML document to UNICODE– Be aware of ”diacritic” + ”letter” ordering

before conversion to ”letter” + ”diacritic” strategies

– Shakhmatov, Molotsov Unicode charts

http://www.unicode.org/charts

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 8

The original goals and what was achieved

• 3. Conversion of dictionary entries to granular XML.– Forming well-nested documents according to

existing hierarchies and punctuation.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 9

The original goals and what was achieved

• 4. Head words tagged and DB information enhanced by automatic means– adjective, adverb, conjunction, gerund,

interjection, noun, particle, participle, postposition, quant, verb

More specifically

• Structure

• Access

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 11

Structure

• XML data-base structure derivation from style and font tags

• Dealing with dialect lemma variants, where a single lemma would be desired

• Inflection as a basis for dictionary entry divisions

• Enhanced tagging to provide more accessible data retrieval

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 12

XML data-base structure derivation from style and font tags

• Text with Quark tags to be converted to an XML document

– Make use of styles• <b></b> = bold

• <i></i> = italics

• <sup></sup> = superscript

– Make use of fonts• Even <cyr></cyr> = Cyrillic portions of text

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 13

Dealing with dialect lemma variants, where a single lemma would be desired

• Phonetic variants given for one or both languages does not guarantee literary forms

• Symmetry encourages use of ZERO

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 14

Inflection as a basis for dictionary entry divisions

• The diminutive in ńe is split into 2 separate inflections

• The vocative in aj and kaj is often shown within the variants of the stem

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 15

Enhanced tagging to provide more accessible data retrieval

• ~ 99% of phonetic variants ending in ms and mks are verbs

• Lemmas can be tagged as verbs and derivation affixes can be sought out.

• Concrete affix + function information

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 16

Access

• Indexing by source language: lemma and example content, forward and reverse

• Indexing by target language

• Inter-linking strategies

• Automated transliteration

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 17

Indexing by source language: lemma and example content,

forward and reverse• D

• http://www.ling.helsinki.fi/~rueter/PaasonenReperl/Link-WordCtn_01.xsl

• http://www.ling.helsinki.fi/~rueter/PaasonenReperl/rsc/FilterLinks1Result.pl

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 18

Indexing by target language

• Indexing by target language

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 19

Inter-linking strategies

• i

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 20

Automated transliteration

• a

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 21

Tämän hetkinen työvaihe ja sen tavoitteet

• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:

• Tarkennetaan xsd-kielisen scheman määritelmiä.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 22

Tämän hetkinen työvaihe ja sen tavoitteet

• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:

• Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-

skriptejä.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 23

Tämän hetkinen työvaihe ja sen tavoitteet

• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:

• Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-

skriptejä.• Tietokannan xsd-validointi ei takaa sataprosenttista

varmuutta tietokannan eheydestä.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 24

Tämän hetkinen työvaihe ja sen tavoitteet

• Tarkennetaan xsd-kielisen scheman määritelmiä:– Esiintyykö kunkintyyppinen xml-elementti oikeassa

ympäristössä– Onko tieto oikeanlaatuinen

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 25

Tämän hetkinen työvaihe ja sen tavoitteet

• Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä.– Pidetään (lue muutetaan) koko tietokannan

kaikkien tiedostojen xml-elementtejä samalla ajantasolla:

• Tiedot foneettisen tekstiosuuden editoijasta tallennetaan tällä hetkellä xml-elementin attribuutiarvona.

• Transkriptiossa oleva foneettinen muoto jaetaan foneemeihin toisenlaisten transkriptioiden rinnakkaiskäytön mahdollistamiseksi.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 26

Tämän hetkinen työvaihe ja sen tavoitteet

• Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä.

– kaikki tiedot ovat vain määriteltyinä elementtisisältöinä tai attribuuttiarvoina

– Tehdään suhteellista eheyttä tarkastavia hakuja, esimerkiksi taulukoiden avulla, ks. http://www.ling.helsinki.fi/~rueter/Paasonen2007

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 27

Tämän hetkinen työvaihe ja sen tavoitteet

• Ongelmia ja syyt

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 28

Tämän hetkinen työvaihe ja sen tavoitteet

• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään

• On kirjallisuuslähdetietoja alkuperäisen kursiivi-tunnisteen vieressäRatkaisu: etsitään jäljellä olevat kursiivi-tunnisteet eri elementtityypeistä erikseen ja kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 29

Tämän hetkinen työvaihe ja sen tavoitteet

• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään

• On lähdetaivutusmuotoja, jotka eivät sijoitu oikeaan paikkaanRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 30

Tämän hetkinen työvaihe ja sen tavoitteet

• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään

• On derivaatio- tai taivutustietoja, jotka saattavat esiintyä myös foneettisen tai esimerkkiosan sisälläRatkaisu: korvataan ne käsin.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 31

Tämän hetkinen työvaihe ja sen tavoitteet

• Kirjallisuuslähde- tai asutustiedot puuttuuvat

• Tiedot ovat väärässä ympäristössäRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 32

Tämän hetkinen työvaihe ja sen tavoitteet

• Kirjallisuuslähde- tai asutustiedot puuttuuvat

• XSLT-transformaatiossa on varauduttu etsimään vierussisaruselementin tietoja, mutta ei ole vielä laajennettu XSLT-transformaatioiden when-lausekkeiden etsintäkenttää sisältämään vierussisaruselementtien vieruselementtien tietoja (useampi askel vasemmalle tai oikealle).Ratkaisu: XSLT-stylesheetin laajennus, mikä sinänsä on rajapinnan tekemistä.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 33

Tämän hetkinen työvaihe ja sen tavoitteet

• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:

• Tarkennetaan xsd-kielisen scheman määritelmiä siitä, missä kunkintyyppinen xml-elementti voi esiintyä tietokannassa.

• Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä, joilla pidetään (lue muutetaan) koko tietokannan kaikkien tiedostojen xml-elementtejä samalla ajantasolla.

• Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 34

Tavoitteet

• Eheä tietokanta, johon voidaan lisätä uusiakin aineistoja

• Rakenne, joka mahdollistaa:– Monikielisiä hakuja esim.

• ersä, mokša, saksa, venäjä jne.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 35

Tavoitteet

• Rakenne, joka mahdollistaa:– Useamman elementin samanaikaista käyttöä

määritelmissä esim. • lemma, muoto-oppi, selitys, esimerkki, etymologia • Keruupaikka, kieli

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 36

Tulevaisuuden varalle

• Ohjelmointirajapinta (engl. Application programming interface, API) on käyttöliittymä jolla eri ohjelmat voivat tehdä pyyntöjä ja vaihtaa tietoja eli keskustella keskenään.:

– Saada samanaikaisesti näkymään saman yhdyssanan eriosien tietoja

• Sanakirjan sisäisiä linkkejä• Ulkoisia linkkejä• Hakukielien (tässä: saksan ja venäjän)

thesaurusfiltteri, jonka avulla voisi hakea esim. koira-sanaa ja tulos sisältäisi myös sanoja: hurtta, rakki, piski, peni, pentu yms.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 37

Elektroninen mordvan murresanakirja

• Elektronisen sanakirjan lopullinen sijoitus – Kotuksen verkkosivuille– SUS:n verkkosivuille– CSC: Kielipankin yhteyteen– Yliopiston verkkosivuille

Suk pirine!

Kiitos!

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 39

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 40

Elektroninen mordvan murresanakirja

• Alkuperäiset tavoitteet ja niiden toteutuminen– 1.1. Quark-tunnisteinen teksti muunnetaan xml-tunnisteiseksi tyyliä esittäväksi

tiedostoksi (lihavointi, kursivointi, yläindeksointi),– 1.2. Quark-dokumenteissa käytettävät fonttiratkaisut muunnetaan UNICODE-

ratkaisuiksi (tarkekirjoituksessa käytetyt tarke+peruskirjain –muodot => peruskirjain+tarke -muodoiksi; UNICODE:n kyrilliset kirjaimet käyttöön),

– 1.3. Artikkeleiden muuntamista XML-tunnisteiseen muotoon.– 2.1. Ersän- ja mokšankielisiä hakusanoja täydennetään kirjakielisillä muodoilla ja

kahden uuden rajapinnan muodostamista linkityksineen (n. 56 000 sanaa);– 2.2. Hakusanat merkitään sanaluokkien tunnisteilla, mikä voidaan tehdä verbien

osalta automaattisesti (adjektiivi, adverbi, gerundi, interjektio, konjunktio, kvantti, partikkeli, partisiippi, postpositio, substantiivi, verbi);

– 2.3. Luoda ersän ja mokšan kielten morfologiseen analyysiin tarkoitettuja kaksitasomalleja, joilla voidaan tunnistaa sanakirja-aineistoissa esiintyviä sanamuotoja. Kaksitasomalleja tavallisesti luodaan kirjakielisiä tekstejä varten, mutta niitä voidaan myös laajentaa käsittämään sekä murteellisia että eri ortografioiden mukaisia muotoja.

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 41

Elektroninen mordvan murresanakirja

• Sanakirjan elektroninen versio– XML-muotoinen tietokanta– Käyttöliittymä

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 43

Elektroninen mordvan murresanakirja

• Mitä materiaalilla voidaan tehdä tällä hetkellä?– Linkkilistojen avulla pääsee sana-artikkeleihin

käsiksi• Aakkosjärjestyksen mukaan• Käänteisaakkosjärjestyksen mukaan

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 44

Elektroninen mordvan murresanakirja

• Elektroninen vastassaan painettu julkaisu– Kukin kombinatorinen sana-artikkeli on

omanakokonaisuutena– Aakkoselliset ja käänteislinkkilistat

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 45

Elektroninen mordvan murresanakirja

• Käyttö ja sijainti– ds– http://www.ling.helsinki.fi/~rueter/Paasonen