H. Paasonen’s dialect dictionary of the Mordvin languages

SOOME-UGRI SÕNARAAMATUSEMINAR

„Soome-ugri keelte sõnaraamatud:

mis neid liidab ja mis lahutab“13.-14. november 2008, Tallinn,

Eesti Keele Instituut

Tallinn 13-14.11.2008 Jack Rueter rueter@ling.helsinki.fi 2

H. Paasonen’s dialect dictionary of the Mordvin languages

• From dictionary to database

Elektroninen mordvan murresanakirja

• Alkuperäiset tavoitteet ja niiden toteutuminen

• Tämän hetkinen työvaihe ja sen tavoitteet

• Elektronisen sanakirjan lopullinen sijoitus

The original goals and what was achieved

• 1. Text with Quark tags to be converted to an XML document

• 2. Font conversion XML document to UNICODE• 3. Conversion of dictionary entries to granular

XML• 4. Head words tagged and DB information

enhanced by automatic means

• 2. Font conversion XML document to UNICODE– Be aware of ”diacritic” + ”letter” ordering

before conversion to ”letter” + ”diacritic” strategies

– Shakhmatov, Molotsov Unicode charts

http://www.unicode.org/charts

• 3. Conversion of dictionary entries to granular XML.– Forming well-nested documents according to

existing hierarchies and punctuation.

• 4. Head words tagged and DB information enhanced by automatic means– adjective, adverb, conjunction, gerund,

interjection, noun, particle, participle, postposition, quant, verb

More specifically

• Structure

• Access

Structure

• XML data-base structure derivation from style and font tags

• Dealing with dialect lemma variants, where a single lemma would be desired

• Inflection as a basis for dictionary entry divisions

• Enhanced tagging to provide more accessible data retrieval

XML data-base structure derivation from style and font tags

• Text with Quark tags to be converted to an XML document

– Make use of styles• = bold

• = italics

• = superscript

– Make use of fonts• Even <cyr></cyr> = Cyrillic portions of text

Dealing with dialect lemma variants, where a single lemma would be desired

• Phonetic variants given for one or both languages does not guarantee literary forms

• Symmetry encourages use of ZERO

Inflection as a basis for dictionary entry divisions

• The diminutive in ńe is split into 2 separate inflections

• The vocative in aj and kaj is often shown within the variants of the stem

Enhanced tagging to provide more accessible data retrieval

• ~ 99% of phonetic variants ending in ms and mks are verbs

• Lemmas can be tagged as verbs and derivation affixes can be sought out.

• Concrete affix + function information

Access

• Indexing by source language: lemma and example content, forward and reverse

• Indexing by target language

• Inter-linking strategies

• Automated transliteration

Indexing by source language: lemma and example content,

forward and reverse• D

• http://www.ling.helsinki.fi/~rueter/PaasonenReperl/Link-WordCtn_01.xsl

• http://www.ling.helsinki.fi/~rueter/PaasonenReperl/rsc/FilterLinks1Result.pl

Indexing by target language

• Indexing by target language

Inter-linking strategies

Automated transliteration

Tämän hetkinen työvaihe ja sen tavoitteet

• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:

• Tarkennetaan xsd-kielisen scheman määritelmiä.

• Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-

skriptejä.

• Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-

skriptejä.• Tietokannan xsd-validointi ei takaa sataprosenttista

varmuutta tietokannan eheydestä.

• Tarkennetaan xsd-kielisen scheman määritelmiä:– Esiintyykö kunkintyyppinen xml-elementti oikeassa

ympäristössä– Onko tieto oikeanlaatuinen

• Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä.– Pidetään (lue muutetaan) koko tietokannan

kaikkien tiedostojen xml-elementtejä samalla ajantasolla:

• Tiedot foneettisen tekstiosuuden editoijasta tallennetaan tällä hetkellä xml-elementin attribuutiarvona.

• Transkriptiossa oleva foneettinen muoto jaetaan foneemeihin toisenlaisten transkriptioiden rinnakkaiskäytön mahdollistamiseksi.

• Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä.

– kaikki tiedot ovat vain määriteltyinä elementtisisältöinä tai attribuuttiarvoina

– Tehdään suhteellista eheyttä tarkastavia hakuja, esimerkiksi taulukoiden avulla, ks. http://www.ling.helsinki.fi/~rueter/Paasonen2007

• Ongelmia ja syyt

• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään

• On kirjallisuuslähdetietoja alkuperäisen kursiivi-tunnisteen vieressäRatkaisu: etsitään jäljellä olevat kursiivi-tunnisteet eri elementtityypeistä erikseen ja kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin.

• On lähdetaivutusmuotoja, jotka eivät sijoitu oikeaan paikkaanRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin.

• On derivaatio- tai taivutustietoja, jotka saattavat esiintyä myös foneettisen tai esimerkkiosan sisälläRatkaisu: korvataan ne käsin.

• Kirjallisuuslähde- tai asutustiedot puuttuuvat

• Tiedot ovat väärässä ympäristössäRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin

• Kirjallisuuslähde- tai asutustiedot puuttuuvat

• XSLT-transformaatiossa on varauduttu etsimään vierussisaruselementin tietoja, mutta ei ole vielä laajennettu XSLT-transformaatioiden when-lausekkeiden etsintäkenttää sisältämään vierussisaruselementtien vieruselementtien tietoja (useampi askel vasemmalle tai oikealle).Ratkaisu: XSLT-stylesheetin laajennus, mikä sinänsä on rajapinnan tekemistä.

• Tarkennetaan xsd-kielisen scheman määritelmiä siitä, missä kunkintyyppinen xml-elementti voi esiintyä tietokannassa.

• Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä, joilla pidetään (lue muutetaan) koko tietokannan kaikkien tiedostojen xml-elementtejä samalla ajantasolla.

• Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä.

Tavoitteet

• Eheä tietokanta, johon voidaan lisätä uusiakin aineistoja

• Rakenne, joka mahdollistaa:– Monikielisiä hakuja esim.

• ersä, mokša, saksa, venäjä jne.

Tavoitteet

• Rakenne, joka mahdollistaa:– Useamman elementin samanaikaista käyttöä

määritelmissä esim. • lemma, muoto-oppi, selitys, esimerkki, etymologia • Keruupaikka, kieli

Tulevaisuuden varalle

• Ohjelmointirajapinta (engl. Application programming interface, API) on käyttöliittymä jolla eri ohjelmat voivat tehdä pyyntöjä ja vaihtaa tietoja eli keskustella keskenään.:

– Saada samanaikaisesti näkymään saman yhdyssanan eriosien tietoja

• Sanakirjan sisäisiä linkkejä• Ulkoisia linkkejä• Hakukielien (tässä: saksan ja venäjän)

thesaurusfiltteri, jonka avulla voisi hakea esim. koira-sanaa ja tulos sisältäisi myös sanoja: hurtta, rakki, piski, peni, pentu yms.

• Elektronisen sanakirjan lopullinen sijoitus – Kotuksen verkkosivuille– SUS:n verkkosivuille– CSC: Kielipankin yhteyteen– Yliopiston verkkosivuille

Suk pirine!

Kiitos!

• Alkuperäiset tavoitteet ja niiden toteutuminen– 1.1. Quark-tunnisteinen teksti muunnetaan xml-tunnisteiseksi tyyliä esittäväksi

tiedostoksi (lihavointi, kursivointi, yläindeksointi),– 1.2. Quark-dokumenteissa käytettävät fonttiratkaisut muunnetaan UNICODE-

ratkaisuiksi (tarkekirjoituksessa käytetyt tarke+peruskirjain –muodot => peruskirjain+tarke -muodoiksi; UNICODE:n kyrilliset kirjaimet käyttöön),

– 1.3. Artikkeleiden muuntamista XML-tunnisteiseen muotoon.– 2.1. Ersän- ja mokšankielisiä hakusanoja täydennetään kirjakielisillä muodoilla ja

kahden uuden rajapinnan muodostamista linkityksineen (n. 56 000 sanaa);– 2.2. Hakusanat merkitään sanaluokkien tunnisteilla, mikä voidaan tehdä verbien

osalta automaattisesti (adjektiivi, adverbi, gerundi, interjektio, konjunktio, kvantti, partikkeli, partisiippi, postpositio, substantiivi, verbi);

– 2.3. Luoda ersän ja mokšan kielten morfologiseen analyysiin tarkoitettuja kaksitasomalleja, joilla voidaan tunnistaa sanakirja-aineistoissa esiintyviä sanamuotoja. Kaksitasomalleja tavallisesti luodaan kirjakielisiä tekstejä varten, mutta niitä voidaan myös laajentaa käsittämään sekä murteellisia että eri ortografioiden mukaisia muotoja.

• Sanakirjan elektroninen versio– XML-muotoinen tietokanta– Käyttöliittymä

• Kuinka pitkällä ollaan?– Koodaus on tehty loppuun asti– Koko aineisto on verkossa:

http://www.ling.helsinki.fi/~rueter/PaasonenMW.shtml

• Kokonaisena ja aakkosittain• Lemmavarianttien linkkilistoina• Esimerkkisaneiden linkkilistoina• Keräyspaikanmukaisina linkkilistoina• Ersän kirjakielen tapainen aakkosluettelo

• Mitä materiaalilla voidaan tehdä tällä hetkellä?– Linkkilistojen avulla pääsee sana-artikkeleihin

käsiksi• Aakkosjärjestyksen mukaan• Käänteisaakkosjärjestyksen mukaan

• Elektroninen vastassaan painettu julkaisu– Kukin kombinatorinen sana-artikkeli on

omanakokonaisuutena– Aakkoselliset ja käänteislinkkilistat

• Käyttö ja sijainti– ds– http://www.ling.helsinki.fi/~rueter/Paasonen

H. Paasonen’s dialect dictionary of the Mordvin languages

Documents

Third Cycle Agree Effects in Mordvin

Yorkshire dialect

Jewish Dialect and New York Dialect

Tibetan Multi-Dialect Speech and Dialect Identity Recognition

Indian Grammar Dictionary for N Dialect

Dialect Syntax

IN MOKSHA MORDVIN

Dialect (Regiolect, Socilect, Language vs Dialect)

Re-Organisation of Banyumas Dialect Dictionary

Nepali - Thami - English Dictionary...Third, I must emphasise that the present Nepali-Thami-English Dictionary is a compilation of Thangmi words from what I call the ‘Dolakha dialect’

Variation and dialect levelling in the Romani dialect of

Kumzari Dialect

ERZYA E-LEARNING COURSE, GRAMMATICAL DESCRIPTION … · 2018-09-26 · E-learning course: Erzya THE MORDVINS Moksha Mordvin girls Flag of the Mordvin Republic Erzya Mordvin women

A dictionary of colloquial idioms in the Mandarin dialect

Ocular Dialect

PIROT DIALECT - nbpi.org.rs · PDF file72 Новица Живковић Abstract: Characteristics of Pirot dialect, concisely presented in the end of the author’s Dictionary of Pirot

Hawaian Dialect

Dialect Marocan

Appalachian Dialect

Cockney dialect