Upload
zurina
View
39
Download
0
Embed Size (px)
DESCRIPTION
Asiasanastoista ontologioihin? YSA-YSO-näkökulma. Eeva Kärki Kansalliskirjasto 31.5.2011. Agenda. YSA YSO YSA – YSO: eroja Selvitettävää Mitä FinnONTOn jälkeen? Osoitteita Ontologiat (demo…). Tesaurukset ja ontologiat. molemmat ovat käsitejärjestelmän kuvauksia - PowerPoint PPT Presentation
Citation preview
Asiasanastoista ontologioihin?YSA-YSO-näkökulma
Eeva KärkiKansalliskirjasto
31.5.2011
Agenda• YSA• YSO• YSA – YSO: eroja • Selvitettävää• Mitä FinnONTOn jälkeen?• Osoitteita• Ontologiat (demo…)
Tesaurukset ja ontologiat
• molemmat ovat käsitejärjestelmän kuvauksia• myös perinteisiä tesaurusmuotoisia asiasanastoja kutsutaan joskus
ontologioiksi, lisäksi ontologioiksi on ryhdytty nimittämään RDA:ta, FRBR:ää (-> sekoittavaa)
• asiasanastot, tesaurukset = ihmisen (ja koneen, jos on URI) tulkittavissa olevia
• ontologiat = koneen (ja ihmisen?) tulkittavissa olevia
– esityksessä keskityn sanasto-ontologioihin , lähinnä YSOon (en siis käsittele Kulttuurisampoa, TerveSuomi yms. ontologiota)
YSA eli Yleinen suomalainen asiasanasto (1)
• n. 29 000 asiasanaa (näistä n. 5000 maantieteellistä nimeä)• kaikki tiedonalat
– ongelmallisia aloja: fysiikka, kemia, matematiikka, tekniset alat (tietotekniikka erityisesti), taloustieteet, kasvatustieteet…
• epätasaisuutta:– toisilta aloilta (erityisesti ns. ”pehmeät tieteet”) melko spesifejäkin termejä,
joiltakin aloilta vain yleistason termejä ( erityisesti fysiikka, kemia, matematiikka)
• ei henkilön- eikä yhteisönnimiä• ylläpito: Kansalliskirjasto (1 htv)• ”tekninen” ylläpito: Fennica-tietokanta (Voyager)
– jos/kun auktoriteettitietokanta toteutuu, ylläpito siirtyy Aleph-ympäristöön
YSA (2)Ylläpito
sanaehdotukset, muutokset ([email protected])
Fennicanindeksoijat
yleiset ja tieteell. kirjastotBTJ Kirjastopalveluarkistot, museot
erikoissanastotmedia”tavalliset käyttäjät”
• 3-4 kertaa vuodessa, osallistujia 12-15 henkeä– Fennican sisällönkuvailijat– Allärsin edustaja– BTJ Kirjastopalvelu– Helka-tietokannan edustaja– Eduskunnan kirjaston asiasanaston edustaja– Agriforestin (Maa- ja metsätaloussanasto) edustaja– Helsingin kaupunginkirjaston edustaja
YSA (3)Sanastopalaveri
YSA (4)
• YSA-palaverissa käsitellään n. 1000 termiä vuosittain , joista hyväksytään n. puolet (400-500)
• uudet sanat ja muutokset ilmoitetaan sähköpostilistoilla parin päivän sisällä kokouksesta
• päivitys Fennica-tietokantaan, sanojen väliset suhteet tehdään tässä vaiheessa• myös palaverissa ”hylätyt termit” päivitetään Fennica-tietokantaan
termiehdotuksina (eivät näy VESAssa/ONKIssa), näihin ei tehdä tesaurus-suhteita
• VESAssa/ONKIssa n. parin viikon kuluttua kokouksesta (riippuen työtilanteesta…)
• Huom! ns. vapaan indeksoinnin termejä (näihin kuuluvat myös paikannimet) ei käsitellä palaverissa eikä ilmoiteta listoilla (näitäkin tulee n. 500 per vuosi)
• YSA karttuu siis n. 1000 uudella termillä vuodessa
YSO eli Yleinen suomalainen ontologia(1)
• FinnOnto-osaprojekti (Tekes) 2004-31.3.2012
• YSOn kehikko luotu FinnONTOssa, mukana ei ollut kirjastoihmisiä
• YSO perustuu YSAn termeihin – jäljessä YSAsta, tällä hetkellä puuttuvat kaikki v. 2011 otetut uudet YSAn termit
eli n. 300– YSAn maantieteelliset nimet eivät ole mukana YSOssa
• YSAn termien ontologisoinnin YSOksi tekivät/tekevät FinnONTOn työntekijät– v. 2006 KK:sta oli mukana kaksi henkilöä puolen vuoden ajan, Mirja
Anttila ja Eeva-Liisa Leppänen
• YSOssa tällä hetkellä n. 22 000 termiä (YSAssa n. 29 000 termiä)
YSO (2)
• kieli: suomi
• ruotsinkieliset vastineet– poimittu Allärsistä– ontologian nimi ALLSO (ONKI-palvelussa YSO/ALLSO)
• englanninkieliset vastineet – poimittu Helsingin kaupunginkirjaston luokituskaavion englanninkielisen
version hakemistosta– vastineissa virheitä, koska luokituskaavion hakemiston käännöstyössä termejä
ei ole tarkistettu erikoisalojen sanastoista/sanakirjoista
YSO (3)
• YSOa käytetään myös rakenteellisena mallina ja liittymäkohtana erikoisalojen ontologioihin, kuten
– AFO (Agriforestista tehty ontologia)– VALO (Valokuva-alan ontologia)– MAO (Museoalan ontologia)
• Osoite: http://www.yso.fi/onki3/fi/overview/yso
YSA Tesaurus-rakenne
• KÄYTÄ = viittaus ohjaustermistä asiasanaan (VESA = asiasanaa xxx ei käytetä)
• KT = korvaa termit• LT = laajemmat termit• ST = suppeammat termit• RT = rinnakkaistermit• Huomautus• Lähde• Ryhmäkoodi ( VESA = kuuluu ryhmiin)• Kaikki termisuhteet ovat aina vastavuoroisia
YSA
leikkikalutST keinuhevoset
kiiltokuvatlegotleijatlennokitliidokitnuketnukkekoditpaperinuketpehmolelutpienoisrautatietpuulelutrakennuspalikattinasotilaatvesilelut
RT käsinuket
muuttuva pysyvä abstrakti
prosessi
tapahtuma toiminto
ajanjakso
fyysinen objekti ilmiö henkiset
tuotoksetjärjestelmä
ominaisuus
paikka
YSOn kehikko (Lähde: Katri Seppälä)
”asia”
fyysinenkokonaisuus
YSOn kehikkoabstraktimuuttuva
prosessittapahtumattoiminta
pysyväajanjaksofyysinen kokonaisuusfyysinen objektihenkiset tuotoksetilmiötjärjestelmätominaisuudetpaikka
Pysyväajanjaksofyysinen kokonaisuusfyysinen objekti
aine konkreettinen eloton objekti
….lavasteetleikkikalut
legotleikkikalut käyttöympäristön mukaan
leijat, lennokit, liidokit, vesilelutleikkikalut materiaalin mukaan
kiiltokuvat, pehmolelut, puulelut, tinasotilaatnuket
nukkekodit ….
letkutliikennemerkit…..
YSOn kehikko
ST-suhteet• geneeriset suhteet (laji – alalaji)
– voimalat - lämmitysvoimalat
• partitiiviset suhteet (kokonaisuus – osa)– kasvinosat – juuri, kukka jne.– esitetään eri tavalla kuin geneeriset ST-suhteet– näitä ei ole vielä tehty YSOon (eli ovat nyt tavallisia ST-suhteita)
YSA – YSO (1)
Sanojen väliset suhteet YSAssa• YSAssa asiasanan ympärille rakennetaan tesaurus-suhteet
aikaisemmin YSAssa oleviin asiasanoihin– kaikki YSAssa esiintyvät sanat ovat ”todellisia” asiasanoja– monilla sanoilla ei ole hierarkkisia suhteita, vain assosiatiivisia
suhteita (RT-suhde)– joillakin sanoilla ei ole mitään suhteita – käsitejärjestelmäkokonaisuudet melko pieniä
YSA – YSO (2)
Sanojen väliset suhteet YSOssa• YSOssa on valmis kehikko, johon kukin sana yritetään sijoittaa
mahdollisimman loogisesti– ontologissa paljon hierarkian vaatimia ns. ”aputasosanoja”, jotka eivät
ole asiasanoja (käyttäjä ei voi erottaa ”todellisista asiasanoista”) – käsitekehikko monimutkainen ja tarkka– kaikilla sanoilla/termeillä on joku hierarkkinen suhde – pitkiä hierarkioita – monet käsitteet vaikea sijoittaa kehikkoon loogisesti (ongelmana
varsinkin ns. ”pehmeät tieteet” ja abstrakit käsitteet) -> kokonaisuus on jo nyt epäjohdonmukainen, koska eri ihmiset laittavat toisiaan vastaavia käsitteitä eri paikkoihin (esim. avioero, asumusero)
YSA – YSO (3)
Sanojen monimerkityksisyys YSAssa ja YSOssa• YSAssa
– osaan sanoista liitetty lisämääre, esim.• kurkku – vihannekset• kurkku – ruumiinosat
– osaan sanoista liitetty selitys ja laitettu ryhmään 00 (esim. kaanonit)
• YSOssa pyritty ottamaan esille mahdollisimman paljon monimerkityksisyyttä– kuinka ”syvälle” polysemiaan kannattaa mennä?
• kaanonit (koko)• kaanonit (kooste)• kaanonit (ohjeet)• kaanonit (sävellykset)• kaanonit (uskonnolliset tuotokset)
• YSOssa osa termeistä esitetty myös eri ”funktioissa” (esim. lapset)• YSOssa ns. kooste-sanoja (termiä voi käyttää useilla aloilla/funktioissa)
YSA – YSO (4)
Maantieteelliset nimet YSAssa ja YSOssa
• YSAssa mukana n. 5000 paikannimeä (myös luonnonmaantieteellisiä nimiä, kyliä ja kaupunginosien nimiä, koti- ja ulkomaisia paikannimiä)
• YSOssa ei maantieteellisiä nimiä, maantieteelliset nimet paikkaontologioissa – SUO, SAPO; sisältävät vain suomalaisia paikannimiä– SAPOssa (Suomen ajallinen paikkaontologia) ei ole mukana kyliä eikä
kaupunginosia
YSA – YSO (5)
Alanmukaiset ryhmät• YSAssa voidaan selata alanmukaisia ryhmiä• YSOssa ei voida selata alanmukaisia ryhmiä (ainakaan vielä)
Vapaa indeksointi• YSAssa ohjeet vapaan indeksoinnin sanaryhmien yhteydessä• YSOssa asia ratkaisematta
Selvitettävää: kysymyksiä (1)
• Miksi pitäisi siirtyä asiasanoista ontologioihin?
• Mitä todellista lisäarvoa ontologiat tuovat sisällönkuvailuun ja tiedonhakuun? Kustannus-hyötyanalyysi!– otettava huomioon, että jo pelkästään YSOn ylläpito vaatii enemmän
resursseja kuin YSAn– ontologioilla indeksointi on todennäköisesti hitaampaa kuin perinteisillä
asiasanastoilla (huom. asiasanojen eri funktiot)– tiedonhaun ongelmat
• Ontologiat luotu lähinnä koneymmärrettäväksi, soveltuvatko ne ihmisen tulkittaviksi?
Selvitettävää: kysymyksiä (2)
• Ovatko ontologiat sisällöltään niin valmiita, että niitä voidaan ryhtyä käyttämään?
• Maantieteelliset nimet: – SUO ja SAPO (paikannimiontologiat) sisältävät vain suomalaisia
paikannimiä, entä ulkomaiset paikannimet (ja niiden suomennokset)?– SAPOssa ei ole mukana kyliä eikä kaupunginosia– ei ole olemassa sellaista paikannimiontologiaa, jossa olisi mukana
ulkomaisten paikannimien suomalaiset vastineet (huom. YSAssa on jonkun verran mukana myös ulkomaisten paikannimien suomalaisia nimiä)
Selvitettävää: kysymyksiä (3)• Miten käytetään niitä asiasanoja, jotka eivät ole missään ontologioissa?
– esim. vapaan indeksoinnin sanat, numeeriset ajanmääreet: ratkaisematta
• Koska asiasanaa ei voi käyttää muussa kuin ontologian esittämässä yhteydessä (sanojen merkitys sidottu tiukasti ko. sanan paikkaan /hierarkiaan ontologiassa, ontologia on siis jäykempi kuin asiasanasto), miten menetellään, jos ko. sanaa tarvitaankin ihan muissa yhteyksissä?
– > aina on otettava yhteys ontologian ylläpitäjään -> hidastaa sisällönkuvailutyötä ja vaatii ylläpidolta resursseja
• Onko kaikki kirjastotietokannoissa käytettävät asiasanastot ontologisoitava?– resurssit? Sisällöllinen ja tekninen ylläpito?
• Entä ulkomaisten asiasanastojen ja ontologioiden käyttö?
Selvitettävää: kysymyksiä (4)• Jos ontologioita ryhdytään käyttämään asiasanoituksessa, pystytäänkö
aikaisemmat indeksoinnissa käytetyt asiasanat kytkemään ontologian yhteyteen? Ongelmia, esim.– ontologiassa sanoja eri merkityksissä, kuten
• lapset (ikään liittyvä rooli)• lapset (kooste)• lapset (perheenjäsenet)• lapset (sosioekonomiseen ryhmään liittyvä rooli)• - > mihin näistä nyt jo tietokannoissa olevat asiasanat ”lapset” kytketään?
Koosteeseenko, mutta mitä hyötyä silloin on ontologiasta?
– ontologiassa asiasana tietyssä merkityksessä (tietyssä paikassa kehikossa, hierarkiassa). Tietokannassa on samaa asiasanaa voitu käyttää aivan eri yhteydessä kuin mitä ontologia tarjoaa
- > tietokannassa olevaa asiasanaa ei voida kytkeä ontologiassa olevaan sanaan
Selvitettävää: kysymyksiä (5)
• Onko teknisiä valmiuksia ryhtyä käyttämään ontologioita sisällönkuvailussa ja tiedonhaussa?
– ONKI-palvelun asiasanastoilla/ontologioilla on URI:t , jotka mahdollistavat poiminnan ja tiedonhaussa linkityksen ko. asiasanastoihin/ontologioihin
– URI = Uniform Resource Identifier (merkkijono, jolla kerrotaan tietyn tiedon paikka (URL) tai yksikäsitteinen nimi (URN))
– poiminta onnistuu leijukkeen (widget) avulla suoraan järjestelmiin, joissa on toimivat Web Services –rajapinnat (esim. yliopisto- ja korkeakoulukirjastojen järjestelmässä Voyagerissa rajapintaa ei ole)
– miten käy ketjutusten?
Kansallinen ontologiakirjasto ONKI (1)
• http://onki.fi/fi/browser/ (linkki uuteen käyttöliittymään myös VESAssa)
• ONKI-palvelu, ONKI-selain, ONKI-palvelin
• FinnONTO-projekti – Semanttisen laskennan tutkimusryhmä (SeCO)
• ONKI-palvelusta tällä hetkellä koekäytössä jo kolmas versio, ONKI-palvelussa aina silloin tällöin bugeja – koska ONKIn toiminta on epäluotettavaa, VESA-käyttöliittymä tulee olemaan
käytettävissä vielä v. 2011– palaute käyttöliittymästä
• [email protected]• http://www.yso.fi/onki3/fi/overview/ysa (linkki ONKI-palvelun sivulta)
Kansallinen ontologiakirjasto ONKI (2)
• KK:n sanastoilla ei ole enää yhteistä ”sateenvarjoa” (VESAa), vaan kukin VESAn sanasto on ”itsenäisenä” sanastonaan ONKI-palvelussa– mukana URI-tunnukset (koneluettavuus)
• YSA ja Allärs ovat saatavilla myös raakadatana (avoimen datan periaate) kun tähän saakka niiden termit ovat olleet haettavissa vain yksitellen– ONKI-palvelimella ladattava XML-tiedosto, Creative Commons Attribution lisenssin
puitteissa sitä voi kuka tahansa käyttää
Kansallinen ontologiakirjasto ONKI (3)
• 62 sanastoa/asiasanastoa/ontologiaa– asiasanastoja: YSA, Allärs, MUSA, CILLA, Kaunokki, MESA (Merenkulun
asiasanasto), Valtioneuvoston asiasanasto jne.– sanasto-ontologioita mm.: KOKO, YSO/ALLSO, MUSO, AFO, KAUNO, MAO, TAO,
VALO
• YSA, Allärs: ajantasaisia (päivittyvät joka yö, huom. VESA päivittyy kerran viikossa) – epäselvää, kuinka ajantasaisia ONKI-palvelun muut asiasanastot ja ontologiat
ovat…– YSO: puuttuu n. 300 YSAn asiasanaa (tänä vuonna YSAan otetut) + kaikki
paikannimet
Mitä FinnONTOn jälkeen (1)?
• ONKI-palvelinympäristön ylläpito?– mikä taho tulee vastaamaan teknisestä ylläpidosta?
• Ryhtyvätkö kirjastot käyttämään ontologioita sisällönkuvailun ja tiedonhaun apuvälineenä?– kuka tekee päätökset? Tehdäänkö ennen päätöstä kustannus-
hyötyanalyysi?
Mitä FinnONTOn jälkeen (2)?• Jos kirjastot ryhtyvät käyttämään ontologioita, niin
huomattava mm., että– YSO/Allso
• YSO/Allson ylläpito vie enemmän resursseja kuin YSA/Allärsin ylläpito (ontologian kehikon monimutkaisuus ja tarkkuus, sanojen monimerkityksisyys)
• englanninkielisen version ylläpito
– ontologioiden koordinointi– erikoisontologiat
• esim. mikä taho ryhtyy tekemään esim. ontologiaa, jossa ovat ulkomaiset paikannimet suomalaisine vastineineen
• konsortiomalli (ONKI-konsortio)?– > vaatii ylläpito-organisaatioilta (ja varsinkin koordinoivalta
organisaatiolta) melko paljon resursseja
Osoitteita
• http://vesa.kansalliskirjasto.fi/ (pääsee sekä uuteen että vanhaan käyttöliittymään)
• http://onki.fi/fi/browser/(ONKI-palvelu)• http://demo.seco.tkk.fi/onkipaikka/ (SUO = Suomalainen paikkaontologia)• http://www.yso.fi/onki3/fi/overview/sapo (SAPO = Suomen ajallinen
paikkaontologia)• http://www.yso.fi/onki3/fi/overview/koko (KOKO-ontologia)• http://www.yso.fi/?l=fi• http://www.yso.fi/lusto-demo.html (Kantapuu-museotietokanta,
hakudemo)• http://wordnet.princeton.edu/ (WordNet)• http://www.yso.fi/onkiwebservice/?o=ysa&l=fi (Web Service -rajapinta)