Upload
tapva
View
992
Download
0
Embed Size (px)
Citation preview
SEMANTTINEN WEBTapio Varis
HAKUKONEIDEN ONGELMAT (GOOGLE) Usein haettu tieto hukkuu tulossivujen
paljouteen, koska esim. Google ei ymmärrä asioiden välisiä yhteyksiä
Hakukone näkee ainoastaan irrallisia sanoja ja sivujen välisiä linkkejä
Webin keksijä Tim BernersLee huomasi ongelman jo ennen kuin Googlesta tiedettiin mitään
Merkityksen määrittelyyn – eli siihen, miten asiat liittyvät toisiinsa – ei ollut keinoa
…HAKUKONEIDEN ONGELMAT BernersLeen ratkaisu oli lisätä uusi kerros
tyhmän dokumenttikerroksen päälle Semanttisen kerroksen avulla myös koneet
pystyisivät yhdistelemään asioita BernersLee esitteli ajatuksensa semanttisesta
webistä jo 1990luvun puolessavälissä ja aihe on ponnahdellut esiin säännöllisesti siitä lähtien
SEMANTTISEN WEBIN IDEA Idea on kuvata dokumenttien sisällöt niin, että ne
olisivat paremmin koneiden käsiteltävissä. Jotta kone tietäisi tarkoittaako dokumentissa esiintyvä merkkijono ”Kuusinen” henkilön nimeä, aluetta vai metsämaastoa, on sanan merkitys upotettava dokumenttiin. Koneelle täytyy myös opettaa käsitteiden välisiä suhteita, jotta se osaa sijoittaa sanan oikeaan asiayhteyteen.
ONTOLOGIA Suhteiden kuvaamiseksi semanttinen web
tarvitsee ontologioita. Ne ovat sanastoja, joissa käsitteet on luokiteltu suhteessa toisiinsa Ontologia eli oppi olevaisesta (kreikan sanoista
, 'oleminen' ja 'oppi') on olevaisen ν ντος λογίαὄ ὄperimmäistä olemusta tutkiva filosofian osa (Wikipedia)
SEMANTIIKAN KERROKSET Semanttinen web koostuu olioista, joiden väliset
suhteet on määritelty Olio voi olla esimerkiksi dokumentissa esiintyvä
käsite tai kuva Oliot yksilöidään merkitsemällä ne uritunnisteilla
URI (Uniform Resource Identifier) on merkkijono, jolla kerrotaan tietyn tiedon paikka (URL) tai yksikäsitteinen nimi (URN). Erityisesti URI:n erikoistapausta URL:ää (Uniform Resource Locator) käytetään osoittamaan WWWsivuja
Koska kuvaukset perustuvat sanojen sijasta käsitteisiin, saadaan eroteltua esimerkiksi samalla tavalla kirjoitettavat, mutta erimerkityksiset sanat.
… SEMANTIIKAN KERROKSET (XML) Dokumentin osien merkitsemiseen käytetään
xmlmetakieltä• Xml on oikeastaan joustava kielioppi rakenteisten
dokumenttien määrittämiseen XML (lyhenne sanoista eXtensible Markup Language) on
merkintäkieli tai standardi, jolla tiedon merkitys on kuvattavissa tiedon sekaan. XMLkieltä käytetään sekä formaattina tiedonvälitykseen järjestelmien välillä että formaattina dokumenttien tallentamiseen. XMLkieli on rakenteellinen kuvauskieli, joka auttaa jäsentämään laajoja tietomassoja selkeämmin. XML:n kehittäjä on World Wide Web Consortium. (Wikipedia)
Xmldokumenttien rakenne ja käytettävät elementit määritetään xmlskeemoilla
…SEMANTIIKAN KERROKSET (RDF) Olioiden väliset suhteet kuvataan xmlkieleen perustuvalla
W3C:n standardoimalla rdftietomallilla RDF (Resource Description Framework) on W3C:n standardi, jolla
WWWsivuille voidaan lisätä tietoa sivun merkityksestä. Esimerkiksi sivulla http://www.sakky.fi voi olla
ominaisuus taitaja, jolla on arvo ammattitaito. RDFterminologialla sivu on subjekti, ominaisuus on predikaatti ja arvo on objekti. subjektipredikaattiobjektiyhdistelmät muodostavat kolmikon (triple). subject: http://www.sakky.fi predicate: http://www.taitaja2011.fi/ object: ammattitaito
Rdf tarjoaa vain yleiset säännöt suhteiden kuvaamiseen, suhteiden tarkemmat tyypit kuvataan rdfskeemoilla
Rdfskeemoilla luodaan sanastoja, jolla voidaan ilmaista resurssien välisiä suhteita hieman vastaavaan tapaan kuin olioohjelmoinnissa
Yleisen rdfmallin lisäksi tarvitaan menetelmä jolla esittää tarkempia aihekohtaisia sanastoja
…SEMANTIIKAN KERROKSET (OWL) Sanastojen määrittelyyn kehitetty standardoitu
owlkieli (web ontology language) käyttää sekä uritunnisteita että rdf:n teknisiä puitteita, mutta tarjoaa lisää tapoja ominaisuuksien ja luokkien kuvailemiseen.
Rdf:n ja owl:n ansioista eri alueiden ontologioita ja metatietoja voidaan yhdistellä semanttisella tasolla
…SEMANTIIKAN KERROKSET (SPARQL) Sparql on standardoitu rdfmuotoisten tietojen
kyselykieli. Sen avulla voidaan kehittää sovelluksia, jotka hakevat tietoa verkosta käyttäen yhteistä protokollaa
SPARQL on pohjimmiltaan melko yksinkertainen kyselykieli: kysely nojautuu vahvasti RDFgraafin rakenteeseen
(Patterns) SPARQLkyselyt eivät oletuksena tulkitse
semanttista tietoa (päättely) Kysely voi nyt...
hakea "raakatietoa" RDFdatasta (esim. taulukon URInimiä)
tuottaa tuloksena uuden RDFgraafin (ts. tuottaa RDFdataa)
TIEDON KÄYTTÖKELPOISUUS Metadatan tuottaminen eli annotointi on usein
”pakkopullaa” ja siitä tulee helposti koko semanttisen webin suurin pullonkaula
Semanttisuuden lisäämisellä voidaan parantaa ennen kaikkea materiaalin haettavuutta ja liitettävyyttä
Dokumenteista on paljon helpompi löytää tietoa, jos aineisto on annotoitu systemaattisesti eikä satunnaisin asiasanoin
ANNOTOINTI SOVELLUKSEN AVULLA Ontologioiden hyödyntämiseen ja dokumentin
annotointiin on olemassa sovelluksia Annotointi voidaan esimerkiksi tehdä
puoliautomaattisesti niin, että käyttäjä valitsee sovelluksen ehdottamista asiasanoista sopivat
Jos tuloksen tarkkuudella ei ole suurta väliä, voi annotoinnin toteuttaa täysin automaattisesti
Semanttisten tekniikoiden ansiosta hyvin erityyppiset käsitteet yhdistyvät mielekkäästi ja niitä voidaan selailla, etsiä ja analysoida asiayhteyksien perusteella.
SEMANTTISET HAKUKONEET Semanttiset hakukoneet voivat auttaa
hakusanan yksilöimisessä – esimerkiksi kysymällä tarkoittaako ”Nokia” yritystä vai kaupunkia –ja tarjoamalla muita aiheeseen liittyviä hakusanoja.
Myös tulokset ovat mielekkäämpiä, kun kone ymmärtää synonyymit, kielen rakenteen, asioiden ominaisuudet ja niiden väliset yhteydet
VÄLINEITÄ JA SOVELLUKSIA FinnOntoprojektissa luotiin semanttisen webin ontologioita, työvälineitä ja sovelluksia.
Ontologiat: yleinen suomalainen ontologia Yso yleisen suomalaisen asiasanaston pohjalta laadittu kantaontologia. lisäksi muun muassa toimijaontologia Toimo, paikkaontologia Suo, ajallinen paikkaontologia
Sapo ja historiaontologia Histo. Palvelut:
ontologiapalvelin Onki paikkatiedon ontologiapalvelu Onkipaikka
Välineet: selainpohjainen annotointiväline Saha näkymäperustainen hakukone Ontogator semanttinen suosittelupalvelu Ontodella
Sovellukset: MuseoSuomi, KulttuuriSampo, Opintie ja TerveSuomiportaalit
Semanttisia tekniikoita hyödyntävät esimerkiksi Adobe (dokumenttien automaattisesti muodostettu metadata) uutistoimisto AFP (suomalaisen Profiumin toimittama dokumenttien toimitus ja
jakelujärjestelmä) Nokia (Forum Nokia) Semantic web 2.0 hankkeessa mukana mm Wärtsilä ja Rautaruukki. Kehityskohteena
tietämyksenhallintaan liittyvät, yhteisölliset älykkäät palvelut.