Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
3.7-7
PENINGKATAN INTERLINKING PADA LINKED DATAHETEROGEN MELALUI ONTOLOGY ALIGNMENT
Inne Gartina Husein1), Benhard Sitohang2), Saiful Akbar3)
1), 2), 3) Sekolah Tinggi Elektro dan Informatika Institut Teknologi BandungJalan Ganesa No. 10, Bandung 40132
1) Fakultas Ilmu Terapan Universitas TelkomJalan Telekomunikasi No.1 Terusan Buah Batu, Bandung 40257
Email : [email protected] 1), [email protected] 2), [email protected] 3)
Abstrak
Membangun interlinking pada Web of data merupakansalah satu isu penting, agar jaringan data dari berbagaisumber data heterogen dapat saling terhubung.Berbagai macam cara telah dilakukan parapengembang, seperti cara manual, transformasi URIdan memanfaatkan satu ontologi. Demikian juga telahdikembangkan beberapa tool untuk membangun link.Namun tidak ada diantara cara dan tool yang telahdikembangkan memanfaatkan ontology alignment (OA)di dalam pencarian relasi antar entitas pada sumberdata terutama untuk topik data yang berbeda. Tujuanmakalah ini adalah menelaah hubungan antara OAdengan membangun interlinking pada Web of data.Hasilnya adalah berupa keterkaitan yang pentingdiantara keduanya, yakni dimana OA dapatdimanfaatkan untuk menemukan relasi antar entitassehingga memudahkan pengembang (ataupun tool)dalam membangun interlinking yang kuat.
Kata kunci : interlinking, Web of data, ontologyalignment, relasi, entitas
Web of data merupakan sebuah jaringan yang dihasikandari sumber data terstruktur yang dipublikasikan ke Web.Kumpulan data dari berbagai sumber tersebutdihubungkan dengan link yang dinyatakan secaraeksplisit, yang disebut Linked Data (LD).
Salah satu isu penting pada LD adalah bagaimanamembangun keterhubungan antar berbagai kumpulandata yang heterogen secara semantik. Heterogenitassecara semantik dapat dijelaskan dari sisi terminologi,yakni pada saat dua istilah berbeda digunakan untukmerepresentasikan entitas yang sama pada dua buahkumpulan data. Sebagai contoh adalah paper vs articulo,atau paper vs memo, atau paper vs article [1]. Istilahadalah kosa kata (vocabulary) yang digunakan untukmerepresentasikan entitas-entitas pada kumpulan data.
Kumpulan data pada Web of data direpresentasikandengan satu atau lebih vocabulary atau ontologi, mulaidari skema basis data sederhana sampai ontologi berskalabesar [2].
Pada sisi lain dikatakan bahwa terdapat lebih dari 31triliun pernyataan RDF yang dipublikasikan sebagai LD
namun hanya terdapat 500 juta link di dalamnya. Hal inimenunjukkan lemahnya keterhubungan dari satukumpulan data ke kumpulan data lainnya [3].
Manfaat utama dari keterhubungan tersebut adalahterciptanya integrasi data, yang memungkinkan terjadinyapertukaran dan bahkan berbagi data pada Web of data.Dengan demikian dibutuhkan suatu cara untukmenemukan keterhubungan atau link pada berbagaivocabulary atau ontologi tersebut yang dapatmeningkatkan keterhubungan pada link data, baik dalamjumlah maupun kualitas link.
Tujuan dari makalah ini adalah mempertimbangkankegiatan pensejajaran ontologi (ontology alignment) dankegiatan membangun keterhubungan (interlinking) padaLD sebagai dua kegiatan yang saling terkait. Sertabagaimana kedua kegiatan tersebut dapat salingmendukung dalam meningkatkan interlinking pada LD.
Setelah menjelaskan mengenai latar belakang, makalahini akan membahas mengenai berbagai pendekatan yangtelah dilakukan sebelumnya berkaitan denganpeningkatan interlinking, kemudian membahas prinsip-prinsip LD, dan ontology alignment. Bagian terakhiradalah kesimpulan yang dihasilkan.
Pada bagian ini dibahas beberapa pendekatan yang telahdilakukan guna membangun interlinking.
A. ODD-linkerSebuah interlinking tool yang digunakan untuk mencarirecord yang sama dengan teknik mining. ODD-linkermenggunakan query SQL untuk mengidentifikasi danmembandingkan duplicate record pada basis datarelasional. Keluaran dari sistem ini adalah spesifikasi linkdalam bahasa LinQL yang menggambarkan duplicaterecord yang menjadi acuan untuk membanguninterlinking pada sumber data yang akan dipublikasikansebagai LD [4]. Teknik interlinking tersebutmengandalkan pada record yang sama namanya danberulang pada dua kumpulan data relasional.
B. R2R Vocabulary MappingSebuah framework yang dibangun untuk memetakankorespondensi istilah dengan cara mengubah istilahyang digunakan sumber data asal (source) menjadiistilah yang sesuai dengan sumber data yang dituju(target). Framework ini mendukung keterlibatan
1. Pendahuluan 2. Pembahasan
ISSN : 2302-3805STMIK AMIKOM Yogyakarta, 6-7 Februari 2016Seminar Nasional Teknologi Informasi dan Multimedia 2016
3.7-8
pengguna dalam proses pemetaan vocabulary sehinggapengguna dapat melakukan edit dan eksekusi prosespemetaan [3]. Dengan kata lain, proses pengubahanistilah dilakukan secara manual oleh pengguna, sehinggakeberhasilan proses mapping sangat tergantung olehketelitian dan penguasaan ilmu pengguna.
C. Silk - Link Discovery FrameworkSilk adalah sebuah framework yang menghasilkanspesifikasi link guna menggambarkan hubungan semantikantar dua entitas. Spesifikasi link dibuat secara manualoleh pengguna melalui antarmuka Silk atau dapat jugamenggunakan spesifikasi link yang telah dibuatsebelumnya oleh orang lain. Berdasarkan spesifikasi linkyang telah dibuat sebelumnya, maka akan dibuat linksecara otomatis [3], [5].
Beberapa prinsip mengenai Web of data menurut TimBerners-Lee [6] yakni :1) Menggunakan URI sebagai nama sesuatu2) Menggunakan HTTP URI sehingga pengguna dapat
melihat nama tersebut3) Menggunakan standar RDF dan SPARQL dalam
mencari URI dan menyediakan informasi berguna4) Terdapat link ke URI lainnya, sehingga pengguna
dapat menemukan hal-hal lain.
Masalah utama pada Web of data adalah menciptakanlink antar entitas-entitas yang ada pada kumpulan datayang berbeda. Seperti disebutkan di atas bahwa linkmerupakan hubungan antar URI pada LD. Beberapaskema URI yang dapat digunakan adalah [7]:
ftp://ftp.is.co.za/rfc/rfc1808.txt http://www.ietf.org/rfc/rfc2396.txt ldap://[2001:db8::7]/c=GB?objectClass?one mailto:[email protected] news:comp.infosystems.www.servers.unix tel:+1-816-555-1212 telnet://192.0.2.16:80/
Umumnya link merupakan peryataan owl:sameAs,maka ilustrasi link pada LD dapat dilihat pada gambar 1di bawah ini [2]. Saat diidentifikasi adanya link antarkumpulan data, maka link tersebut harus dipublikasikanagar dapat digunakan ulang oleh kumpulan data lainnya.
Gambar 1 Link dengan owl:sameAs
Berbagai cara dapat dilakukan untuk mengidentifikasikanlink antar kumpulan data, seperti cara manual, caratransformasi URI dan cara membandingkan dengansebuah ontologi [2]. Cara manual adalah melakukan
observasi manual ke sumber data dan dengan bantuansuatu tool maka dibuatlah link antar URI yang dianggapsama (gambar 2).
Suatu aturan dapat dibuat untuk mengidentifikasikesamaan sumber data, misalnya penamaan seorang artispada kumpulan data. Sebagai contoh kumpulan dataLast.FM merepresentasi URI untuk seorang artis adalahdengan pola “nama_depan + nama_belakang”.Sedangkan pada Dbpedia menggunakan pola“namadepan_namabelakang”. Penamaan dapatdiseragamkan mengikuti URI target. Sebagai ilustrasidapat dilihat pada gambar 3.
Kedua cara (gambar 2 dan gambar 3) masihmenggunakan cara-cara manual dan belummemanfaatkan vocabulary atau ontologi dalammembangun interlinking.
Gambar 2 Manual Interlinking [8]
Gambar 3 Transformasi URI
Gambar 4 Mencocokkan dengan sebuah ontologi
Diketahui bahwa sumber data pada LDmerepresentasikan data ke dalam vocabulary atauontologi. Bagaimana hubungan antara URI denganontologi, baik URI sumber maupun target akandicocokkan dengan sebuah ontologi. Cara ketiga
URI1 : http://musicbrainz.org/artist/
f27ec8db-af05-4f36-916e-3d57f91ecf5e
URI2 : http://dbpedia.org/
resource/michael_jackson
owl:sameAs
Observasi Secara Manual
Interlinking
http://www.last.fm/music/
Michael+Jackson
http://dbpedia.org/resource/
michael_jackson
owl:sameAs
Interlinking
Transformasi URI sumberke URI target
http://dbpedia.org/resource/
michael_jackson
http://www.last.fm/music/
Michael+Jackson
Http://dbpedia.org/resource/
michael_jackson
owl:sameAs
Interlinking
Transformasi URI sumberke URI target
URI1 URI2
owl:sameAs
Pencocokkan dengan sebuahkelas dan properti suatu
ontologi (O1)
Interlinking
Apabila cocok, makabuat link
owl:sameAs
Masalah Pada Interlinking
ISSN : 2302-3805STMIK AMIKOM Yogyakarta, 6-7 Februari 2016Seminar Nasional Teknologi Informasi dan Multimedia 2016
3.7-9
merupakan proses identifikasi entitas denganmencocokannya dengan sebuah kelas dan properti padaontologi tersebut (gambar 4).
Sebagai contoh, URI1 dan URI2 dicocokkan dengansebuah kelas pada sebuah Music Ontology (MO).Apabila kedua URI memiliki kesamaan dengan propertidari kelas (pada ontologi) maka kedua URI didefinisikanmemiliki hubungan atau link. Ilustrasi dapat dilihat padagambar 5.
Gambar 5 Ilustrasi Pencocokkan kelas MusicArtist
Ketiga cara yang telah dijelaskan di atas adalah cara-carapembangunan interlinking pada level instance, yaitu padaURI, dan belum menyentuh level diatasnya yakni levelskema.
Pemanfaatan ontologi sebagai sumber daya pengetahuanpada LD masih sebatas mencocokan dengan kelasdan/atau properti yang sama. Apabila pembangunaninterlinking pada LD hanya berpaku pada level instancemaka akan menghasilkan hubungan yang lemah ataudisebut very loosely coupled [9].
Web of data terdiri dari berbagai sumber data yangheterogen, baik dari sisi semantik maupun dari sisidomain pengetahuan. Heterogenitas semantik antara lainadalah perbedaan penggunaan terminologi pada berbagaisumber data. Hal ini terjadi saat dua istilah berbedadigunakan untuk merepresentasikan entitas yang sama.Sebagai contoh adalah paper vs articulo, atau paper vs
memo, atau paper vs article. Heterogenitas dapat pulaberarti perbedaan domain pengetahuan artinya setiapsumber data berbeda-beda topiknya. Sebagai contoh topikpemerintahan, hiburan (musik, film, artis), bio-informatika, publikasi, geospasial dan yang lainnya.
Maka dengan itu dibutuhkan proses interlinking yangdapat menghubungkan berbagai sumber data baik secarasemantik maupun secara domain pengetahuan [10].
Pensejajaran ontologi atau ontology alignment adalahidentifikasi relasi antar elemen yang individual dariberbagai ontologi dengan tujuan membanguninteroperabilitas antar sumber data yang menggunakanontologi yang berbeda secara individual [11]. Tujuan dariontology alignment (OA) adalah menghilangkanheterogenitas tersebut sehingga menghasilkankorespondensi pada dua atau lebih sumber data [12].Output dari proses ini adalah sebuah alignment yangmenggambarkan korespondensi antar dua buah ontologiyang dicocokkan.
Sebelum menjadi data terstruktur yang dipublikasikan,LD sendiri bersumber dari kumpulan data yangheterogen. Perlu dilakukan proses transformasi agarkumpulan data heterogen dapat diubah menjadi modeldata yang sama, yakni model data RDF. Setelah itudibuatkan pemetaan relasi antar pernyataan RDFsehingga data dapat dipublikasikan pada Web sebagaidata yang saling terhubung [6].
Terdapat kemiripan antara pemetaan relasi pada LDdengan alignment yang dihasilkan oleh proses OA,mengingat alignment adalah gambaran relasi antarelemen pada dua ontologi. Penulis mempertimbangkanuntuk menyisipkan OA dalam proses interlinking padaLD. Sebagai ilustrasi dapat dilihat pada gambar 6bahwasanya OA merupakan tahapan penting dalammembangun interlinking pada LD. OA membantumenemukan
Gambar 6 Proses Interlinking Data Menggunakan Ontology Alignment
Musicbrainz
URI1
nmdepan nmbelakang
Michael Jackson
DBPedia
URI2
nmdepan nmbelakang
michael jackson
mo:MusicArtist
nmdepan nmbelakang
properti
nmdepan
owl:sameAsInterlinking
=
==
=
Ontology Alignment Mendukung ProsesInterlinking
ISSN : 2302-3805STMIK AMIKOM Yogyakarta, 6-7 Februari 2016Seminar Nasional Teknologi Informasi dan Multimedia 2016
3.7-10
Gambar 7 Proses Ontology Alignment [13]
Gambar 8 Link Level Skema
Pada gambar 7 diilustrasikan bahwa korespondensi(atau alignment) antar entitas-entitas tidak hanyamenghasilkan relasi ekivalen yaitu sama (=). Namunjuga menghasilkan relasi disjoin atau tidak sama (⊥),serta menghasilkan relasi subsumption seperti lebihspesifik (⊑) dan lebih umum (⊒). Proses OA tidakhanya menghasilkan interlinking dengan levelinstance (yakni relasi owl:sameAs) namun juga levelskema yakni relasi owl:equivalentClass danrdfs:subClassOf. Link pada level skema akanmenghasilkan keterhubungan yang kuat antar datapada LD [9].
Gambar 8 mengilustrasikan relasi pada level skemadengan memanfaatkan sumber eksternal.Diasumsikan kelas2 merupakan subkelas dari kelas3,sehingga menghasilkan relasi rdfs:subClassOf dariKelas12 ke Kelas21.
Gambar 9 mengilustrasikan berbagai berbagai bentukrelasi yang dihasilkan dari OA, seperti sama (=),tidak sama (⊥), lebih spesifik (⊑) dan lebih umum(⊒) dari ontologi sumber O1 ke ontologi tujuan O2.Relasi yang dihasilkan menjadi acuan dalammembangun link pada level skema antar dua LDyang heterogen. Proses OA yang dilakukan secara
otomatis oleh sistem dapat mengurangi kesalahandalam membuat link apabila dibuat secara manualoleh pengguna, seperti pendekatan-pendekataninterlinking lain yang telah dibahas sebelumnya.Dengan demikian OA dapat meningkatkan validitaslink pada LD sehingga mendukung integrasi datayang optimal.
Gambar 9 Ilustrasi Relasi Pada O1 dan O2 [14]
Salah satu isu penting pada LD adalah bagaimanamembangun keterhubungan (atau interlinking) antarberbagai kumpulan data yang heterogen secarasemantik. Diketahui terdapat lebih dari 31 triliunpernyataan RDF yang dipublikasikan sebagai LDnamun hanya terdapat 500 juta link di dalamnya. Halini menunjukkan lemahnya keterhubungan dari satukumpulan data ke kumpulan data lainnya [3].
Manfaat utama dari interlinking adalah terciptanyaintegrasi data, yang memungkinkan terjadinyapertukaran dan bahkan berbagi data pada Web ofdata. Dengan demikian dibutuhkan suatu cara untukmenemukan keterhubungan pada berbagai berbagaisumber data.
Tujuan dari penelitian ini adalah mempertimbangkanproses pensejajaran ontologi (ontology alignment)dan proses membangun keterhubungan (interlinking)pada LD sebagai dua kegiatan yang saling terkait.Serta bagaimana kedua kegiatan tersebut dapat salingmendukung dalam meningkatkan interlinking padaLD.
3. Kesimpulan
ISSN : 2302-3805STMIK AMIKOM Yogyakarta, 6-7 Februari 2016Seminar Nasional Teknologi Informasi dan Multimedia 2016
3.7-11
Berdasarkan hasil penelaah berbagai macam caramembangun interlinking yang ada dengan segalakekurangannya, maka ontology alignment (OA)menjadi satu proses yang dapat mengurangikekurangan-kekurangan tersebut. OA menghasilkanrelasi tidak hanya pada level instance namun jugapada level skema, yang memperkuat interlinkingsehingga membantu dalam pertukaran dan berbagidata antar sumber data. Selain itu OA dapatmelakukan alignment pada kelas yang bukan hanyarelasi ekivalensi namun juga relasi subsumption padalevel skema. Dimana diketahui bahwa link pada levelskema lebih optimal dibandingkan link pada levelinstance. Pada gambar 6 dijelaskan bahwa OAmerupakan tahapan penting pada proses interlinkingdata, dengan menyediakan korespondensi antarelemen secara otomatis. Dengan demikian OA dapatmendukung integrasi data pada Web of data secaraoptimal.
Daftar Pustaka[1] J. Euzenat dan P. Shvaiko, Ontology Matching. Springer,
2013.[2] F. Scharffe dan J. Euzenat, “Linked data meets ontology
matching : enhancing data linking through ontologyalignments,” 2013.
[3] V. Bryl, C. Bizer, R. Isele, M. Verlic, S. G. Hong, S. Jang,M. Y. Yi, dan K. Choi, “Interlinking and KnowledgeFusion,” in LNSC 8661, 2014, vol. 8661, pp. 70–89.
[4] O. Hassanzadeh, L. Lim, A. Kementsietsidis, dan M. Wang,“A declarative framework for semantic link discovery overrelational data,” in Proceedings of the 18th InternationalConference on World wide web, 2009, pp. 1101–1102.
[5] J. Volz, C. Bizer, M. Gaedke, dan G. Kobilarov, “Silk - ALink Discovery Framework for the Web of Data,” in CEURWorkshop Proceedings, 2009, vol. 538.
[6] T. Berners-Lee, “Linked Data - Design Issues,” 2009.[Online]. Available at:http://www.w3.org/DesignIssues/LinkedData.html.[Diakses: 30-Aug-2015].
[7] D. Wood, M. Zaidman, L. Ruth, dan M. Hauseblas, LinkedData : Structured Data on the Web. Manning Shelter Island,2014.
[8] F. Scharffe dan J. Euzenat, “MeLinDa: an interlinkingframework for the web of data,” 2011.
[9] P. Jain, P. Z. Yeh, K. Verma, R. G. Vasquez, M. Damova, P.Hitzler, dan A. P. Sheth, “Contextual ontology alignment ofLOD with an upper ontology: A case study with proton,” inLecture Notes in Computer Science (including subseriesLecture Notes in Artificial Intelligence and Lecture Notes inBioinformatics), 2011, vol. 6643 LNCS, no. PART 1, pp.80–92.
[10] P. Jain, P. Hitzler, A. A. P. Sheth, K. Verma, dan P. P. Z.Yeh, “Ontology alignment for linked open data,” in Iswc,2010, pp. 402–417.
[11] M. Ehrig, Ontology Alignment - Bridging the Semantic Gap.Springer, 2007.
[12] P. Shvaiko dan J. Euzenat, “Ontology matching: state of theart and future challenges,” in Knowledge and DataEngineering, IEEE …, 2013, vol. 1, no. X, pp. 158–176.
[13] I. G. Husein, B. Sitohang, dan S. Akbar, “OntologyMatching : State of the Art,” Bandung, Indonesia, 2014.
[14] P. Shvaiko dan J. Euzenat, Tutorial on Schema and OntologyMatching. 2005.
Biodata Penulis
Inne Gartina Husein, memperoleh gelar SarjanaKomputer (S.Kom.) Jurusan ManajemenInformatika STMIK LIKMI Bandung, lulus tahun2000. Memperoleh gelar Magister Teknik (M.T.)Program Pasca Sarjana Magister Teknik InformatikaInstitut Teknologi Bandung, lulus tahun 2005. Saatini terdaftar sebagai mahasiswa Program DoktoralSekolah Teknik Elektro dan Informatika (STEI)Intitut Teknologi Bandung dan sebagai Dosen Tetapdi Universitas Telkom Bandung.
Benhard Sitohang, memperoleh gelar Insinyur (Ir),Jurusan Teknik Elektro Institut Teknologi Bandung,lulus tahun 1978. Memperoleh gelar MagisterBidang Basis Data (DEA) dari Universite desSciences et Techniques du languadoc, Perancis, lulustahun 1980. Memperoleh gelar Doktor Bidang BasisData (Dr.Ing.) dari Universite des Sciences etTechniques du languadoc, Perancis, lulus tahun1983. Saat ini sebagai Guru Besar di Sekolah TeknikElektro dan Informatika Institut Teknologi Bandung.
Saiful Akbar, memperoleh gelar Sarjana Teknik(S.T.) Jurusan Informatika Institut TeknologiBandung, lulus tahun 1997. Memperoleh gelarMagister Teknik (M.T.) Program Pasca SarjanaMagister Teknik Informatika Institut TeknologiBandung, lulus tahun 2002. Memperoleh gelarDoctor of Technology (Dr.techn) Doctoral ProgramJohannes Kepler Universitat Linz, Austria, lulustahun 2007. Menyelesaikan Program Paska Doktoraldi NTNU, Norwegia, lulus tahun 2010. Saat inisebagai Dosen Tetap di Sekolah Teknik Elektro danInformatika Institut Teknologi Bandung.
ISSN : 2302-3805STMIK AMIKOM Yogyakarta, 6-7 Februari 2016Seminar Nasional Teknologi Informasi dan Multimedia 2016
3.7-12
ISSN : 2302-3805STMIK AMIKOM Yogyakarta, 6-7 Februari 2016Seminar Nasional Teknologi Informasi dan Multimedia 2016