Upload
hideaki-takeda
View
1.066
Download
0
Embed Size (px)
Citation preview
Linked Data による分野連携型データベースの枠組み武田英明
国立情報学研究所、総合研究大学院大学[email protected]
第 20 回情報知識学フォーラム , 同志社大学 , 2015 年 12 月 12 日
Linked Open Data (LOD)• オープンでリンクできるデータ– 今の Web が“文書の Web” 、 LOD は“データの Web”
• Linked Data の 4 原則– 事物を URI を使って名前付けしよう– 事物の参照が HTTP URI でできるようにしよう– URI を参照したときに関連情報が手に入るようにしよう– 外部へのリンクも含めよう
(必ずしもオープンとは限らない⇒ Linked Data )
文書の Web
データの Web
このデータに対応する別のデータ
このデータに別のデータと同じ
この属性の意味は?
異なるデータ源のデータが相互に結びつく
オープンデータへの5つのステップ
どんなフォーマットでよいからオープンラインセスでデータ公開 例: PDF, jpg
コンピュータが処理可能なフォーマットで公開例: xls, doc
オープンに利用できるフォーマットで公開 例: csv
RDF(と SPARQL)でデータ公開 例: RDFa, RDFストア
他へのリンクを入れたデータを公開
ライセンスをつけずにデータをWebで公開
オープンライセンス
機械可読フォーマット
オープンフォーマット
RDF
LOD
Linked Data の記述のしかた• RDF(+RDFS, OWL) の利用
– 簡便な記述方法: < 主語 > < 述語 > < 目的語 > .
<http://www-kasm.nii.ac.jp/~takeda#me> rdfs:type foaf:Person .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:name “ 武田英明” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:gender “male” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:knows <http://southampton.rkbexplorer.com/id/person07113> .
http://www-kasm.nii.ac.jp/~takeda#me
http://southampton.rkbexplorer.com/id/person07113
foaf:knows
foaf:Person
rdfs:type
“ 武田英明” “male”
foaf:name foaf:gender
“1955-06-08”
Linked Data の記述http://www-kasm.nii.ac.jp/
~takeda#mehttp://southampton.rkbexplorer.com/
id/person-07113
foaf:knows
foaf:Person
rdfs:type
foaf:name foaf:gender
<http://dbpedia.org/resource/Tim_Berners-Lee>
owl:sameAs
dbpprop:birthDatedbpprop:birthPlacedbpprop:name
dbpedia:Computer_scientistdbpprop:occupation
“ 武田英明” “male”
“London, England”“Sir Tim Berners-Lee”
LOD が作る世界
LOD Cloud
"Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/"
PublicationsLife Sciences
Cross-DomainSocial Networking
GeographicGovernment
MediaUGC
Linguistics
PublicationsLife Sciences
Cross-DomainSocial Networking
GeographicGovernment
MediaUGC
Linguistics
PublicationsLife Sciences
Cross-DomainSocial Networking
GeographicGovernment
MediaUGC
Linguistics
LOD Cloud• この図にあるは Data Hub と呼ばれるデータカタログに登録されたデータセットのうち、以下の基準を満たしたものである [Cyganiak 11] 。1. 解決可能な http://( または https://) URIs でなければならない。
2. content-negotiation 等でよく使われる RDF 形式 (RDFa, RDF/XML, Turtle, N-Triples) のいずれかで RDF データを解決できなければならない。
3. 1000 トリプル以上含んでいる。4. 他の既存データセットとの RDF リンクが 50 以上 ある。5. RDF クローリングまたは RDF ダンプ,あるいは SPARQL エンドポイントによってデータセット全体にアクセスできる6. 認証なしかつ無料でアクセスできる。
LOD が作る世界• 世界では– 500 以上の dataset が相互につながる– DBpedia がハブ。
• 日本では?– まだまだ– まずは Dbpedia Japanese が必要
DBpedia プロジェクト• 2007 年に最初の公開• 現在–125 言語のデータセット–ドイツあたり中心にヨーロッパの人達ががんばっている–ソースコードは GitHub に移行 :
https://github.com/dbpedia
–メーリングリストは Sourceforge のまま : http://sourceforge.net/p/dbpedia/mailman/
14
DBpedia i18n chapters
• 各言語のサービスをサブドメインで提供– http://xx.dbpedia.org– 現在 18 言語– 自主的に手を上げた誰かがホスト
• データセットは本家のものか独自生成
15
DBpedia Japanese• i18n chapter の 1 つ• 日本語リソースのハブ• LOD 促進• http://ja.dbpedia.org
• LODAC プロジェクトの一部
16
DBpedia Japanese 沿革• 2012-05-09 最初の URI 版公開• 2012-06-30 IRI 版公開• [ 不定期更新 ]
• 2013-06-17 日本語 Wikipedia オントロジー, WordNet-jaへのリンク• 2015-01-14 現状の最新版 (20141230 版 )
• 2015-07-08 J-GLOBAL knowledge へのリンク• 2015-10-09 geonames.jp へのリンク (NEW!)
17
Dbpedia Japanese は効果があったのか?
日本語 Linked Data Cloud図• 本家よりも緩い条件• 日本にいる人・組織• 日本語ラベルを含む• 1000 トリプル以上• dereference/ データダンプ /SPARQL
Endpoint• LOD クラウドか JLDCへのリンク
データセット間のリンクの中身• 地名– dbpedia, geonames.org …
• 人名– dbpedia, viaf, ulan,
• 組織– reference.data.gov.uk, ISIL
• トピックス , 言語– LDSH, NDLSH, WordNet
• 領域的用語 /概念– Bio2rdf, J-Global Knowledge, LSD
構造的対応は元々レファレンス的知識であるものが主
個別リンクの例• 東日本大震災アーカイブ• LSD (mesh)• Dbepdia Japanese– セシウム、バス、空気、自動車、ガソリン、災害、マスク、手
• 環境リポジトリプロトタイプシステム (地球研 )• LSD(mesh)• Dbpedia Japanese– 二酸化炭素、カカオ、アルミニウム、動物、塩素、大気、染色体、炭素、結石、農業、ガス、コーヒー、シカ、地震学、昆虫、近親勾配、殺虫剤、鉄
Linked Data による分野連携型データベースの枠組み• データセットそのものがつながっている– 作り方:データ間のリンクをいれる– 使い方:仮想的な統合データベース (pay-as-you-
go approach)• データセットが共通のスキーマで書かれている。– 作り方:なるべくスキーマを使い回す– 使い方:アプリ側が共通の SPARQL Query でデータ獲得、統合処理
データ間のリンクをいれる• sameAs データベースの利用• Open refine の reconcile の利用
Open refine の使い方プロジェクト作成• プロジェクトを開いた画面
RDF Refine のメニューボタン(なければ RDF Refine のインストールが失敗)
表の各列の操作ボタン(列の追加・削除,列名の変更などが可能)DBpedia Japanese 上にある同じ名所・史跡のデータとつないでみるには・・・
Reconciliation(リコンシリエーション)RDF Refine の使い方 松村 冬子http://www.slideshare.net/takeda/rdf-refine
• 例) DBpedia Japanese に含まれる同じ名所のデータをつなぐ• 今回は SPARQL エンドポイントを利用 → まず設定
Reconciliation: 外部データとつなぐ
①②③
④
⑤
SPARQL エンドポイント URLhttp://ja.dbpedia.org/sparql
DBpedia の場合はVirtuoso を選択
⑥ウィンドウ下部のOK をクリック
(プロジェクト内でのエンドポイントの名前)
• 例)施設名が rdfs:label に含まれる DBpedia Japanese のデータ項目が一致するデータを探す
①
② ③ ④
⑤DBpedia Japanese をクリック(右側画面が表示されるまで少し時間がかかります)
同じデータを検索開始検索状況が画面上部に表示される
• 例)施設名が rdfs:label に含まれる DBpedia Japanese のデータReconciliation完了
全データ中マッチしたデータの割合青字:マッチしたデータ黒字:マッチしなかったデータ
なるべくスキーマを使い回す• 違うデータセットでも同じ項目なら、同じフォーマットを使う
– →共通の方法でデータにアクセスできる。– 共通のスキーマ項目群+独自の項目群
• 微妙に違うときはどうする?– Dump Down アプローチ:
• 一つの項目記述=正確なデータ記述は独自項目での記述&共通スキーマでの記述
• 例– 基本情報
• Dublin Core– 人物情報
• FOAF (Friend-Of-A-Friend)– 緯度経度
• geo– 年月日– …
Usage of Common Vocabularies
Prefix Namespace Used by
dc http://purl.org/dc/elements/1.1/ 66 (31.88 %)
foaf http://xmlns.com/foaf/0.1/ 55 (26.57 %)dcterms http://purl.org/dc/terms/ 38 (18.36 %)
skos http://www.w3.org/2004/02/skos/core# 29 (14.01 %)
akt http://www.aktors.org/ontology/portal# 17 (8.21 %)
geo http://www.w3.org/2003/01/geo/wgs84_pos# 14 (6.76 %)
mo http://purl.org/ontology/mo/ 13 (6.28 %)
bibo http://purl.org/ontology/bibo/ 8 (3.86 %)
vcard http://www.w3.org/2006/vcard/ns# 6 (2.90 %)
frbr http://purl.org/vocab/frbr/core# 5 (2.42 %)
sioc http://rdfs.org/sioc/ns# 4 (1.93 %)
LDOW2011 Presentation, Christian Bizer (Freie Universität Berlin), 2011 30
スキーマを探すには• Linked Open Vocabulary (LOV)– スキーマの共有基盤
– Registration of schemata• Search of schemata
– http://lov.okfn.org/dataset/lov/• schema.org– google, yahoo!, Microsoft ら推進する共通のスキーマ群の提供
• IMI 共通語彙基盤– 経産省、 IPA が推進する基礎的な語彙の提供
31
SPARQL Timeliner
• コンテンツの表示アプリを作成できる仕組み– 日付を時系列で表示–位置(緯度経度)を地図に表示
SPARQL Timeliner
まとめ• LOD は分野を超え、連携できるデータ公開の枠組み• どうやって実現する?– ハブとなるデータセットの公開: Dbpedia• 2012 年以降着実に浸透
– つなげるデータ、つながるデータの作り方• つなげる→データ間のリンクをつくる• つながる→スキーマ共有