34
Linked Data にににににににににににににににににに にににに にににににににに ににににににににに t [email protected] に 20 ににににににににににに , ににににに , 2015 に 12 に 12 に

Linked Dataによる分野連携型データベースの枠組み

Embed Size (px)

Citation preview

Page 1: Linked Dataによる分野連携型データベースの枠組み

Linked Data による分野連携型データベースの枠組み武田英明

国立情報学研究所、総合研究大学院大学[email protected]

第 20 回情報知識学フォーラム , 同志社大学 , 2015 年 12 月 12 日

Page 2: Linked Dataによる分野連携型データベースの枠組み

Linked Open Data (LOD)• オープンでリンクできるデータ– 今の Web が“文書の Web” 、 LOD は“データの Web”

• Linked   Data の 4 原則– 事物を URI を使って名前付けしよう– 事物の参照が HTTP URI でできるようにしよう– URI を参照したときに関連情報が手に入るようにしよう– 外部へのリンクも含めよう

(必ずしもオープンとは限らない⇒ Linked Data )

Page 3: Linked Dataによる分野連携型データベースの枠組み

文書の Web

Page 4: Linked Dataによる分野連携型データベースの枠組み

データの Web

このデータに対応する別のデータ

このデータに別のデータと同じ

この属性の意味は?

異なるデータ源のデータが相互に結びつく

Page 5: Linked Dataによる分野連携型データベースの枠組み

オープンデータへの5つのステップ

どんなフォーマットでよいからオープンラインセスでデータ公開 例: PDF, jpg

コンピュータが処理可能なフォーマットで公開例: xls, doc

オープンに利用できるフォーマットで公開 例: csv

RDF(と SPARQL)でデータ公開 例: RDFa, RDFストア

他へのリンクを入れたデータを公開

ライセンスをつけずにデータをWebで公開

オープンライセンス

機械可読フォーマット

オープンフォーマット

RDF

LOD

Page 6: Linked Dataによる分野連携型データベースの枠組み

Linked Data の記述のしかた• RDF(+RDFS, OWL) の利用

– 簡便な記述方法: < 主語 > < 述語 > < 目的語 > .

<http://www-kasm.nii.ac.jp/~takeda#me> rdfs:type foaf:Person .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:name “ 武田英明” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:gender “male” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:knows <http://southampton.rkbexplorer.com/id/person07113> .

http://www-kasm.nii.ac.jp/~takeda#me

http://southampton.rkbexplorer.com/id/person07113

foaf:knows

foaf:Person

rdfs:type

“ 武田英明” “male”

foaf:name foaf:gender

Page 7: Linked Dataによる分野連携型データベースの枠組み

“1955-06-08”

Linked Data の記述http://www-kasm.nii.ac.jp/

~takeda#mehttp://southampton.rkbexplorer.com/

id/person-07113

foaf:knows

foaf:Person

rdfs:type

foaf:name foaf:gender

<http://dbpedia.org/resource/Tim_Berners-Lee>

owl:sameAs

dbpprop:birthDatedbpprop:birthPlacedbpprop:name

dbpedia:Computer_scientistdbpprop:occupation

“ 武田英明” “male”

“London, England”“Sir Tim Berners-Lee”

Page 8: Linked Dataによる分野連携型データベースの枠組み

LOD が作る世界

Page 9: Linked Dataによる分野連携型データベースの枠組み

LOD Cloud

"Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/"

PublicationsLife Sciences

Cross-DomainSocial Networking

GeographicGovernment

MediaUGC

Linguistics

Page 10: Linked Dataによる分野連携型データベースの枠組み

PublicationsLife Sciences

Cross-DomainSocial Networking

GeographicGovernment

MediaUGC

Linguistics

Page 11: Linked Dataによる分野連携型データベースの枠組み

PublicationsLife Sciences

Cross-DomainSocial Networking

GeographicGovernment

MediaUGC

Linguistics

Page 12: Linked Dataによる分野連携型データベースの枠組み

LOD Cloud• この図にあるは Data Hub と呼ばれるデータカタログに登録されたデータセットのうち、以下の基準を満たしたものである [Cyganiak 11] 。1. 解決可能な http://( または https://) URIs でなければならない。

2. content-negotiation 等でよく使われる RDF 形式 (RDFa, RDF/XML, Turtle, N-Triples) のいずれかで RDF データを解決できなければならない。

3. 1000 トリプル以上含んでいる。4. 他の既存データセットとの RDF リンクが 50 以上 ある。5. RDF クローリングまたは RDF ダンプ,あるいは SPARQL エンドポイントによってデータセット全体にアクセスできる6. 認証なしかつ無料でアクセスできる。

Page 13: Linked Dataによる分野連携型データベースの枠組み

LOD が作る世界• 世界では– 500 以上の dataset が相互につながる– DBpedia がハブ。

• 日本では?– まだまだ– まずは Dbpedia Japanese が必要

Page 14: Linked Dataによる分野連携型データベースの枠組み

DBpedia プロジェクト• 2007 年に最初の公開• 現在–125 言語のデータセット–ドイツあたり中心にヨーロッパの人達ががんばっている–ソースコードは GitHub に移行 :

https://github.com/dbpedia

–メーリングリストは Sourceforge のまま : http://sourceforge.net/p/dbpedia/mailman/

14

Page 15: Linked Dataによる分野連携型データベースの枠組み

DBpedia i18n chapters

• 各言語のサービスをサブドメインで提供– http://xx.dbpedia.org– 現在 18 言語– 自主的に手を上げた誰かがホスト

• データセットは本家のものか独自生成

15

Page 16: Linked Dataによる分野連携型データベースの枠組み

DBpedia Japanese• i18n chapter の 1 つ• 日本語リソースのハブ• LOD 促進• http://ja.dbpedia.org

• LODAC プロジェクトの一部

16

Page 17: Linked Dataによる分野連携型データベースの枠組み

DBpedia Japanese 沿革• 2012-05-09 最初の URI 版公開• 2012-06-30 IRI 版公開• [ 不定期更新 ]

• 2013-06-17 日本語 Wikipedia オントロジー, WordNet-jaへのリンク• 2015-01-14 現状の最新版 (20141230 版 )

• 2015-07-08 J-GLOBAL knowledge へのリンク• 2015-10-09 geonames.jp へのリンク  (NEW!)

17

Page 18: Linked Dataによる分野連携型データベースの枠組み

Dbpedia Japanese は効果があったのか?

Page 19: Linked Dataによる分野連携型データベースの枠組み
Page 20: Linked Dataによる分野連携型データベースの枠組み

日本語 Linked Data Cloud図• 本家よりも緩い条件• 日本にいる人・組織• 日本語ラベルを含む• 1000 トリプル以上• dereference/ データダンプ /SPARQL

Endpoint• LOD クラウドか JLDCへのリンク

Page 21: Linked Dataによる分野連携型データベースの枠組み

データセット間のリンクの中身• 地名– dbpedia, geonames.org …

• 人名– dbpedia, viaf, ulan,

• 組織– reference.data.gov.uk, ISIL

• トピックス , 言語– LDSH, NDLSH, WordNet

• 領域的用語 /概念– Bio2rdf, J-Global Knowledge, LSD

構造的対応は元々レファレンス的知識であるものが主

Page 22: Linked Dataによる分野連携型データベースの枠組み

個別リンクの例• 東日本大震災アーカイブ• LSD (mesh)• Dbepdia Japanese– セシウム、バス、空気、自動車、ガソリン、災害、マスク、手

• 環境リポジトリプロトタイプシステム (地球研 )• LSD(mesh)• Dbpedia Japanese– 二酸化炭素、カカオ、アルミニウム、動物、塩素、大気、染色体、炭素、結石、農業、ガス、コーヒー、シカ、地震学、昆虫、近親勾配、殺虫剤、鉄

Page 23: Linked Dataによる分野連携型データベースの枠組み

Linked Data による分野連携型データベースの枠組み• データセットそのものがつながっている– 作り方:データ間のリンクをいれる– 使い方:仮想的な統合データベース (pay-as-you-

go approach)• データセットが共通のスキーマで書かれている。– 作り方:なるべくスキーマを使い回す– 使い方:アプリ側が共通の SPARQL Query でデータ獲得、統合処理

Page 24: Linked Dataによる分野連携型データベースの枠組み

データ間のリンクをいれる• sameAs データベースの利用• Open refine の reconcile の利用

Page 25: Linked Dataによる分野連携型データベースの枠組み

Open refine の使い方プロジェクト作成• プロジェクトを開いた画面

RDF Refine のメニューボタン(なければ RDF Refine のインストールが失敗)

表の各列の操作ボタン(列の追加・削除,列名の変更などが可能)DBpedia Japanese 上にある同じ名所・史跡のデータとつないでみるには・・・

Reconciliation(リコンシリエーション)RDF Refine の使い方 松村 冬子http://www.slideshare.net/takeda/rdf-refine

Page 26: Linked Dataによる分野連携型データベースの枠組み

• 例) DBpedia Japanese に含まれる同じ名所のデータをつなぐ• 今回は SPARQL エンドポイントを利用 → まず設定

Reconciliation: 外部データとつなぐ

①②③

SPARQL エンドポイント URLhttp://ja.dbpedia.org/sparql

DBpedia の場合はVirtuoso を選択

⑥ウィンドウ下部のOK をクリック

(プロジェクト内でのエンドポイントの名前)

Page 27: Linked Dataによる分野連携型データベースの枠組み

• 例)施設名が rdfs:label に含まれる DBpedia Japanese のデータ項目が一致するデータを探す

② ③ ④

⑤DBpedia Japanese をクリック(右側画面が表示されるまで少し時間がかかります)

同じデータを検索開始検索状況が画面上部に表示される

Page 28: Linked Dataによる分野連携型データベースの枠組み

• 例)施設名が rdfs:label に含まれる DBpedia Japanese のデータReconciliation完了

全データ中マッチしたデータの割合青字:マッチしたデータ黒字:マッチしなかったデータ

Page 29: Linked Dataによる分野連携型データベースの枠組み

なるべくスキーマを使い回す• 違うデータセットでも同じ項目なら、同じフォーマットを使う

– →共通の方法でデータにアクセスできる。– 共通のスキーマ項目群+独自の項目群

• 微妙に違うときはどうする?– Dump Down アプローチ:

• 一つの項目記述=正確なデータ記述は独自項目での記述&共通スキーマでの記述

• 例– 基本情報

• Dublin Core– 人物情報

• FOAF (Friend-Of-A-Friend)– 緯度経度

• geo– 年月日– …

Page 30: Linked Dataによる分野連携型データベースの枠組み

Usage of Common Vocabularies

Prefix Namespace Used by

dc http://purl.org/dc/elements/1.1/ 66 (31.88 %)

foaf http://xmlns.com/foaf/0.1/ 55 (26.57 %)dcterms http://purl.org/dc/terms/ 38 (18.36 %)

skos http://www.w3.org/2004/02/skos/core# 29 (14.01 %)

akt http://www.aktors.org/ontology/portal# 17 (8.21 %)

geo http://www.w3.org/2003/01/geo/wgs84_pos# 14 (6.76 %)

mo http://purl.org/ontology/mo/ 13 (6.28 %)

bibo http://purl.org/ontology/bibo/ 8 (3.86 %)

vcard http://www.w3.org/2006/vcard/ns# 6 (2.90 %)

frbr http://purl.org/vocab/frbr/core# 5 (2.42 %)

sioc http://rdfs.org/sioc/ns# 4 (1.93 %)

LDOW2011 Presentation, Christian Bizer (Freie Universität Berlin), 2011 30

Page 31: Linked Dataによる分野連携型データベースの枠組み

スキーマを探すには• Linked Open Vocabulary (LOV)– スキーマの共有基盤

– Registration of schemata• Search of schemata

– http://lov.okfn.org/dataset/lov/• schema.org– google, yahoo!, Microsoft ら推進する共通のスキーマ群の提供

• IMI 共通語彙基盤– 経産省、 IPA が推進する基礎的な語彙の提供

31

Page 32: Linked Dataによる分野連携型データベースの枠組み

SPARQL Timeliner

• コンテンツの表示アプリを作成できる仕組み– 日付を時系列で表示–位置(緯度経度)を地図に表示

Page 33: Linked Dataによる分野連携型データベースの枠組み

SPARQL Timeliner

Page 34: Linked Dataによる分野連携型データベースの枠組み

まとめ• LOD は分野を超え、連携できるデータ公開の枠組み• どうやって実現する?– ハブとなるデータセットの公開: Dbpedia• 2012 年以降着実に浸透

– つなげるデータ、つながるデータの作り方• つなげる→データ間のリンクをつくる• つながる→スキーマ共有