21
日本語Linked Data Cloud の現状 加藤文彦 *1 ,武田英明 *2 ,小出誠二 *1 ,大向一輝 *2 *1 情報・システム研究機構, *2 国立情報学研究所 2014年度人工知能学会全国大会(第28回) オーガナイズドセッション 「OS-19 Linked Dataとオントロジー」 1G5-OS-19b-7 2014-05-12

日本語Linked Data Cloudの現状

Embed Size (px)

DESCRIPTION

2014年人工知能学会 Linked Dataとオントロジーセッションの発表

Citation preview

Page 1: 日本語Linked Data Cloudの現状

日本語Linked Data Cloudの現状

加藤文彦*1,武田英明*2,小出誠二*1,大向一輝*2 *1情報・システム研究機構,*2国立情報学研究所

!2014年度人工知能学会全国大会(第28回)

オーガナイズドセッション 「OS-19 Linked Dataとオントロジー」 1G5-OS-19b-7

2014-05-12

Page 2: 日本語Linked Data Cloudの現状

背景• 数年前までは日本語のLinked Dataは殆ど存在しなかった

• LOD cloud(2011-09-19版)には国立国会図書館のみ

• SIGSWOやLODチャレンジ等によって日本語のデータが増加している

• 日本語における現状を把握したい

2

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

Page 3: 日本語Linked Data Cloudの現状

1. データ公開者が日本にいる人・組織等

2. 日本語ラベルあり

3. 1000トリプル以上

4. LOD CloudかJLDCのデータセットとのRDFリンクが10以上

5. 参照解決可能,データダンプ,あるいはSPARQLエンドポイントのいずれかによってデータセットを公開

JLDC: 日本語Linked Data Cloud• 手動で各データセットのトリプル数とRDFリンク数を調査

• 描画ツール: OmniGraffle

• 分類: LOD cloud参考に独断

• 採用基準に合致する場合はLOD cloud内のデータセットも明示

• 現状NDLのみ

採用基準

3

Page 4: 日本語Linked Data Cloudの現状

調査方法• 対象: 主にSIGSWOやLODチャレンジ

• SPARQLエンドポイントがある場合

• トリプル数

• SELECT (COUNT(?s) AS ?c) { ?s ?p ?o }

• 一部のTripleStoreが自動的に追加するデータはそのまま含む

• 同一エンドポイント上にGRAPHで複数データセットが含まれている場合はGRAPH指定して個別に計測

• RDFリンク数

• 外部へリンクしているpredicateを調査

• 各predicate毎にobjectをFILTERしてCOUNT

• データダンプあるいは参照解決可能な場合

• データをダウンロードして手元でエンドポイントを立てた後に,上記の方法で調査

4

Page 5: 日本語Linked Data Cloudの現状

JLDC: 2013-06-19!

• 17データセット • 2013-06-20 第2回オープ

ンデータ京都勉強会 • http://www.slideshare.net/

fumihiro/20130620-23239372

5

Page 6: 日本語Linked Data Cloudの現状

JLDC: 2013-10-15!

• 21データセット • 分類変更 • 追加: RIHN, Earthquake

Archives Fukushima, GeoLOD, Neji LOD

• LODIブログ • http://linkedopendata.jp/?p=411

6

Page 7: 日本語Linked Data Cloudの現状

JLDC: 2014-03-10!

• 27データセット • 追加: Statdb, Senkyo, i-

Scover, Allie, LSD, Michishiru

• 一部英語表記に合わせた • 本原稿及びLODIブログ

• http://linkedopendata.jp/?p=486

7

Page 8: 日本語Linked Data Cloudの現状

8

分類 データセット数 トリプル数 外部リンク数Industry 1 87,983 112Geographic 2 63,98,759 15,869Life Science 4 140,510,938 278,023Cross-domain 3 108,000,143 1,651,140

Media 2 33,137,619 720,067Government 3 5,415,553 54,351Publication 11 (注)82,097,407 (注)1,238,166UGC 1 140,554 1,994Total 27 (注)375,788,956 (注)3,959,722

LOD cloud 295 31,634,213,770 503,998,829注: Publicationのトリプル数及び外部リンク数はCiNii及びKAKENを除いた分

2014-03-10版

Page 9: 日本語Linked Data Cloudの現状

9

分類 データセット数 トリプル数 外部リンク数Industry 1 87,983 112Geographic 2 63,98,759 15,869Life Science 4 140,510,938 278,023Cross-domain 3 108,000,143 1,651,140

Media 2 33,137,619 720,067Government 3 5,415,553 54,351Publication 12 (注)494,567,525 (注)14,225,715UGC 0 0 0Total 28 (注)788,118,520 (注)16,945,277

LOD cloud 295 31,634,213,770 503,998,829注: CiNii Booksを除く

2014-05-12暫定版

Page 10: 日本語Linked Data Cloudの現状

採用外データセット例• RDFリンクがない

• 該当例: Radiation LOD等多数

• RDFリンクが間違っている

• 該当例: アイドルLOD

• predicateがowl:seeAlso 且つリンク先がentity URIではない

• 調査時に利用できなかった

• 該当例: Yahoo!カテゴリLOD

10

Page 11: 日本語Linked Data Cloudの現状

LOD cloud基準を適用

27 → 1311

Page 12: 日本語Linked Data Cloudの現状

1. (参照)解決可能なhttp(s) URIs

2. 良く利用される形式でのRDFデータの解決

• content-negotiationかどうかは問わない

3. 1000トリプル以上

4. 既存のLOD cloudのデータセットとのRDFリンクが50以上

5. RDFクローリングまたはRDFダンプ,あるいはSPARQLエンドポイントによってデータセット全体にアクセス可能

6. 認証なしかつ無料でアクセス可能

LOD cloud採用候補採用基準

12

Page 13: 日本語Linked Data Cloudの現状

LOD cloud 採用外ポイント• entity URIsが解決可能ではなく,SPARQLエンドポイントを通して提供されている

• entity URIsが解決可能ではなく,RDFダンプとして提供されている

• オリジナルのデータなしに既存のRDFデータセットのキャッシュ,コピーあるいは集約をしている

• クライアントのデータ入力に対してRDFを生成するサービス

• 他のデータセットとリンクされていない

13

Page 14: 日本語Linked Data Cloudの現状

LOD cloud調査方法

データ公開者にトリプル数や外部リンク数等を自己申告させて半自動生成

1.datahub (http://datahub.io) にデータセット登録

2.登録内容をバリデータ(http://validator.lod-cloud.net)に適合

3.LOD cloud作者に連絡

データセット公開者• lodcloud groupに,適合するデータセットを追加

• lodcloud groupからCKAN APIでデータ取得してOmniGraffleファイルを生成

• VoID Generatorは公開されているがOmniGraffleの部分は非公開

• https://github.com/lod-cloud/datahub2void

• http://lod-cloud.net/data/void.ttl

LOD cloud作成者

14

Page 15: 日本語Linked Data Cloudの現状

基準外のデータセット数LOD cloud基準 データセット数

(重複あり)1 解決可能なhttp URIs 8

2 RDFデータの解決 9

3 1000トリプル以上 0

4 50以上のRDFリンク 4

5 データセット全体へのアクセス 2

6 認証なしかつ無料のアクセス 1

15

Page 16: 日本語Linked Data Cloudの現状

基準1及び2• 該当例: i-Scover等

• (2014-05-19追記: i-Scoverは基準を満たしているとの指摘を受けています.訂正を含んだ最新の図については近日公開予定です.)

• 殆どは1+2両方不足だが,青空文庫LODは2のみ

• Linked Data4原則の2と3に相当

• 基準外だとただのRDFデータセット

LOD cloud基準 データセット数(重複あり)

1解決可能なhttp

URIs 8

2 RDFデータの解決 9

16

Page 17: 日本語Linked Data Cloudの現状

基準4• 該当例: saveMLAK等

• 細かいデータセットを省くため

• リンクが多いから良いデータセットとは必ずしも限らない

LOD cloud基準 データセット数(重複あり)

4 50以上のRDFリンク

4

17

Page 18: 日本語Linked Data Cloudの現状

基準5

• 該当例: CiNii, KAKEN

• 参照解決可能だがデータ全体にアクセスするのは困難

• NIIのデータについては現在収集して計測中

LOD cloud基準 データセット数(重複あり)

5 データセット全体へのアクセス

2

18

Page 19: 日本語Linked Data Cloudの現状

基準6• 該当例: PinQA

• 正確にはLOD cloudの基準ではなく,LOD cloudにおけるオープンの定義

• 但しPinQAは2014年4月25日にサービスが終了したためそもそもデータセットがなくなった

LOD cloud基準 データセット数(重複あり)

6 認証なしかつ無料のアクセス

1

19

Page 20: 日本語Linked Data Cloudの現状

Future Work• 調査中のデータセット

• データセット全体の取得: CiNii, KAKEN等

• 前回利用できなかったものの再調査

• 外部リンクがないデータセットを含んだ調査

• 調査作業の改善

• (データセット公開者へ)datahubへの登録やVoIDの提供を推奨

• JLDCのデータを整備してVoIDで公開

• 図生成の自動化

20

Page 21: 日本語Linked Data Cloudの現状

まとめ

• 日本語におけるLinked Dataの現状を調査して日本語Linked Data Cloudを作成した

• 本家LOD cloudに採用される可能性を調査した

• データセット提供者には本家のバリデータを通して基準を満たすのを推奨したい

21