Upload
fumihiro-kato
View
616
Download
2
Embed Size (px)
DESCRIPTION
2014年人工知能学会 Linked Dataとオントロジーセッションの発表
Citation preview
日本語Linked Data Cloudの現状
加藤文彦*1,武田英明*2,小出誠二*1,大向一輝*2 *1情報・システム研究機構,*2国立情報学研究所
!2014年度人工知能学会全国大会(第28回)
オーガナイズドセッション 「OS-19 Linked Dataとオントロジー」 1G5-OS-19b-7
2014-05-12
背景• 数年前までは日本語のLinked Dataは殆ど存在しなかった
• LOD cloud(2011-09-19版)には国立国会図書館のみ
• SIGSWOやLODチャレンジ等によって日本語のデータが増加している
• 日本語における現状を把握したい
2
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
1. データ公開者が日本にいる人・組織等
2. 日本語ラベルあり
3. 1000トリプル以上
4. LOD CloudかJLDCのデータセットとのRDFリンクが10以上
5. 参照解決可能,データダンプ,あるいはSPARQLエンドポイントのいずれかによってデータセットを公開
JLDC: 日本語Linked Data Cloud• 手動で各データセットのトリプル数とRDFリンク数を調査
• 描画ツール: OmniGraffle
• 分類: LOD cloud参考に独断
• 採用基準に合致する場合はLOD cloud内のデータセットも明示
• 現状NDLのみ
採用基準
3
調査方法• 対象: 主にSIGSWOやLODチャレンジ
• SPARQLエンドポイントがある場合
• トリプル数
• SELECT (COUNT(?s) AS ?c) { ?s ?p ?o }
• 一部のTripleStoreが自動的に追加するデータはそのまま含む
• 同一エンドポイント上にGRAPHで複数データセットが含まれている場合はGRAPH指定して個別に計測
• RDFリンク数
• 外部へリンクしているpredicateを調査
• 各predicate毎にobjectをFILTERしてCOUNT
• データダンプあるいは参照解決可能な場合
• データをダウンロードして手元でエンドポイントを立てた後に,上記の方法で調査
4
JLDC: 2013-06-19!
• 17データセット • 2013-06-20 第2回オープ
ンデータ京都勉強会 • http://www.slideshare.net/
fumihiro/20130620-23239372
5
JLDC: 2013-10-15!
• 21データセット • 分類変更 • 追加: RIHN, Earthquake
Archives Fukushima, GeoLOD, Neji LOD
• LODIブログ • http://linkedopendata.jp/?p=411
6
JLDC: 2014-03-10!
• 27データセット • 追加: Statdb, Senkyo, i-
Scover, Allie, LSD, Michishiru
• 一部英語表記に合わせた • 本原稿及びLODIブログ
• http://linkedopendata.jp/?p=486
7
8
分類 データセット数 トリプル数 外部リンク数Industry 1 87,983 112Geographic 2 63,98,759 15,869Life Science 4 140,510,938 278,023Cross-domain 3 108,000,143 1,651,140
Media 2 33,137,619 720,067Government 3 5,415,553 54,351Publication 11 (注)82,097,407 (注)1,238,166UGC 1 140,554 1,994Total 27 (注)375,788,956 (注)3,959,722
LOD cloud 295 31,634,213,770 503,998,829注: Publicationのトリプル数及び外部リンク数はCiNii及びKAKENを除いた分
2014-03-10版
9
分類 データセット数 トリプル数 外部リンク数Industry 1 87,983 112Geographic 2 63,98,759 15,869Life Science 4 140,510,938 278,023Cross-domain 3 108,000,143 1,651,140
Media 2 33,137,619 720,067Government 3 5,415,553 54,351Publication 12 (注)494,567,525 (注)14,225,715UGC 0 0 0Total 28 (注)788,118,520 (注)16,945,277
LOD cloud 295 31,634,213,770 503,998,829注: CiNii Booksを除く
2014-05-12暫定版
採用外データセット例• RDFリンクがない
• 該当例: Radiation LOD等多数
• RDFリンクが間違っている
• 該当例: アイドルLOD
• predicateがowl:seeAlso 且つリンク先がentity URIではない
• 調査時に利用できなかった
• 該当例: Yahoo!カテゴリLOD
10
LOD cloud基準を適用
27 → 1311
1. (参照)解決可能なhttp(s) URIs
2. 良く利用される形式でのRDFデータの解決
• content-negotiationかどうかは問わない
3. 1000トリプル以上
4. 既存のLOD cloudのデータセットとのRDFリンクが50以上
5. RDFクローリングまたはRDFダンプ,あるいはSPARQLエンドポイントによってデータセット全体にアクセス可能
6. 認証なしかつ無料でアクセス可能
LOD cloud採用候補採用基準
12
LOD cloud 採用外ポイント• entity URIsが解決可能ではなく,SPARQLエンドポイントを通して提供されている
• entity URIsが解決可能ではなく,RDFダンプとして提供されている
• オリジナルのデータなしに既存のRDFデータセットのキャッシュ,コピーあるいは集約をしている
• クライアントのデータ入力に対してRDFを生成するサービス
• 他のデータセットとリンクされていない
13
LOD cloud調査方法
データ公開者にトリプル数や外部リンク数等を自己申告させて半自動生成
1.datahub (http://datahub.io) にデータセット登録
2.登録内容をバリデータ(http://validator.lod-cloud.net)に適合
3.LOD cloud作者に連絡
データセット公開者• lodcloud groupに,適合するデータセットを追加
• lodcloud groupからCKAN APIでデータ取得してOmniGraffleファイルを生成
• VoID Generatorは公開されているがOmniGraffleの部分は非公開
• https://github.com/lod-cloud/datahub2void
• http://lod-cloud.net/data/void.ttl
LOD cloud作成者
14
基準外のデータセット数LOD cloud基準 データセット数
(重複あり)1 解決可能なhttp URIs 8
2 RDFデータの解決 9
3 1000トリプル以上 0
4 50以上のRDFリンク 4
5 データセット全体へのアクセス 2
6 認証なしかつ無料のアクセス 1
15
基準1及び2• 該当例: i-Scover等
• (2014-05-19追記: i-Scoverは基準を満たしているとの指摘を受けています.訂正を含んだ最新の図については近日公開予定です.)
• 殆どは1+2両方不足だが,青空文庫LODは2のみ
• Linked Data4原則の2と3に相当
• 基準外だとただのRDFデータセット
LOD cloud基準 データセット数(重複あり)
1解決可能なhttp
URIs 8
2 RDFデータの解決 9
16
基準4• 該当例: saveMLAK等
• 細かいデータセットを省くため
• リンクが多いから良いデータセットとは必ずしも限らない
LOD cloud基準 データセット数(重複あり)
4 50以上のRDFリンク
4
17
基準5
• 該当例: CiNii, KAKEN
• 参照解決可能だがデータ全体にアクセスするのは困難
• NIIのデータについては現在収集して計測中
LOD cloud基準 データセット数(重複あり)
5 データセット全体へのアクセス
2
18
基準6• 該当例: PinQA
• 正確にはLOD cloudの基準ではなく,LOD cloudにおけるオープンの定義
• 但しPinQAは2014年4月25日にサービスが終了したためそもそもデータセットがなくなった
LOD cloud基準 データセット数(重複あり)
6 認証なしかつ無料のアクセス
1
19
Future Work• 調査中のデータセット
• データセット全体の取得: CiNii, KAKEN等
• 前回利用できなかったものの再調査
• 外部リンクがないデータセットを含んだ調査
• 調査作業の改善
• (データセット公開者へ)datahubへの登録やVoIDの提供を推奨
• JLDCのデータを整備してVoIDで公開
• 図生成の自動化
20
まとめ
• 日本語におけるLinked Dataの現状を調査して日本語Linked Data Cloudを作成した
• 本家LOD cloudに採用される可能性を調査した
• データセット提供者には本家のバリデータを通して基準を満たすのを推奨したい
21