Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
Copyright 2002, Fujitsu Laboratories Ltd.
Semantic Webとその応用
富士通研究所 ITメディア研究所INTAPセマンティックWeb委員会
津田 宏E-mail: [email protected]
URL: http://www.net.intap.or.jp/INTAP/s-web/
2002.10.30 OSPG基盤技術研究部会
Copyright 2002, Fujitsu Laboratories Ltd.
2
Semantic Webへの期待と思惑
・・・・等など
AI系
Web系
XML系Webサービス系
検索エンジン
KM
コンテンツ系
オントロジ、知識表現、エージェン
トなら本家
現実世界で面白いことができれば
検索サービス vs.Search Engin Optimizer
の新たな局面?
オントロジ(マッチ)に期待
e-learning, DAM, DRM
知識管理のブレイクスルー?
良い規格でイニシア
ティブ
Topic Map の方が現実的
EAI
異種システム連携が楽になる?
W3C
TheSemanticWeb
TheSemanticWeb
2
Copyright 2002, Fujitsu Laboratories Ltd.
3
目次
Semantic Webとはメタデータ、RDF、RDFスキーマ
Semantic Webの応用事例検索
統合・利用
Semantic Webの課題
おわりに
Copyright 2002, Fujitsu Laboratories Ltd.
4
Semantic Webとは
Webの発明者であるT.Berners-Leeが提唱。エージェントが意味的に処理できる次世代Webを目指す(1998-)。現在、実用に向けたプロジェクトが各所で開始されている
米: W3C(規格群策定中:右図), DARPA DAMLプロジェクト(2000-)欧: EU ISTプログラム, 各国電子政府日本: 遅れているが
注目度は高い
キー技術:メタデータ
WWW2002, W3C trackより
3
Copyright 2002, Fujitsu Laboratories Ltd.
5
Webのこれから(予想)
Webページ数の増加:情報過多はますますひどくなる
3.2億(98.4)→8億(99.7) → 10億(00.1) → 21億(00.7) → 40億以上? (01~)
XML,メタデータ比率が増加
HTML50%
0%
XMLDAML
2000 2005 2010(by Mury Burke,
SWMU2, 2001.11http://www.daml.org/meetings/2001/11/swmu2/)
Copyright 2002, Fujitsu Laboratories Ltd.
6
XML,RDF, データ、文書
CSV, … Text,html, … XML?
XML XML
RDF
メタデータ
4
Copyright 2002, Fujitsu Laboratories Ltd.
7
メタデータ: 再び
メタデータ: データに関する情報を表すデータ(例) 書籍に対する書誌情報
タイトル、作者、出版社、概要、….
情報過多を背景に再びメタデータが脚光
実際の書籍(大量、サイズ、異種フォーマット、内容雑多、分散した書庫に置いてある)
…………
著者タイトル出版社出版年…メタデータ
(図書カード)
同一形態、フォーマット、スキーマ(要素セット)で整理
メタデータ検索
図書館情報検索etc.
全文検索
サーチエンジンetc.
メタデータ+全文検索
Semantic Web検索?
Copyright 2002, Fujitsu Laboratories Ltd.
8
メタデータ:何に使える?
検索精度向上、言葉で探せないメディアの検索
交換統合
異種、分散したデータのとりまとめ
クリアリングハウス(所在情報管理)、電子政府公開情報、地理情報システム(GIS)…
活用データの利用時情報の管理
フィルタリング、ディジタル資産管理(DAM)、…
セマンティックWebでは、人だけでなくエージェントもメタデータを解釈
5
Copyright 2002, Fujitsu Laboratories Ltd.
9
セマンティックWebとメタデータ
(WWW2002, W3C trackよりhttp://www.w3.org/)
RDF Schema (RDF Vocabulary Description Language)(W3Cドラフト)
RDF model & syntax(1999.2 W3C勧告)
RDF = Resource Description Frameworkメタデータの記述モデル(3つ組)と、流通のためのXML表現
クラス階層、プロパティ階層、属性の制約(range, domain)の定義方法
個々のメタデータでなく、ソフトウェアによる処理のためにメタデータの記述形式(入れ物)を規定
Copyright 2002, Fujitsu Laboratories Ltd.
10
RDF (model)
・RDF (Resource Description Framework)(リソース, プロパティ, 値) の三つ組みでメタデータを表そうというモデル
http://www. intap.or.jp/s-web/(INTAPセマンティックWeb委員会ページ)
author
清水
所属 NEChttp://www.nec.com/
E-mailshimizu@intapリソース
プロパティ
値ステートメント
6
Copyright 2002, Fujitsu Laboratories Ltd.
11
RDF (syntax)
交換・流通のためにXML構文を持つ
<rdf:RDF><rdf:Description about=“http://www.intap.or.jp/s-web/”><s:author>清水</s:author>
</rdf:Description></rdf:RDF>
<s:author rdf:resource=“http://ww.intap.or.jp/id/1716/”v:name=“清水” v:Email=shimizu@intap/>
<s:author><rdf:Description about=“http://ww.intap.or.jp/id/1716/”><v:name>清水</v:name><v:Email>shimizu@intap</v:Email>
</rdf:Description></s:author>
値がさらにリソースとなる場合
or
このURLに関して、以下の属性がある
Copyright 2002, Fujitsu Laboratories Ltd.
12
RDF スキーマ (RDFS)
クラス階層、プロパティ階層、値の制約(range, domain)などを定義
http://intap.or.jp/s-web/ 清水author
Document Person
author
rdfs:domain
rdfs:range
rdfs:type rdfs:type
RDF
RDFS
creator
rdfs:rangeWork
rdfs:subClassOfrdfs:subPropertyOf
rdfs:type
7
Copyright 2002, Fujitsu Laboratories Ltd.
13
Semantic Webの応用
現状:まだキラーアプリはない
大学・国プロトタイプレベルで応用が出始めた段階
検索
W3C TAP-KB, Semantic Search
ユビキタス検索
統合/利用
Open Directory Project
Dublin Core~各国電子政府, e-learning
電子申請
Copyright 2002, Fujitsu Laboratories Ltd.
14
(1) 情報検索
「今日開いている藤沢の歯医者を探したい」
現在: 「藤沢 AND 歯医者」で結果を一つ一つ調べていくしかないàゴミ: 藤沢医院、個人の日記名称、住所、
開業日、…
メタデータ付与
• 精度(適合率・再現率)向上:ゴミやもれが減る• 従来検索しづらかった要求への対応
•「この近くの」「明日開いている」:状況に応じた(ユビキタス)検索
• 検索結果と関連情報の連携
8
Copyright 2002, Fujitsu Laboratories Ltd.
15
検索例(1)
「歯医者」
文書=bag of wordsの世界
歯医者
例えば歯医者のように
山本歯科
田中デンタルクリニック
藤沢で開業30年の歯医者です
職種=歯科医
メタデータ(意味)の世界
職種=歯科医
職種=歯科医
タイプ=日記
職種=歯科医
Copyright 2002, Fujitsu Laboratories Ltd.
16
検索例(2)
「今日」
文書=bag of wordsの世界
水曜休診
歯科診察日:月水眼科診察日:木金
土日休診
2002/11/1オープン予定
休診:第1,3水曜
Close=Wed
メタデータ(意味)の世界
Close=1st Wed, 3rd Wed
OpenDate=2002-11-1
Open=Mon,Wed
Close=Sat,Sun
Date=2002-10-23
DOW=Wedマッチング
【背景知識】・一週間は月加水目金土日・Open, Closeは反対・カレンダー
9
Copyright 2002, Fujitsu Laboratories Ltd.
17
検索例(3)
「近くの」
文書=bag of wordsの世界
住所:東京都世田谷区祖師谷3-5-6
千代田区神保町3~8
アクセス:東急東横線中目黒駅内
住所:左京区西木屋町四条上ル
Address=東京都世田谷区祖師谷3丁目5番地6号 メタデータ(意味)
の世界
Address=東京都千代田区神保町3丁目8番
Address=東京都目黒区中目黒
POINT=(東経140.50,北緯35.44)
マッチング
【背景知識】・地図(緯度経度変換)
Address_Kyoto=京都府京都市左京区西木屋町四条上ル
Copyright 2002, Fujitsu Laboratories Ltd.
18
(1-1) W3CのTAP-KB
W3Cサイト内情報のSemantic Web Searchシステム対象: 人, 組織(working groups, activities, domains), calander / scheduling
information, technical reports, services, glossaryなどに関する、DB情報、
HTML, XMLファイルをRDFで統合
メタデータはRDF/XMLに変換してTAP Knowledge Baseに格納
人を検索すると、Googleの結果 + その人のプロフィール、プロジェクト、ドキ
ュメント、会合などの関連情報も表示
TAP-KB(RDF)
HTMLàRDF(XSLT)
RDB schema à RDF(dbview)
検索エンジン(Google)RDB
aggregation
HTML(規格書)
Semantic Search
queryanswer(マージ)
10
Copyright 2002, Fujitsu Laboratories Ltd.
19http://tap.stanford.edu/w3c.htmlhttp://www.w3.org/2002/Talks/www2002-w3ct-swdemo-em/
TAP KB (Semantic Search)
“Miller” の検索例 Eric Miller
の関連情報
Copyright 2002, Fujitsu Laboratories Ltd.
20
Semantic Search
「Miller」
文書=bag of wordsの世界
E.Miller S. Miller
J. Miller
RDF (TAP-KB)
Eric Miller
TM1
name
photo e-mail
Eric Miller
miller@...
S.W activity
leader
W3Cactivity
em.jpg
author
TM2
author
ontologymatch
(名寄せ)
11
Copyright 2002, Fujitsu Laboratories Ltd.
21
(1-2) ユビキタス観光情報検索
GPS
個人プロファイル
PDA(旅行中)
観光情報ナビゲーション
テキスト中の表現を手がかりに地域情報
自動抽出
テキスト中の表現を手がかりにカテゴリ
自動付与
メタデータ自動抽出
統合地域メタデータ(RDF/XML)
Web DBBBS
・人/場所/時間・人/過去履歴(場所、日時)に合わせた情報提供
住所à 緯度経度変換
人/時間/場所に合わせた
ビューを生成
ヘテロなリソース
オントロジー(辞書)
観光メタデータ属性例(共通属性) 組織名,住所,緯度経度, 電話,URL,..(レストラン固有属性)料理種別,定休日,席数,予約URL,…位置情報(住所、緯度経度).
個人プロファイル属性例(必須属性) 年齢範囲, 性別(趣味属性)趣味カテゴリ
PC(旅行前 )
ユビキタス検索
(e! プロジェクト2002-2003)
「この近くの和風レストランは?」
地図情報(G-XML)
Copyright 2002, Fujitsu Laboratories Ltd.
22
(2) 統合・利用
メタデータ規格におけるRDF地理情報、コンテンツマネジメント、e-learning, …まだRDFは共通フォーマットとして市民権を得ていない。が、Dublin Coreとは親和性が高い。Dublin Coreは電子政府などでも使われつつある。
RDFの利用: 自動化?ODP(Open Directory Project) : 交換
RSS(RDF Site Summary) : ポータル支援
電子申請: メタデータパッケージ
Semantic Web MiningWeb Miningの次のステップ?
12
Copyright 2002, Fujitsu Laboratories Ltd.
23
(2-1) Dublin Core (ダブリン・コア)
書誌情報、ネットワーク資源などの情報資源の、基本的なメタデータ要素(エレメント)。15の属性: (Dublin Core Metadata Element Set:DCMES)
Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights特定の表現形式はもたないが、XML,RDFにより記述可能
1995年、米オハイオ州ダブリンで開催された国際会議の結果が元となり、このように命名
わずか15ではあるが、世界的に合意されたことに意義
DCMI (Dublin Core Metadata Initiative)がメンテナンスhttp://dublincore.org/
Copyright 2002, Fujitsu Laboratories Ltd.
24
(2-2)各国電子政府メタデータ
行政公開文書の、国/省庁横断的管理各国で、DCMESを拡張してエレメントを定義
(欧州)英e-GMS (e-Government Metadata Standard)EU MIReG (Managing Information Resources for e-Government)デンマークOIO-metadata (Offentlig Information Online)アイルランドIPSMS
(豪州)オーストラリア AGLS (Australian Government Locator Service)ニュージーランドNZGLS (New Zealand GLS)
(米)GILS (Government Information Locator Service)
さて、日本は? cf. 電子政府の総合窓口
13
Copyright 2002, Fujitsu Laboratories Ltd.
25
他のメタデータ規格色々汎用
DC(Dublin Core), RSS,
マルチメディアMPEG7
電子政府MIReG, e-GMS, AGLS, e-Gov
E-learningLOM(Learning Object Metadata), SCORM, LIP
ニュース、テレビ放送XMLNews, NewsML, TV Anytime, ARIB, ….
音楽MusicBrainz, …
地理・観光情報G-XML, JMP, …
フィルタリングPICS
ユーザプロファイルP3P
コンテンツ管理cIDF (Content ID Forum),
…..
現実には、これらの規格でRDFに準じたものはまだ数少ない
今後、メタデータ間の連携、二次利用が
すすめばRDFの有難みがでてくる
Copyright 2002, Fujitsu Laboratories Ltd.
26
(2-3) Open Directory Project
ODP: 8000人以上のボランティアにより、Yahoo的なWebディレクトリを運用するプロジェクト
Netscape, Google (ディレクトリ) 等にもデータを提供
http://dmoz.org/
ODPのデータは、RDFによりダウンロード可能
カテゴリ階層、カテゴリ毎のURL一覧、各URLのメタ情報(dc:title, dc:description)
14
Copyright 2002, Fujitsu Laboratories Ltd.
27
(2-4) RSSRDF Site Summary or Rich Site Summary
http://web.resource.org/rss/1.0/spec
チャンネル (サマリーとする対象)の以下のようなメタデータを記述URI, タイトル, 画像
個々のアイテム
更新頻度、間隔 (syndication モジュール)日本では、http://rss-jp.net/x/ など。海外でも、ニュースポータルが多数存在
ニュースサイト
RSS
ニュースタイトル
新着情報
ニュースポータルサイト
自動収集
Copyright 2002, Fujitsu Laboratories Ltd.
28
(2-5) 電子申請プロジェクト
「XML文書対応インターネット電子申請システム」(1998)
http://www.nmda.or.jp/nmda/ipa/sin/ (ニューメディア開発協会)
複数の異種文書(申請書や図面など)からなる申請文書のメタデータを、RDFで記述
申請書類(XML)
添付書類(アプリ形式:雑多)
申請書類meta
添付書類meta
リンクmeta
メタデータ(RDF)パッケージ(XML+雑多)
15
Copyright 2002, Fujitsu Laboratories Ltd.
29
(2-6) Semantic Webマイニングへ
Webマイニング大量のWeb情報から、有益な知識を抽出、マイニング
研究紹介: Web自動ディレクトリYahooのようなディレクトリを自動生成
収集・選別・分類の全作業を自動化し、ページのメタデータを自動生成技術: ジャンル、地域、作成時間、人気度。規模: 1億URL以上から、100万URL程度を選別技術:Webリンク解析、自然言語処理(情報抽出、自動分類)応用: ディレクトリ(EIP)、Webの時系列の動きをモニタ、同義語辞書構築支援。
自動化技術による擬似Semantic Webの実現津田他, Webディレクトリのためのページメタデータの自動付与の試み, 情報学シンポジウム2002
Copyright 2002, Fujitsu Laboratories Ltd.
30
自動Webディレクトリ地域・ジャンルの多観点を利用者が自在に組合せ
市レベルで絞込み
サブカテゴ リで絞込み
優良・サイト入り口のURL (1億URLか
ら厳選した50万URL以上)
サイトの時系列解析へ
時間で絞込み
16
Copyright 2002, Fujitsu Laboratories Ltd.
31
(例)toto
第1回(いきなり1億円があたって話題に)
夏ごろから失速
ページメタデータ(リンク人気度)の時系列分析
Webの動きを分析
Copyright 2002, Fujitsu Laboratories Ltd.
32
….…
コーパスとしてのWeb
….…
www.nec.co.jp
….…
….… ….
…
….NEC…
NEC
….…
….…….…
….日本電気…
日本電気こちら
….…
….…
….…
….…
….…….
…
….
…. ….….nec.co.jp
に特徴的なキーワード nec.co.jp
も指すが他も指すキーワード
ホーム
戻る
企業名辞書企業URLを指すアンカー文字列の分析
• 多くの人々がどう呼んでいるか
17
Copyright 2002, Fujitsu Laboratories Ltd.
33
例:企業名辞書
http://www.rkb.inf.ne.jpRKBテレビ,RKB,RKB毎日放送,RKB毎日放送(株),RKB毎日放送(TBS系),RKB毎日放送(1278KHZ),アールケービー毎日放送,…
今後、よりゴミの少ないメタデータから行うことで、精度向上 (オントロジー構築の半自動化)
http://www.panahome.co.jpナショナル住宅産業,ナショナル住宅産業(株),パナホーム,ナショナル住宅,ナショナル住宅産業株式会社,ナショ住,PANAHOME,…
Webマイニングでここまでできる
Semantic Webマイニングへ
Copyright 2002, Fujitsu Laboratories Ltd.
34
(cf) *マイニング
大量生データ(POS, …)
データマイニング
ルール etc.
大量生Text(mail, コールセ
ンター, …)
テキストマイニング
ルール etc.
大量Web
Webマイニング
rule, メタデータ、同義語, etc.
Semantic Web
Semantic Webマイニング
Ontology ?
18
Copyright 2002, Fujitsu Laboratories Ltd.
35
Semantic Webの応用:今後
ビジネス領域コンテンツマネジメント: メタデータ管理、資産管理(DAM)、著作権管理(DRM)
EAI (Enterprise Application Integration)
KM, 情報共有: P2Pとの組合せ
Webサービス技術の補完オントロジー変換による異種データの連携 (B2B) 「セマンティックWebサービス」
e-learning教材の活用や効率的作成に、LOMは今後有望。Web情報と連携が増えればRDF化するメリットも。
Copyright 2002, Fujitsu Laboratories Ltd.
36
SWの課題(1)メタデータ付与
メタデータデッドロック「メタデータがあればこんな良いサービスが作れるのに…」VS 「こん
なサービスがあるのだったら、ちょっと大変だけどメタデータを作っても良いのに…」
一般に、メタデータを作るのは大変なうえ、みんながやらないと費用対効果も見えにくい。(HTMLとの相違。ontologyも同様)
[対策] メタデータ(半)自動化技術メタデータエディタ
メタデータジェネレータ: 情報抽出、自動分類技術 (自然言語処理技術, AI技術)の応用ターゲット半自動化 à サービスを早期立ち上げà メタデータがさらに増えるàサービスさらに発展à… というポジティブなフィードバックの第一歩
コンテンツマネジメント製品に入りつつある
MetaTagger (Interwoven社), Interstage ContentWiz (Fujitsu), ….
19
Copyright 2002, Fujitsu Laboratories Ltd.
37
SWの課題(2) Trust
メタデータのトラストHTML METAタグはなぜ機能しなかったか?
ワードスパム攻撃
良く検索される語をMETAタグに大量に入れることで、サーチエンジンの結果を騙してページ露出度を上げる攻撃
Internet: 性悪説なので、Tim Berners-Leeの階層最上位の「Trust」が伴わないとだめ。
検索ならまだ良いが、エージェントによる情報の組み合わせの中にスパムが入ったら?
「RDFスパム」は多分おこるが、どう対処する?
[対策] 信頼できるコミュニティ(イントラネット、エクストラネット)からすすめる。電子政府など閉じた応用。
その間に解決を待つ。例えば、GoogleのPageRankのような技術の応用か?
Copyright 2002, Fujitsu Laboratories Ltd.
38
SWの課題(3) 収集
RDFをどう集め運用するか?規格としては決まっていない (cf. WebサービスにおけるUDDI)Webロボットによる収集:DAML Crawlerなど
全HTTPトラフィックの7%がロボットによる (Web Side Story, 2001.9) 収集スピード限界による更新の遅れ。1日=約85000秒。
Push (smart pull) : RSSなど特定サイトに限られる
登録制RDFWeb (http://rdfweb.org/)Web ringを利用情報の陳腐化へどう対応するか
20
Copyright 2002, Fujitsu Laboratories Ltd.
39
SWの課題(4) エージェント系アプリ
エージェント系アプリはSW応用の本命Telescript(by J. White, General Magic社,1995)など、エージェントによる自動処理は昔から話題
cf. 山崎・津田編訳, 「Telescript言語入門」ASCII, 1996 (絶版:-)
(例)エージェントがフライト時刻をモニタして、飛行機が遅れたら教えてくれ、時間を無駄にしないで済む家の近くのカメラ屋で希望の品が一番安いところを探してくれ、お金を無駄にしない。会議日程に合わせてホテル・交通手段(乗継ぎ)をまとめて検索・予約してくれる(オーケストレーション)
セマンティックWeb = エージェントが機能する「場」をメタデータやオントロジーで提供する
Copyright 2002, Fujitsu Laboratories Ltd.
40
エージェント系アプリ(続)
現時点のSWではやはりうまく行かないどのようにしてエージェントに要求を与えるか?どこで間違ったかトレースが必要(Proof)だとしても、そもそも無矛盾ではないので、解が正しいかは利用者が一つ一つ確認Trustがないので、どこかの情報が嘘・誤りかも
cf. Telescriptを始め、これまでのエージェントでは、閉じた信頼できる世界を相手にしていた
約款、課金など、さらに利用者が一つ一つ判断
21
Copyright 2002, Fujitsu Laboratories Ltd.
41
おわりに
Semantic Webは魔法のような技術ではないメタデータ・オントロジーをちゃんと書けばそれなりに便利な世界になるという、ごくまっとうな考え方。
AI系の人も多く参入しているが、話を複雑にせず、現実的なアプローチを(自戒)
Semantic Webの応用の方向1. 世界規模のThe Semantic Webを目指す
2. イントラネット、エクストラネットなど限定した世界での実現
3. SW技術(RDF, OWLなど)を別領域に適用する
Copyright 2002, Fujitsu Laboratories Ltd.
42
参考URL
W3C http://www.w3.org/2001/sw/DAML http://www.daml.org/
Dublin Core Metadata Initiative http://dublincore.org/INTAPセマンティックWeb委員会: http://www.net.intap.or.jp/INTAP/s-web/
委員による各種文書翻訳、解説(情報処理7月号原稿)、各種コンファレンス資料などを公開
Web Kanzakihttp://www.kanzaki.com/docs/sw/