32
情情情情IT) 情情 情情情情KT) 情 山山 山山 山山山山 山山山山 山山山山山山山山山山山山山山山

情報技術( IT) から 知識技術( KT) へ

  • Upload
    niles

  • View
    81

  • Download
    3

Embed Size (px)

DESCRIPTION

情報技術( IT) から 知識技術( KT) へ. 山口 高平 (やまぐち たかひら) 慶應義塾大学理工学部管理工学科. プロフィール. 1957年:大阪生まれ 1979年:大阪大学工学部通信工学科卒業 卒論から計算機に知的なことをさせる人工知能の研究に興味 1984年:定理証明システムの高速化に関する研究(博士論文) 1984年~1989年:大阪大学産業科学研究所助手 1989年~1996年:静岡大学工学部助教授 1997年~2004年3月:静岡大学情報学部教授. データマイニング. システム構成的アプローチ. A01 アクティブ   情報収集. - PowerPoint PPT Presentation

Citation preview

Page 1: 情報技術( IT) から 知識技術( KT) へ

情報技術( IT) から知識技術( KT) へ山口 高平 (やまぐち たかひ

ら)慶應義塾大学理工学部管理工学科

Page 2: 情報技術( IT) から 知識技術( KT) へ

プロフィール

モデリング マイニング閉じた世界 エキスパート

システム機械学習

開いた世界 Semantic Web データ前処理+マイニン

グ+結果後処理

1957年:大阪生まれ1979年:大阪大学工学部通信工学科卒業卒論から計算機に知的なことをさせる人工知能の研究に興味1984年:定理証明システムの高速化に関する研究(博士論文)1984年~1989年:大阪大学産業科学研究所助手1989年~1996年:静岡大学工学部助教授1997年~2004年3月:静岡大学情報学部教授

Page 3: 情報技術( IT) から 知識技術( KT) へ

データマイニングシステム構成的アプローチ

Page 4: 情報技術( IT) から 知識技術( KT) へ

AM =アクティブ情報収集 + マイニング + ユーザリアクション

3つを有機的に連携するシステムがなかった.A02 マイニング

発見

A01 アクティブ  情報収集

A03 ユーザリアクション

平成13年度~16年度科研費特定領域研究アクティブマイニング元田浩教授(阪大)

Page 5: 情報技術( IT) から 知識技術( KT) へ

興味深い知識の発見

ユーザ・リアクション

WWW

共通データ

知識フィルタリング

文献収集・解析

前処理ノウハウ蓄積交換

マイニング重み付け

視覚化

データ取得

A01-04 沼尾

A01-02 山田A02-08 松本

A02-05 BaoA03-11 大澤

肝炎データ

MEDLINE

前処理 時系列

共起パタン前処理・マイニング

A01-03 北村

例外知識

化学薬品データ

A03-09 津本,高林A03-10 岡田,高橋A03-11 寺野

A02-05 元田,鷲尾A02-06 山口A02-07 鈴木,鍾A03-09 津本A03-10 岡田,高橋A03-11 寺野

Page 6: 情報技術( IT) から 知識技術( KT) へ

帰納アプリケーション構築支援環境 : CAMLET

C4.5 AQ15 CS NN

帰納システムの分析

体系化

帰納メソッドに仕様とコードを与えリポジトリ-を開発

探索・合成

帰納アプリケーションの自動合成

メソッド切出し

帰納メソッド

(a Computer Aided Machine Learning Engineering Tool)CAMLET:ラクダの毛から紡いだ高級織物→CAMELじゃないのよ!(システム名は単純に!)

Page 7: 情報技術( IT) から 知識技術( KT) へ

分類器集合更新分類器

集合更新

訓練集合更新

訓練集合更新

帰納アプリケーションの合成

プロセス

ランダム訓練・テスト

集合生成

テスト集合同一型テスト集合サブセット型空テスト集合生成

重複可重複不可

ブートストラップランダム

ランダム非共有型共有型

評価 累積評価集合評価

FP配当分配アルゴリズム

訓練集合

更新

非参照型更新参照型更新

要素の重み更新ホモジニアス操作ヘトロジニアス操作

ピッツァ GA反例参照更新

分類器

集合更新

非参照型更新参照型更新 ホモジニアス操作

ヘトロジニアス操作

ピッツァ GAミシガン GABP 削除

合成 削除合成

分類器

集合生成 訓練集合独立型

表現空間利用型表現空間

非利用型決定木

訓練集合

依存型ランダム生成

バージョン空間starエントロピーエントロピー+情報レシオ

スタートスタート 訓練・テスト集合生成

訓練・テスト集合生成

分類器集合生成分類器

集合生成 エンドエンド評価評価空テスト集合生成空テスト

集合生成 エントロピーエントロピー 集合評価集合評価

Page 8: 情報技術( IT) から 知識技術( KT) へ

Learning

End

Start

Selective-Learning

Data-Generation

Knowledge-Evaluation

If-Then-Rules-Generation

Knowledge-Evaluation

Feature-Selection

Knowledge-squeezing

Loop

Random-Feature-Selection

Default-Generation

CLS (Gain Ratio)

Simulated-Annealing

If-Then-Rules-Evaluation

If-Then-Rules-Evaluation

ID,SEX,Birthday,Description,First Date,Admission,Diagnosis2110,F,1934/2/13,94.02.14,93.02.10,+,RA susp.11408,F,1937/5/2,96.12.01,73.01.01,+,PSS12052,F,1956/4/14,91.08.13,,+,SLE14872,F,1953/9/21,97.08.13,,+,MCTD27654,F,1936/3/25,,92.02.03,+,"RA, SLE susp"30609,F,1944/7/13,91.08.13,,-,"SLE, MCTD"43003,M,1937/11/24,94.03.08,94.03.08,-,Raynaud's phenomenon48473,F,1948/10/7,97.08.13,,+,SLE52199,F,1954/3/16,,,-,PM/DM57266,M,1923/7/25,97.02.03,93.02.05,+,RA58139,F,1972/12/23,,,-,SJS71417,F,1929/10/20,96.12.03,95.06.20,-,RA81043,M,1967/3/25,,,-,MCTD102490,F,1982/4/1,94.02.22,,+,PSS108788,F,1942/3/15,,,+,SJS115272,F,1968/4/8,98.07.16,89.03.17,-,BEHCET115562,,1943/3/17,97.08.20,,+,SLE115575,F,1970/12/4,94.02.24,,-,SLE122320,F,1945/10/27,97.07.31,1972.10.19,+,relapsing 髜 polychondritis122405,F,1961/5/22,,,-,SJS125619,F,1917/4/18,96.11.01,86.11.06,+,SJS128012,F,1958/1/28,94.02.24,83.01.20,-,PSS128041,F,1923/9/20,94.02.14,1973.4.8,-,SLE130312,F,1948/2/23,91.08.12,73.01.30,+,RA130370,F,1952/8/22,97.08.20,,+,RA130758,F,1937/8/17,,,-,seronegative RA133382,M,1934/9/3,96.12.05,92.10.13,+,SLE133760,F,1935/4/5,97.08.02,1984.5.28,-,SLE138824,F,1939/4/8,94.02.06,74.07.23,+,"SLE, SJS"138938,F,1952/10/14,94.02.07,1973.11.1,-,PM154143,F,1933/10/11,91.08.13,72.08.02,+,RA154909,F,1935/1/21,96.12.04,94.08.10,-,SJS163109,F,1950/10/16,97.08.20,,+,SLE166850,F,1949/1/2,,,+,"SLE, SJS"174116,F,1973/2/1,91.08.13,76.12.09,+,"SLE, AIHA"179212,F,1978/5/27,91.08.13,,+,SLE189721,F,1970/2/2,98.07.08,92.12.03,-,SJS susp205391,,1929/9/11,98.05.18,92.03.16,+,"BEHCET ( 覺硤 ), RA susp"213279,F,1973/3/12,91.08.13,80.01.03,+,SLE213370,F,1956/7/17,1991/6/10,1992.05.11,+,MCTD215972,F,1948/7/30,94.02.19,,+,BEHCET230650,F,1954/12/10,97.07.30,94.12.02,+,"RA, SJS"233604,F,1966/9/23,96.12.12,91.11.21,-,BEHCET250391,F,1967/12/15,94.02.22,78.10.12,-,SLE283032,F,1951/11/24,94.02.19,85.10.01,-,SLE287122,F,1953/5/26,,,-,SLE287861,F,1943/7/6,94.02.19,,-,PSS298520,F,1936/9/29,98.01.13,1998/1/9,,"BEHCET, SJS"299839,F,1940/2/19,97.07.31,1975.3.6,-,PN (vasculitis)304157,F,1920/8/22,94.03.01,91.04.26,-,"RA, SJS"

メタ学習機構(マイニングソフトウェア自動生成ツール)髄膜脳炎DB

自動生成されたマイニングソフトウェア(実際はC言語のプログラムコード)

専門家が興味深いと判断したルールの例従来,試行錯誤を伴い手作業でマイニングソフトウェアを開発.

本自動作成ツールを使えば,開発期間が1/5以下に短縮!

CAMLETの処理の流れ

Loc 2.0 C_Course = negative

Loc > 2.0 C_Course =aphasia(適合率 =0.86 ,復元率 =0.96)

(適合率 =0.33 ,復元率 =0.75)

Page 9: 情報技術( IT) から 知識技術( KT) へ

パラレルCAMLETマシン ・16 CPU ・CPU  1 -2 GHz ・メモリ  1GB

Page 10: 情報技術( IT) から 知識技術( KT) へ

共通医療データ:肝炎データ提供元:千葉大学医学部第一内科

約 800人の患者の 20 年間に亘る病歴データ

データの特徴 大規模な未整備時系列データ

最大 160 万件 膨大な数の表記揺れが存在

検査項目数が非常に多い 最大 950 項目

時期により検査項目の再現性が変化,欠損値が多い

検査機器・医学の進歩 医者によるバイアスが存在

重病患者には特殊な検査

生検結果 (960 例 )

患者基本情報 (771 例 )

院内検査結果 (1.565.877 件 )

院外検査結果(30.243 件 )

インターフェロン投与情報 (198 例 )

院内検査項目(459 項目 )

Hepatitis

Page 11: 情報技術( IT) から 知識技術( KT) へ

アル

ブミ

インターフェロン投与時点

データの一例

非代償性肝硬変患者

Page 12: 情報技術( IT) から 知識技術( KT) へ

検査項目数あたりのレコード数の累計

0

200000

400000

600000

800000

1000000

1200000

1400000

1600000

0 200 400 600 800 1000検査項目数

レコ

ード

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

50000

レコード数

検査周期均一化後のレコード数

累計 2605 4981 9782 12340 17418 39045 47236 48875 49306

レコード数 2605 2376 4801 2558 5078 21627 8191 1639 431

1日 3日未満

7日未満

14日未満

28日未満

56日未満

112日未満

224日未満

224日以上

肝炎データセットのデータ前処理

Page 13: 情報技術( IT) から 知識技術( KT) へ

• 予測正答率 : 60.90% (21/34), 再現率 : 1.43% (21/1470)

IF 直前24ヶ月のビリルビンの平均値が高く、 TTT (チモール混濁試験)が減少するTHEN GPT が減少に転じる医師のコメント「 GPTは周期的な多少の上下動があるもののほぼ一定と理解してきた。このルールは、 GPT の上下動の転移を説明する可能性があり興味深い。ウィルス活動・バクテリア増殖の周期性とも関連するのか?」

短期時系列パターンの組合せに基づくルール発見支援

Page 14: 情報技術( IT) から 知識技術( KT) へ

得られたルールと専門家の評価precision: 55.56%recall: 6.62%

ALB

GPT

GPT

Rule 1precision: 37.50%recall: 15.96%Rule 2

ALB

GPT

GPT

GPTは,微少変化はあるが,単調減少すると一般に言われている

しかし,ルールは GPTの約 3 年の周期変動を示しており,興味深い

慢性肝炎データセットからのルール発見(2)

Page 15: 情報技術( IT) から 知識技術( KT) へ

TTT 減少→ GPT 減少:抗体の動きが活発→肝炎が緩和される(常識的なルール?)

GPT は周期的な多少の上下動があるもののほぼ一定と理解してきた。このルールは、 GPT の上下動の転移を説明する可能性があり興味深い。ウィルス活動・バクテリア増殖の周期性とも関連するのか?  (横井,千葉大医学部)

キャリアに対して, TTT 検査により B 型ウィルスと C型ウィルスの比較可能Murawaki Y, Ikuta Y, Koda M, Kawasaki H. (School of Medicine, Tottori Univ:Comparison of clinical liver tests between asymptomatic HBV and HCV carrierswith persistently normal aminotransferase levels, Hepatol Res 2001 Sep;21(1)67-75, from MEDLINE

このルールは,発症前の人(キャリア)と発症した人の両方に適用可能な点が興味深い(朴先生,大阪市立大医学部)

Page 16: 情報技術( IT) から 知識技術( KT) へ

Semantic Web

システム構成的アプローチ

Page 17: 情報技術( IT) から 知識技術( KT) へ

“The Semantic Web will globalize KR,

just as the WWW globalized hypertext

WWW が登場する以前、ハイパーテキストは一部の「理想家」だけが熱心に取り組んでいる特殊な道具でした。 知識表現や機械に理解可能な知識というコンセプトの現在も、とてもよく似た状況と言えそうです。 「絶対の真実、全ての物事を網羅する知識、あらゆる可能性といった中央集約型のコンセプト」から離れて、限られた知識で何ができるかというところからスタートすることで、知識表現における WWW 、すなわちセマンティック・ウェブへの未知が開けてくるというのです。By TBL

Page 18: 情報技術( IT) から 知識技術( KT) へ

http://www.semanticweb.org/about.html#bigpicture

Big Picture for SW (2001)

Page 19: 情報技術( IT) から 知識技術( KT) へ

Semantic Web Stack

(http://www.w3.org/2002/Talks/04-sweb/slide12-0.html)

Enabling Standards & Technologies – Layer Cake

Page 20: 情報技術( IT) から 知識技術( KT) へ

academic department

http://www.cs.umd.edu/projects/plus/DAML/onts/cs1.0.damlacademic

departmenthttp://www.cs.umd.edu/projects/plus/DAML/onts/cs1.1.damlAcademic

Positionshttp://www.daml.ri.cmu.edu/ont/homework/cmu-ri-employmenttypes-ont.daml

access control primitives

http://www.w3.org/2000/10/swap/pim/doc.rdf

acronymhttp://orlando.drc.com/daml/Ontology/Thesaurus/CALL/current/

activity http://www.kestrel.edu/DAML/2000/12/OPERATION.daml

Actors http://opencyc.sourceforge.net/daml/cyc.daml

Actors http://www.cyc.com/2002/04/08/cyc.daml

Actors http://www.cyc.com/cyc-2-1/cyc-vocab.daml

address book http://www.w3.org/2000/10/swap/pim/contact.rdf

agenda http://www.daml.org/2001/10/agenda/agenda-ont

DAML Ontology Library (Ontology's by Keyword) http://www.daml.org/ontologies/keyword.html

Page 21: 情報技術( IT) から 知識技術( KT) へ

構築モジュール

照合&剪定

初期概念階層

階層構築共起性に基づ

く統計処理

関係構築

概念対集合

相関ルールWordSpace

DODDLE-R

階層参照評価値算出

洗練モジュール 関係洗練

照合結果分析階層洗練

剪定結果分析 階層参照評価値算出

構文解析概念階層 概念定義

入力領域概念電子化辞書

テキストコーパス

入力概念選択入力モジュール

WordNet

変換モジュール

領域オントロジー (OWL-Lite)

視覚化モジュール

科研費基盤研究(B)平成15~17年度

Page 22: 情報技術( IT) から 知識技術( KT) へ

DDDODDLEDODDLE is a

Domain Ontology

rapiD DeveLopment Environment.

Take it easy !俗語なので伝わりずらい名前はシンプルに!

Page 23: 情報技術( IT) から 知識技術( KT) へ

(1) Input Module

Text Corpus

Input Concept List

WordNet Concepts

Page 24: 情報技術( IT) から 知識技術( KT) へ

(2) Construction&Refinement Modules for Hierarchy

Concept Drift Management

Taxonomy

Page 25: 情報技術( IT) から 知識技術( KT) へ

(4) Visualization Module MR3: a Meta-Model Management Tool

Page 26: 情報技術( IT) から 知識技術( KT) へ

Related Concept Pairs

(3) Construction&Refinement Modules for Relationships

Page 27: 情報技術( IT) から 知識技術( KT) へ

(5) Translation Module into OWL-Lite

Page 28: 情報技術( IT) から 知識技術( KT) へ

Case Study • Application Domain:

Contracts for the International Sale of Goods• Document: CISG text (about 10,000 words)• Input Concepts: 46 legal concepts from CISG Part-II

Frequency of Extracted 4-gram

Context Scope ( before :

after )

# Extracted 4-gram

7 60:10 543

Minimum Support

Minimum Confidence

0.4% 80%

<Parameters WordSpace

Association Rule

Page 29: 情報技術( IT) から 知識技術( KT) へ

Final Legal Concept Hierarchy

Page 30: 情報技術( IT) から 知識技術( KT) へ

Modifying Concept Specification Templates with Domain Experts

assent

: proposalTAXONOMY

: timenon-TAXONOMY?

: withdrawalnon-TAXONOMY?

: offereenon-TAXONOMY?

: personnon-TAXONOMY?

: offernon-TAXONOMY?

: effectnon-TAXONOMY?

: actTAXONOMY

: offerornon-TAXONOMY?

Concept Specification Template

assent

Final Concept Specification with Domain Experts

ex) non-Taxonomic Relationships for “assent”

: offerLEGAL-SEQUENCE

: personAGENT

: withdrawalANTONYM

non-taxonomic relationships:

person, offer, withdrawal

taxonomic relationships:

act, proposal

inheritance: offeror, offeree

unnecessary: effect, time

Page 31: 情報技術( IT) から 知識技術( KT) へ

MMM Project• Goal: Building up a total environment of Meta-

Model Management (MMM) for Semantic Web

MMMWWW

DODDLEDODDLEOntology Development

MRMR33

RDF & RDFS Visual EditingMeta-Model Management Project

LordBaderLordBaderMeta-level BPM for Web Services

http://mmm.semanticorg.com

Page 32: 情報技術( IT) から 知識技術( KT) へ

今後の研究方針 データ爆発時代に応えるKT

• Semantic Web :欧米で多くのプロジェクト発足企業も電子政府を睨んで参入テクノロジーベンチャー

• Semantic Web を普及させるためのツール,アプリケーションの開発:新規性と有用性のバランス,国際交流,学生