Upload
niles
View
81
Download
3
Embed Size (px)
DESCRIPTION
情報技術( IT) から 知識技術( KT) へ. 山口 高平 (やまぐち たかひら) 慶應義塾大学理工学部管理工学科. プロフィール. 1957年:大阪生まれ 1979年:大阪大学工学部通信工学科卒業 卒論から計算機に知的なことをさせる人工知能の研究に興味 1984年:定理証明システムの高速化に関する研究(博士論文) 1984年~1989年:大阪大学産業科学研究所助手 1989年~1996年:静岡大学工学部助教授 1997年~2004年3月:静岡大学情報学部教授. データマイニング. システム構成的アプローチ. A01 アクティブ 情報収集. - PowerPoint PPT Presentation
Citation preview
情報技術( IT) から知識技術( KT) へ山口 高平 (やまぐち たかひ
ら)慶應義塾大学理工学部管理工学科
プロフィール
モデリング マイニング閉じた世界 エキスパート
システム機械学習
開いた世界 Semantic Web データ前処理+マイニン
グ+結果後処理
1957年:大阪生まれ1979年:大阪大学工学部通信工学科卒業卒論から計算機に知的なことをさせる人工知能の研究に興味1984年:定理証明システムの高速化に関する研究(博士論文)1984年~1989年:大阪大学産業科学研究所助手1989年~1996年:静岡大学工学部助教授1997年~2004年3月:静岡大学情報学部教授
データマイニングシステム構成的アプローチ
AM =アクティブ情報収集 + マイニング + ユーザリアクション
3つを有機的に連携するシステムがなかった.A02 マイニング
発見
A01 アクティブ 情報収集
A03 ユーザリアクション
平成13年度~16年度科研費特定領域研究アクティブマイニング元田浩教授(阪大)
興味深い知識の発見
ユーザ・リアクション
WWW
共通データ
知識フィルタリング
文献収集・解析
前処理ノウハウ蓄積交換
マイニング重み付け
視覚化
データ取得
A01-04 沼尾
A01-02 山田A02-08 松本
A02-05 BaoA03-11 大澤
肝炎データ
MEDLINE
前処理 時系列
共起パタン前処理・マイニング
A01-03 北村
例外知識
化学薬品データ
A03-09 津本,高林A03-10 岡田,高橋A03-11 寺野
A02-05 元田,鷲尾A02-06 山口A02-07 鈴木,鍾A03-09 津本A03-10 岡田,高橋A03-11 寺野
帰納アプリケーション構築支援環境 : CAMLET
C4.5 AQ15 CS NN
帰納システムの分析
体系化
帰納メソッドに仕様とコードを与えリポジトリ-を開発
探索・合成
帰納アプリケーションの自動合成
メソッド切出し
帰納メソッド
(a Computer Aided Machine Learning Engineering Tool)CAMLET:ラクダの毛から紡いだ高級織物→CAMELじゃないのよ!(システム名は単純に!)
分類器集合更新分類器
集合更新
訓練集合更新
訓練集合更新
帰納アプリケーションの合成
プロセス
ランダム訓練・テスト
集合生成
テスト集合同一型テスト集合サブセット型空テスト集合生成
重複可重複不可
ブートストラップランダム
ランダム非共有型共有型
評価 累積評価集合評価
FP配当分配アルゴリズム
訓練集合
更新
非参照型更新参照型更新
要素の重み更新ホモジニアス操作ヘトロジニアス操作
ピッツァ GA反例参照更新
分類器
集合更新
非参照型更新参照型更新 ホモジニアス操作
ヘトロジニアス操作
ピッツァ GAミシガン GABP 削除
合成 削除合成
分類器
集合生成 訓練集合独立型
表現空間利用型表現空間
非利用型決定木
訓練集合
依存型ランダム生成
バージョン空間starエントロピーエントロピー+情報レシオ
スタートスタート 訓練・テスト集合生成
訓練・テスト集合生成
分類器集合生成分類器
集合生成 エンドエンド評価評価空テスト集合生成空テスト
集合生成 エントロピーエントロピー 集合評価集合評価
Learning
End
Start
Selective-Learning
Data-Generation
Knowledge-Evaluation
If-Then-Rules-Generation
Knowledge-Evaluation
Feature-Selection
Knowledge-squeezing
Loop
Random-Feature-Selection
Default-Generation
CLS (Gain Ratio)
Simulated-Annealing
If-Then-Rules-Evaluation
If-Then-Rules-Evaluation
ID,SEX,Birthday,Description,First Date,Admission,Diagnosis2110,F,1934/2/13,94.02.14,93.02.10,+,RA susp.11408,F,1937/5/2,96.12.01,73.01.01,+,PSS12052,F,1956/4/14,91.08.13,,+,SLE14872,F,1953/9/21,97.08.13,,+,MCTD27654,F,1936/3/25,,92.02.03,+,"RA, SLE susp"30609,F,1944/7/13,91.08.13,,-,"SLE, MCTD"43003,M,1937/11/24,94.03.08,94.03.08,-,Raynaud's phenomenon48473,F,1948/10/7,97.08.13,,+,SLE52199,F,1954/3/16,,,-,PM/DM57266,M,1923/7/25,97.02.03,93.02.05,+,RA58139,F,1972/12/23,,,-,SJS71417,F,1929/10/20,96.12.03,95.06.20,-,RA81043,M,1967/3/25,,,-,MCTD102490,F,1982/4/1,94.02.22,,+,PSS108788,F,1942/3/15,,,+,SJS115272,F,1968/4/8,98.07.16,89.03.17,-,BEHCET115562,,1943/3/17,97.08.20,,+,SLE115575,F,1970/12/4,94.02.24,,-,SLE122320,F,1945/10/27,97.07.31,1972.10.19,+,relapsing 髜 polychondritis122405,F,1961/5/22,,,-,SJS125619,F,1917/4/18,96.11.01,86.11.06,+,SJS128012,F,1958/1/28,94.02.24,83.01.20,-,PSS128041,F,1923/9/20,94.02.14,1973.4.8,-,SLE130312,F,1948/2/23,91.08.12,73.01.30,+,RA130370,F,1952/8/22,97.08.20,,+,RA130758,F,1937/8/17,,,-,seronegative RA133382,M,1934/9/3,96.12.05,92.10.13,+,SLE133760,F,1935/4/5,97.08.02,1984.5.28,-,SLE138824,F,1939/4/8,94.02.06,74.07.23,+,"SLE, SJS"138938,F,1952/10/14,94.02.07,1973.11.1,-,PM154143,F,1933/10/11,91.08.13,72.08.02,+,RA154909,F,1935/1/21,96.12.04,94.08.10,-,SJS163109,F,1950/10/16,97.08.20,,+,SLE166850,F,1949/1/2,,,+,"SLE, SJS"174116,F,1973/2/1,91.08.13,76.12.09,+,"SLE, AIHA"179212,F,1978/5/27,91.08.13,,+,SLE189721,F,1970/2/2,98.07.08,92.12.03,-,SJS susp205391,,1929/9/11,98.05.18,92.03.16,+,"BEHCET ( 覺硤 ), RA susp"213279,F,1973/3/12,91.08.13,80.01.03,+,SLE213370,F,1956/7/17,1991/6/10,1992.05.11,+,MCTD215972,F,1948/7/30,94.02.19,,+,BEHCET230650,F,1954/12/10,97.07.30,94.12.02,+,"RA, SJS"233604,F,1966/9/23,96.12.12,91.11.21,-,BEHCET250391,F,1967/12/15,94.02.22,78.10.12,-,SLE283032,F,1951/11/24,94.02.19,85.10.01,-,SLE287122,F,1953/5/26,,,-,SLE287861,F,1943/7/6,94.02.19,,-,PSS298520,F,1936/9/29,98.01.13,1998/1/9,,"BEHCET, SJS"299839,F,1940/2/19,97.07.31,1975.3.6,-,PN (vasculitis)304157,F,1920/8/22,94.03.01,91.04.26,-,"RA, SJS"
メタ学習機構(マイニングソフトウェア自動生成ツール)髄膜脳炎DB
自動生成されたマイニングソフトウェア(実際はC言語のプログラムコード)
専門家が興味深いと判断したルールの例従来,試行錯誤を伴い手作業でマイニングソフトウェアを開発.
本自動作成ツールを使えば,開発期間が1/5以下に短縮!
CAMLETの処理の流れ
Loc 2.0 C_Course = negative
Loc > 2.0 C_Course =aphasia(適合率 =0.86 ,復元率 =0.96)
(適合率 =0.33 ,復元率 =0.75)
パラレルCAMLETマシン ・16 CPU ・CPU 1 -2 GHz ・メモリ 1GB
共通医療データ:肝炎データ提供元:千葉大学医学部第一内科
約 800人の患者の 20 年間に亘る病歴データ
データの特徴 大規模な未整備時系列データ
最大 160 万件 膨大な数の表記揺れが存在
検査項目数が非常に多い 最大 950 項目
時期により検査項目の再現性が変化,欠損値が多い
検査機器・医学の進歩 医者によるバイアスが存在
重病患者には特殊な検査
生検結果 (960 例 )
患者基本情報 (771 例 )
院内検査結果 (1.565.877 件 )
院外検査結果(30.243 件 )
インターフェロン投与情報 (198 例 )
院内検査項目(459 項目 )
Hepatitis
アル
ブミ
ン
インターフェロン投与時点
データの一例
日
非代償性肝硬変患者
検査項目数あたりのレコード数の累計
0
200000
400000
600000
800000
1000000
1200000
1400000
1600000
0 200 400 600 800 1000検査項目数
レコ
ード
数
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
レコード数
検査周期均一化後のレコード数
累計 2605 4981 9782 12340 17418 39045 47236 48875 49306
レコード数 2605 2376 4801 2558 5078 21627 8191 1639 431
1日 3日未満
7日未満
14日未満
28日未満
56日未満
112日未満
224日未満
224日以上
肝炎データセットのデータ前処理
• 予測正答率 : 60.90% (21/34), 再現率 : 1.43% (21/1470)
IF 直前24ヶ月のビリルビンの平均値が高く、 TTT (チモール混濁試験)が減少するTHEN GPT が減少に転じる医師のコメント「 GPTは周期的な多少の上下動があるもののほぼ一定と理解してきた。このルールは、 GPT の上下動の転移を説明する可能性があり興味深い。ウィルス活動・バクテリア増殖の周期性とも関連するのか?」
短期時系列パターンの組合せに基づくルール発見支援
得られたルールと専門家の評価precision: 55.56%recall: 6.62%
ALB
GPT
GPT
Rule 1precision: 37.50%recall: 15.96%Rule 2
ALB
GPT
GPT
GPTは,微少変化はあるが,単調減少すると一般に言われている
しかし,ルールは GPTの約 3 年の周期変動を示しており,興味深い
慢性肝炎データセットからのルール発見(2)
TTT 減少→ GPT 減少:抗体の動きが活発→肝炎が緩和される(常識的なルール?)
GPT は周期的な多少の上下動があるもののほぼ一定と理解してきた。このルールは、 GPT の上下動の転移を説明する可能性があり興味深い。ウィルス活動・バクテリア増殖の周期性とも関連するのか? (横井,千葉大医学部)
キャリアに対して, TTT 検査により B 型ウィルスと C型ウィルスの比較可能Murawaki Y, Ikuta Y, Koda M, Kawasaki H. (School of Medicine, Tottori Univ:Comparison of clinical liver tests between asymptomatic HBV and HCV carrierswith persistently normal aminotransferase levels, Hepatol Res 2001 Sep;21(1)67-75, from MEDLINE
このルールは,発症前の人(キャリア)と発症した人の両方に適用可能な点が興味深い(朴先生,大阪市立大医学部)
Semantic Web
システム構成的アプローチ
“The Semantic Web will globalize KR,
just as the WWW globalized hypertext
WWW が登場する以前、ハイパーテキストは一部の「理想家」だけが熱心に取り組んでいる特殊な道具でした。 知識表現や機械に理解可能な知識というコンセプトの現在も、とてもよく似た状況と言えそうです。 「絶対の真実、全ての物事を網羅する知識、あらゆる可能性といった中央集約型のコンセプト」から離れて、限られた知識で何ができるかというところからスタートすることで、知識表現における WWW 、すなわちセマンティック・ウェブへの未知が開けてくるというのです。By TBL
http://www.semanticweb.org/about.html#bigpicture
Big Picture for SW (2001)
Semantic Web Stack
(http://www.w3.org/2002/Talks/04-sweb/slide12-0.html)
Enabling Standards & Technologies – Layer Cake
academic department
http://www.cs.umd.edu/projects/plus/DAML/onts/cs1.0.damlacademic
departmenthttp://www.cs.umd.edu/projects/plus/DAML/onts/cs1.1.damlAcademic
Positionshttp://www.daml.ri.cmu.edu/ont/homework/cmu-ri-employmenttypes-ont.daml
access control primitives
http://www.w3.org/2000/10/swap/pim/doc.rdf
acronymhttp://orlando.drc.com/daml/Ontology/Thesaurus/CALL/current/
activity http://www.kestrel.edu/DAML/2000/12/OPERATION.daml
Actors http://opencyc.sourceforge.net/daml/cyc.daml
Actors http://www.cyc.com/2002/04/08/cyc.daml
Actors http://www.cyc.com/cyc-2-1/cyc-vocab.daml
address book http://www.w3.org/2000/10/swap/pim/contact.rdf
agenda http://www.daml.org/2001/10/agenda/agenda-ont
DAML Ontology Library (Ontology's by Keyword) http://www.daml.org/ontologies/keyword.html
構築モジュール
照合&剪定
初期概念階層
階層構築共起性に基づ
く統計処理
関係構築
概念対集合
相関ルールWordSpace
DODDLE-R
階層参照評価値算出
洗練モジュール 関係洗練
照合結果分析階層洗練
剪定結果分析 階層参照評価値算出
構文解析概念階層 概念定義
入力領域概念電子化辞書
テキストコーパス
入力概念選択入力モジュール
WordNet
変換モジュール
領域オントロジー (OWL-Lite)
視覚化モジュール
科研費基盤研究(B)平成15~17年度
DDDODDLEDODDLE is a
Domain Ontology
rapiD DeveLopment Environment.
Take it easy !俗語なので伝わりずらい名前はシンプルに!
(1) Input Module
Text Corpus
Input Concept List
WordNet Concepts
(2) Construction&Refinement Modules for Hierarchy
Concept Drift Management
Taxonomy
(4) Visualization Module MR3: a Meta-Model Management Tool
Related Concept Pairs
(3) Construction&Refinement Modules for Relationships
(5) Translation Module into OWL-Lite
Case Study • Application Domain:
Contracts for the International Sale of Goods• Document: CISG text (about 10,000 words)• Input Concepts: 46 legal concepts from CISG Part-II
Frequency of Extracted 4-gram
Context Scope ( before :
after )
# Extracted 4-gram
7 60:10 543
Minimum Support
Minimum Confidence
0.4% 80%
<Parameters WordSpace
Association Rule
Final Legal Concept Hierarchy
Modifying Concept Specification Templates with Domain Experts
assent
: proposalTAXONOMY
: timenon-TAXONOMY?
: withdrawalnon-TAXONOMY?
: offereenon-TAXONOMY?
: personnon-TAXONOMY?
: offernon-TAXONOMY?
: effectnon-TAXONOMY?
: actTAXONOMY
: offerornon-TAXONOMY?
Concept Specification Template
assent
Final Concept Specification with Domain Experts
ex) non-Taxonomic Relationships for “assent”
: offerLEGAL-SEQUENCE
: personAGENT
: withdrawalANTONYM
non-taxonomic relationships:
person, offer, withdrawal
taxonomic relationships:
act, proposal
inheritance: offeror, offeree
unnecessary: effect, time
MMM Project• Goal: Building up a total environment of Meta-
Model Management (MMM) for Semantic Web
MMMWWW
DODDLEDODDLEOntology Development
MRMR33
RDF & RDFS Visual EditingMeta-Model Management Project
LordBaderLordBaderMeta-level BPM for Web Services
http://mmm.semanticorg.com
今後の研究方針 データ爆発時代に応えるKT
• Semantic Web :欧米で多くのプロジェクト発足企業も電子政府を睨んで参入テクノロジーベンチャー
• Semantic Web を普及させるためのツール,アプリケーションの開発:新規性と有用性のバランス,国際交流,学生