View
0
Download
0
Category
Preview:
Citation preview
肝炎データからのB-GBI法による
時間変化を重視したパターン抽出肝炎データからのパターン抽出
前処理
4回のサイクル今後の計画
議論
大阪大学産業科学研究所
松田 喬,吉田 哲也,元田 浩,鷲尾 隆
肝炎データからパターン抽出前処理データ洗浄
表形式への変換
離散化
グラフ構造データへの変換
4回のマイニングサイクル繊維化,活動性
B型ウィルスの活動性時間変化の影響の範囲
時間変化の重み付け
グラフ構造データへの変換
n
CF1 mild
M ifnsexsubtyp
etype
n
CF1 mild
M ifnsex
type
n
CF1 mild
Msex
type
n
CF1 mild
Msex
type
1 month3 months 4 months
2 months
1 month
3 months
subtype
subtype
subtype
mid, date, sex, inf, A2PI, ………, type, subtype, activity,1, 19810428, M, n, ?, ………, C, F1 mild, A11, 19820525, M, n, ?, ………, C, F1 mild, A11, 19810722, M, n, ?, ………, C, F1 mild, A11, 19811025, M, n, ?, ………, C, F1 mild, A12, 19900324, F, n, ?, ………, B, CAH2B, A22, 19900425, F, n, ?, ………, B, CAH2B, A2
一定期間の平均値(e.g., 1ヶ月)
ifn ifn
ifn,
各患者ごとに1つのグラフを作成リンクラベル:各検査項目
ノードラベル:リンクラベルの検査項目に対する検査結果
ダミーノード:一定期間の検査結果
時系列リンク:ダミーノードを
パターン抽出における評価関数
チャンキングへの評価関数
頻度(閾値 0.3)閾値以上の数のグラフに含まれ,最も頻度の多いペアから
パターンの評価関数
規格化した確率(閾値 0.3)
ビーム幅:3
nCi:評価するペアが含まれているクラスCiのグラフ数
NCi:全グラフにおけるクラスCiのグラフ数
第1回前処理
1ヶ月平均時系列リンク 10年まで
クラス活動性
繊維化
パターン抽出大量のパターン
計算時間: 16時間
性
活動
繊維化
活動性 繊維化
活動性 (A1, A2, A3)に特徴的なパターンの例
16ヶ月
n
n
nifn
I-BIL
hGPT
nn
n
nLAP
T-CHOTP
UA
UN
h
T-BIL
n
n
n ifn
I-BIL
hGPT
nn
n
nLAP
T-CHOTP
UAUN
ウィルスの活動性( A3 )に特徴的
パターンの例Evaluation = 0.905 A1 1A2 1A3 4
専門家のコメント
UN, UAといったデータが正常値を示すと
いうことは肝疾患と腎疾患には強い関連性がないという,既知の医学知識に合致する.また,肝硬変に至っていない患者ではTPが正常を示すことも知られている.
n nn infI-BILhGPTn nn nLAPT -CHOTPUA UN
hT-BIL
n nn infI-BILhGPTn nn nLAPT -CHOTPUA UN
hT-BIL
n nn infI-BIL hGPT
n nn nLAPT-CHOTPUA
UNn nn infI-BIL hGPT
n nn nLAPT-CHOTPUA
UN Eval uation = 0.905 A1 1A2 1A3 4
n nnn infI-BILT-BILTP
n nnn infI-BILT-BILTP
n
nn infI-BILT P
n
nn infI-BILT P
17 months Eval uation = 0.827 A1 2A2 2A3 4n h
nn
n infGPTI-BILTPUA
n h
nn
n infGPTI-BILTPUAninfnn n
n hGPTI-BILT-BILT PUA ninfnn n
n hGPTI-BILT-BILT PUA 5 months Evalu ation = 0.827 A1 2A2 2A3 4
Evaluation= A12A22A34nn
nn infI-BILTPT -BILnn
nn infI-BILTPT -BILn n
ninf I-BILTPn n
ninf I-BILTPn nn infI-BILhGPTn nn nLAPT -CHOTPUA UN
hT-BIL
n nn infI-BILhGPTn nn nLAPT -CHOTPUA UN
hT-BIL
n nn infI-BIL hGPT
n nn nLAPT-CHOTPUA
UNn nn infI-BIL hGPT
n nn nLAPT-CHOTPUA
UN Eval uation = 0.905 A1 1A2 1A3 4
n nnn infI-BILT-BILTP
n nnn infI-BILT-BILTP
n
nn infI-BILT P
n
nn infI-BILT P
17 months Eval uation = 0.827 A1 2A2 2A3 4n h
nn
n infGPTI-BILTPUA
n h
nn
n infGPTI-BILTPUAninfnn n
n hGPTI-BILT-BILT PUA ninfnn n
n hGPTI-BILT-BILT PUA 5 months Evalu ation = 0.827 A1 2A2 2A3 4
Evaluation= A12A22A34nn
nn infI-BILTPT -BILnn
nn infI-BILTPT -BILn n
ninf I-BILTPn n
ninf I-BILTPn nn infI-BILhGPTn nn nLAPT -CHOTPUA UN
hT-BIL
n nn infI-BILhGPTn nn nLAPT -CHOTPUA UN
hT-BIL
n nn infI-BIL hGPT
n nn nLAPT-CHOTPUA
UNn nn infI-BIL hGPT
n nn nLAPT-CHOTPUA
UN Eval uation = 0.905 A1 1A2 1A3 4
n nnn infI-BILT-BILTP
n nnn infI-BILT-BILTP
n
nn infI-BILT P
n
nn infI-BILT P
17 months Eval uation = 0.827 A1 2A2 2A3 4n h
nn
n infGPTI-BILTPUA
n h
nn
n infGPTI-BILTPUAninfnn n
n hGPTI-BILT-BILT PUA ninfnn n
n hGPTI-BILT-BILT PUA 5 months Evalu ation = 0.827 A1 2A2 2A3 4
Evaluation= A12A22A34nn
nn infI-BILTPT -BILnn
nn infI-BILTPT -BILn n
ninf I-BILTPn n
ninf I-BILTP
n
h
nn
n ifnGPT
I-BILTP
UA
5 ヶ月n
nnn
n hGPT
I-BILT-BIL
TP
UA
ifn
Evaluation = 0.827 A1 2A2 2A3 4
繊維化 (F1, F2, F3, F4)に特徴的なパターン
17ヶ月n
h
nn
0D-BIL
GPTchyle
TP I-BIL
n
chyle
Evaluation = 0.706 F1 9F2 3F3 1F4 9
h n
0 n
0
n
TPUA
UN
chyle
hemolysis
G. GL
Evaluation = 0.730 F1 2F2 3F3 3F4 8
第2回
前回の成果
妥当なパターンの抽出
課題既存,当たり前?計算時間
インタラクティブな解析が困難
専門家との共同作業6月,7月
属性選択
属性構築
グラフサイズの抑制
属性選択
平均化処理
短期変動への新指標(属性)の追加histgram of GOT_STD
0
2000
4000
6000
8000
0 10 20 30 40 50 60 70 80 90 100
110
110~
1 2 3 4 5
頻度
短期変動が重要なGOT, GPT, TTT, ZTT
6ヶ月間の標準偏差
ヒストグラムに基づき離散化
GOT, GPT: 5値
TTT,ZTT : 3値
GOT_STD
histgram of TTT_STD
0
2000
4000
6000
8000
10000
12000
0 1 2 3 4 5 6 7 8 9 10 10~
1 2 3
頻度
TTT_STD
mid, date, ………, GOT GPT ………, GOT_STD GPT_STD ………,1, 19810428, ………, 54 108 ………, ………,1, 19810722, ………, 63 112 ………, 7.97 15.71 ………,1, 19811025, ………, 71 318 ………, 25.45 26.96 ………,1, 19820125, ………, 97 144 ………, 37.91 30.5 ………,…… ………, ………,……………… ………, ………, ………, ………,2, 19900324, ………, 33 65 ………, ………,2, 19900425, ………, 72 80 ………, 5.66 13.88 ………,2, 19900921, ………, 47 118 ………, 8.58 22.63 ………,
…
B型肝炎ウィルスの状態
に特徴的なパターン抽出
B型肝炎ウィルスの状態に対する判定ルー既存の4属性の組合わせとし
て専門家が定義HBV : active, inactive, cured
属性選択 23属性に絞込み
6ヶ月平均
時系列リンク:10年まで
クラス:HBV
B型肝炎ウィルスの状態に特徴的なパター
n n
1
n
4.5 years
n
n
n
1
nTTT_STD
TP
T_BILI_BIL
D_BIL
TTT_STD
TPT_BIL
I_BIL
n
n
n
3
n
T_BILI_BIL
D_BIL TP
GOT_STD
9.5 年
n
1
n
+
n
1
n
n
n -HCV_AB
ZTT_STD
TP
T_CHO
T_BILI_BIL
D_BIL
ALB
TTT_STD
HBS_AB
n
n
CHE
CHE
Inactive
cured
active専門家のコメント
9.5年も離れた期間で共起性があると
いうことは専門知識からは解釈不能.
ウィルスの活動性が低い場合にはTTTの変化が少ない, という既知
医学知識に合致する.
GOTの変化が大きくてもウィルスの
動性が低い場合がある,ということを示唆するため意外性がある.
第3回
前回の成果
妥当なパターン
解釈不能なパターン
意外なパターン
課題
長期間離れた場合での共起性 は解釈が困難
時系列の影響範囲を制限
時系列リンクの張り方:2年までに
時系列リンクを2年までに制限した場合
2年ま10年ま
専門家のコメント
GOTとTTTのSTDがGrade2という
ことで、かなり臨床的には、うなずける結果である。この形で精度を高めれば、いわゆるエキスパートシステム等に応用できるルールになりうると思われる
n
n
n
B
n
nn
n 2TYPE
TP
T_BIL
I_BIL
D_BIL
CHE
ALB
T_CHO
TTT_STD
n
1
n
M
n2
n
n
n 1sex
TTT_STD
TPT_CHO
T_BILI_BIL
D_BIL
ALB
GOT_STD
ZTT_STDnCHE
1.0 年active
リンクを2年までに制限した場
Inactive0.5 年n
nnn
n nI_BIL
D-BIL
CHE
TP
T_CHO
T_BIL
1.0年
n
1
n
1
n
n
n
n
B 1TTT_STD
GOT_STD
T_CHOT_BI
L
D_BIL
CHE
ALB
TYPE
TP
GPT_STD
n
1
n
1
n
n
n
n
B 1TTT_STD
GOT_STD
T_BILD_BIL
CHE
ALB
TYPE
TP
GPT_STD
T_CHO
専門家のコメント
一年の間隔についてTTT,GOT,GPTのSTDがgrade1で
あるというルールは非常にリーズナブルで臨床家の持っているイメージに合致し,妥当な結果である.
cured
1
n
n
n
1CHE
T_CHO
TPZTT_STD
TTT_STD
1.5年
1
n
n
n
1CHE
T_CHO
TPZTT_STD
TTT_STD TTT,ZTTについてSTDがgrade1ということで治癒後のデータであるとすれば妥当である.
第4回
前回の成果時系列の影響範囲を考慮したパターン
課題妥当なパターンが多い
時系列的な推移が少ない
2、3ステップに留まる
時系列パターンへのバイアスチャンクの重み付けを変更
クラス:繊維化HBV(2,3回目のクラス): 属性の1つとして使用
α重みなし 0実験1 +0.05実験2 +0.1実験3 +0.2
チャンキングにおける重み付け
通常のペア 1時系列リンクを含むペア 1+(時系列リンク数*α)
0
10000
20000
30000
40000
50000
60000
70000
80000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
dummy の数
パタ
ーン
数
重みなし
実験1
実験2
実験3
パターンが含まれるグラフ数の平均
平均重みなし 20実験1 20実験2 20実験3 12
Evaluation = 1.0 F0 0F1 5F2 0F3 0F4 0
n
n
n
T_CHO
I_BIL CHE
n
n
n
T_BIL
I_BIL CHE
nn
nnT_BIL
T_CHOD_BIL
I_BIL
h:nTP0.5 years 0.5 years1.0 years
専門家のコメント
時系列最後のパターンがhighに絡んでいるのが意外である.上の方はTP:(h:n)、下の方はT-CHO:hとなっている.これらがそれぞれ,F1,F2の特徴として挙
られるのかが一つの論点だと思う.
nn
nnT_BIL
T_CHOD_BIL
I_BIL T_CHO
hnnT_CHOCHE 1.0 years 0.5 years
Evaluation = 0.89 F0 0F1 1F2 4F3 0F4 0
Evaluation = 1.0 F0 0F1 0F2 5F3 0F4 0
2nTTT_STDD_BIL
1TTT_STD
nALB
1nTTT_STDT_BIL
1nTTT_STDD_BIL
nD_BIL
1.5 years 1.0 years
0.5 years 0.5 years
1.0 years
時系列リンクの重みを変えた場合に対する専門家のコメント:
TTTのパターンが浮き彫りになっているのだと思う.
他のF stageではどのようなTTTのパターンが出るのか
興味がある.
仮説:「TTTやGOTなどの動きが大きい方が、悪いステージ(大きいF stage)につながっている」と言えないか.
今後の計画
グラフ構造の類似性大量の抽出パターン
TFS等の検討 ←高橋先生,岡田先生課題:類似性の定義?フーリエ展開のアイデア
属性選択 -前処理として -GOT, GPT, TTT, ZTTの絶対値の併用インターフェロン投与の扱い
属性構築GBIの再帰呼び出し
議論7つの目標のどこを狙うか?
時系列の共起パターン抽出 が適する課題?グラフ構造への変換方法
チャンキングの行い方チャンクの重み付け以外の方法?
1. 病理像と血液検査データとの相関性2. 肝炎の病理像(繊維化の程度)と発ガンまでの期3. 血液データと発ガンまでの期間4. 時系列に関する血液データ積算の有用性5. B型肝炎とC型肝炎の経過の違い6. INF治療の有用性7. GOT,GPTがは「進行速度」の指標か
4
まとめ
肝炎データからのパターン抽出前処理
4回のサイクル今後の計画グラフ構造の類似性
属性選択・属性構築
時系列の共起パターン抽出 が適する課題?
Recommended