Upload
lynhu
View
223
Download
2
Embed Size (px)
Citation preview
ポストゲノム生命科学方法論 (榊原担当の第1回)
慶應義塾大学生命情報学科
榊原康文
本日の目次
① 二標本検定
② マイクロアレイの発現データのクラスタリング(復習)
③ 類似度の尺度の問題点と解決
正規化ユークリッド距離
マハラノビス距離
④ 主成分分析
講義ノートのウエブページ:
http://www.dna.bio.keio.ac.jp/lecture/postgenome/
授業中試験: 5月22日(月)
変数間の相関
の解析
ハイスループット実験装置と情報処理
【マイクロアレイ】
+ プロファイル解析
プログラム
【質量分析装置】
(島津製作所)
(GenePix)
+ マススペクトル解析
プログラム
【次世代シーケンサー】
(Illumina)
ATGCATATGC
CATGCATAGC
ATTGTTGCTA
ATGCATATGC
+ アセンブリ,マッピング
プログラム
DNAチップとマイクロアレイ解析
DNAマイクロアレイによる 遺伝子発現プロファイルの解析法
ガラス基板上にスポットし乾燥・固定化
正常細胞(コントロール) ↓
mRNA ↓
cDNA+ 蛍光色素Cy3(緑)
腫瘍細胞 ↓
mRNA ↓
cDNA+ 蛍光色素Cy5(赤)
発現差のある遺伝子の検出
(次の手法はプロファイル化されたデータすべてに適用可)
実験データからの発現差検定の例
正常 腫瘍
遺伝子A
正常 腫瘍
遺伝子B
エラーバー
遺伝子Aと遺伝子Bのどちらが優位な発現差?
教師信号付き発現プロファイルの識別
① 有意な発現差のある遺伝子の検出
統計的検定方法:t 検定
② 遺伝子発現データの識別
線形識別関数
k-近傍法
サポートベクターマシン(SVM)
「有意な発現差の検出」での統計的検定
① サンプルの個体差による「ばらつき」の扱い
② 生物(微生物(大腸菌,酵母,など),線虫,マウス,..)や
細胞,組織,などには個体差があり,ばらつきがある
③ サンプルに個体差が影響して,ばらつきがでる
④ 「実験誤差(サンプルや試薬の調整,測定誤差など)」によ
るばらつき,もある
⑤ 1つのサンプル(1回の実験)では個体差の影響が出て,
信頼できる結果と結論を出すことはできない
⑥ (同条件下の)複数のサンプル,実験を行う必要がある
⑦ ばらつきを扱う方法が,統計的検定
「有意な発現差の検出」での統計的検定
① 同条件下の複数サンプルを用いることによりサンプル間のばらつきを統計的に扱う
正常細胞(コントロール) 腫瘍細胞
複数のサンプル
A B
C D
E
個体差や実験誤差によるばらつき
個体差と実験誤差によるばらつきは,正規分布に従うと仮定
正規分布 N (m, s 2 ):平均値 m,分散 s 2 ,標準偏差 s
確率密度関数:
2
2
2
)(exp
2
1)(
s
m
s
xxf
0
0.1
0.2
0.3
0.4
0.5
-3 -2 -1 0 1 2 3
標準正規分布
N (0, 12)
0 3 1 2 -1 -2 -3
0.4
個体差によるばらつき
① (例)日本人(成人)男子の身長
② (同条件下の)細胞の遺伝子Aの発現量
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
150 160 170 180 190
0
0.05
0.1
0.15
0.2
0.25
-4 -2 0 2 4
統計的検定における確率:p-value
① 統計量の有意性(期待値からの偏りの程度)を示す確率
与えられた統計量がその値以上となる確率(すそ側確率)
統計的検定量の値の得られにくさをp-値によって確率的に評価する
② (例)日本人男子における,ある身長(180cm)以上となる確率
平均身長170cm,標準偏差5.6cmとした時,180cmのp-値は0.037
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
150 160 170 180 190
p-値=0.037
すそ側の確率
170 190 180 160 150
0.08
2群の差の検定
① 2群の測定値を比較して,差があることの検定
「差がない」という帰無仮説を立てて,矛盾を証明して棄却する
② それぞれの群における個体差は正規分布に従うと仮定
③ 検定のための統計量は,2群の「平均値の差」とする
④ 2群の平均値の差の分布は,正規分布に従う
帰無仮説における,この統計量(平均値の差)の期待値は0
⇒ 標本の標準偏差を用いるとき,t 分布を用いた「t 検定」
2群の差の検定 (例)日本人男子の身長とスウェーデン人男子の身長の差
測定値
A群 B群
個体差
平均値
差がある?
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
150 160 170 180 190
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
160 170 180 190 200
A群: 日本人
B群: スウェーデン人
170 190 180 160 150
180 200 190 170 160
t 分布
x が正規分布 N (m, s 2 ) に従うとき,そこから得られたデータ数 n の標本
平均 も正規分布となり,その平均値は m,標準偏差は となる
標本平均: ,標本標準偏差:
を母標準偏差 s を使って標準化すると,その値 z は標準正規分布に
従う
を標本標準偏差 s を使って
標準化すると,その値 t は自由度
n1 の t 分布に従う
データ数 n が大きくなると正規分布
n/sx
ixx )1()( 2 nxxs i
x
x
n
xz
s
m
ns
xt
m
自由度4の t 分布
t 分布
確率密度関数
ここで,G はガンマ関数
(階乗関数を一般化したもので,
n が自然数のとき,
G(n) n! )
2
)1(2
1
2
2
1
)(
G
G
n
nn
x
nn
n
xf
(ここで,φは自由度を表す)
2標本 t 検定 (スチューデント検定)
等分散を仮定した t 検定:
(等分散を仮定できない場合,Welch法)
A群の標本数 n1,平均値 x1,標本標準偏差 s1 と,
B群の標本数 n2,平均値 x2,標本標準偏差 s2
平均値の差 x1 x2 をその標本標準誤差で標準化した
統計量 は,
自由度 n1 n2 2 の t 分布に従う
21
21
11
nns
xxt
2
)1()1(
21
2221
21
nn
nsnssここで,
1x
2x
21 xx
遺伝子のグループ化
遺伝子(それがコードするタンパク質)の機能の同定
同じ機能を持つ遺伝子をグループ化
① (アミノ酸)配列の相同性に基づくグループ化
タンパク質のファミリー,スーパーファミリー,など
② マイクロアレイデータの発現プロファイルを用いた
遺伝子のクラスタリング
クラスタリングとは
類似性にしたがって分類 (グループ分け)
クラスター : 内部の要素はお互いに似ているが、外部のものとは異なる集合
クラスタリングにより 3つのグループに分類
遺伝子発現プロファイルのクラスタリング
赤:好気性
緑:嫌気性
発現情報のみを用いて発現パターンの類似
した遺伝子をクラスター(グループ)にし
ていく
酵母(S. cerevisiae)の既知遺伝子で,似た機能
をもつものは同じクラスターに分類されることを
確認(Eisen et al.,PNAS, 1998.)
クラスタリングによって得られた結果に対し,同
一クラスター内の既知遺伝子の生物学的な注
釈(アノテーション情報)をもとに未知遺伝子の
機能を推定
マイクロアレイデータの発現プロファイル
● ●
● ●
●
● ●
● ●
● ●
● ●
● ●
● ● ●
● ● ●
● ●
条件1
(時間1)
条件2
(時間2)
条件10
(時間10)
●
●
●
遺伝子1
遺伝子2
遺伝子16
● ●
● ● ●
● ●
● ●
●
●
● ● ●
●
● ●
●
●
●
● ● ●
条件1
条件2
条件10
...
遺伝子1
遺伝子2
遺伝子16
...
発現プロファイル
発現プロファイルのクラスタリング
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
●
● ●
●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
条件1
条件2
条件10
...
遺伝子1’
遺伝子2’
遺伝子16’
...
クラスター1
クラスター2
クラスター3
発現プロファイル
類似性の尺度
入力ベクトル x = (x1, …, xn), y = (y1, …, yn)
ユークリッド距離 :
マンハッタン距離 :
(ピアソン)相関係数 :
n
i
iiE yxyxd1
2)(),(
.),(1
n
i
iiM yxyxd
n
i
i
n
i
i
n
i
ii
C
yyxx
yyxx
yxd
1
2
1
2
1
)()(
))((
),(
(値域:1≦ dC ≦ 1)
どの尺度を使えばいいのか?
0
1
2
3
4
1 2 3 4
1.0 2.0 3.0 4.0
A 1.0 1.0 1.5 1.5
B 2.5 2.5 3.5 3.5
C 1.5 1.5 1.0 1.0
B
A
C
dc(A, B) = 1
dc(A, C) = -1
dE(A, B) = 3.54
dE(A, C) = 1
ユークリッド距離
ピアソン相関係数
どの尺度を使うか 何を検出したいのか
クラスタリングアルゴリズム
Unsupervised (教師なし, 事前ラベルなし) :
階層クラスタリング, k-means法,
fuzzy k-means法, SOM(自己組織化マップ)法
クラスタ内の類似度 = 最大, クラスタ外の類似度 = 最小
[目標]
類似性にしたがって分類 (グループ分け)
階層的クラスタリング
ボトムアップ的手法
• Step1. 各要素分のクラスタを考える
• Step2. 全てのペアの類似度を調べ, 類似度が最大のペアを1つにマージする
• Step3. 全てのペアについて類似度を再計算
• Step4. クラスタが1つになるまで,Step2, 3 を繰り返す
現在のクラスタペアをマージしたクラスタを生成
階層的クラスタリング
系統図(dendrogram) 階層的クラスタリングの結果:
階層的クラスタリング
クラスタの類似度の計算
• 最短距離法. クラスタ間の最短距離
• 最長距離法. クラスタ間の最長距離
• 群間平均法. クラスタ間の平均距離
),(min),(,
yxdGGdji GyGx
ji
),(max),(,
yxdGGdji GyGx
ji
),(||||
1),(
,yxd
GGGGd
ji GyGxji
ji
階層クラスタリング
クラスタの類似度の計算
A
B
C
• 最短距離法
• 最長距離法
• 群間平均法
A, C をマージ
階層クラスタリング
クラスタの類似度の計算
A
B
C
• 最短距離法
• 最長距離法
• 群間平均法
B, C をマージ
階層クラスタリング
クラスタの類似度の計算
A
B
C
• 最短距離法
• 最長距離法
• 群間平均法
A, C をマージ
階層クラスタリング例:ユークリッド距離 (群間平均法)
[1] [2] A: 1 0
B: 2 2
C: 3 3
D: 0 -1
E: -1 1
A: B: C: D:
B: 2.236
C: 3.605 1.414
D: 1.414 3.605 5.000
E: 2.236 3.162 4.472 2.236
入力ベクトル
距離行列
距離マップ
系統樹
A
B
D
C
E
A B C D
E
階層クラスタリング例:ユークリッド距離
最短距離法 最長距離法
A B C D
E
B D A C
E
階層的クラスタリングの応用例
“Systematic Variation in gene expression patterns in
Human cancer cell lines”, Ross, D., et al. Nature Genetics, 2000
がんの種類に関して,関連する遺伝子を正しくグループ分けすることができた
CNS:中枢神経,renal:腎臓,ovarian:卵巣,leukaemia:白血病,
colon:結腸,melanoma:メラノーマ(黒色腫)
クラスタリングにおける類似度の尺度の問題点
① 各遺伝子ごとに,また各条件ごとに発現量にスケール
の違いがある
② 各属性(条件)の計測値の単位が異なる
平均,単位,伸縮に関する依存性からの脱却
③ 遺伝子の発現量の間に相関がある
変数間の相関に関する依存性からの脱却
クラスタリングにおける類似度の尺度の問題点
① 各遺伝子(条件)ごとに発現量にスケールの違いが
ある
0
10
2030
40
50
60
7080
90
100
gene1 gene2 gene3 gene4
サンプル1
サンプル2
サンプル3
多変量解析 確率分布を考慮した距離
クラスタリングにおける類似度の尺度の問題点
② 計測値の単位の違い
発現強度:蛍光強度(蛍光単位(FU))
溶液濃度(g/L) ,モル濃度(mol/L)
温度(摂氏 C)
水素イオン濃度(pH)
時間(秒 s):反応速度(単位時間あたりにできる生成物の量)
吸光度(Abs,実は無単位(AU))
二本鎖DNAは260 nmの吸光度1が約50μg/mlに相当
(光の波長(nm))
多変量解析
多くの変量を総合的に取り扱う解析手法
一般にN個の変量⇒(簡単のため)2個の変量の場合を考える
(例題)a と b,a と c,どちらの距離が近い?
x1
x2
a b
c 単純には:
d(a, b) < d(a, c)
データの分布(分散)を
考慮して正規化すると:
d(a, b) > d(a, c)
(例) x1が英語の点数で40点~60点に分布, x2が数学の点数で20点~80点に分布
英語50点・数学50点は,英語60点・数学50点と英語50点・数学70点のどちらに近い
正規化ユークリッド距離
解決法(1):
各遺伝子(各次元)の発現量を正規化した値に変換する
平均値 m と標準偏差 s を計算して変数変換 z (x m ) / s
の値を用いる
(無名数:単位を持たない数)
変数変換された値を用いて,類似度の尺度(ユークリッド距離
など)を計算する
「正規化ユークリッド距離」と同じ:
n
i i
iiNE
yxyxd
12
2)(),(
s
ここで,si2 は i 次元の分散
データの正規化と正規分布 変数変換(正規化)と正規分布
変数変換 z (x m ) / s を行うと,平均値0,分散1の標準正規分布
N (0, 12) に標準化される (偏差値は z’ (x m ) * 10 / s 50 )
どんな正規分布も,データをその平均値と標準偏差で標準化すれば,
単一の標準正規分布となる
正規分布 N (m, s 2 ):平均値 m,分散 s 2 ,標準偏差 s
確率密度関数:
2
2
2
)(exp
2
1)(
s
m
s
xxf
0
0.1
0.2
0.3
0.4
0.5
-3 -2 -1 0 1 2 3
標準正規分布
N (0, 12)
正規化ユークリッド距離
2点 x = (x1, x2), y = (y1, y2) 間の距離:
X1
X2
m
相関がない場合
正規化ユークリッド距離
),( 21 xxx
),( 21 yyy
2
2
22
2
1
11
22 )()(
),(
2211
ss
yxyx
zzzz
yxd
yxyx
NE
クラスタリングにおける類似度の尺度の問題点 正規化ユークリッド距離は,変数間に相関のないことを仮定
⇒ 変数間に相関のある場合は?
x1
x2
m
x1 と x2 の間に相関がある場合は?
x1
x2
m
相関がない場合
例えば,x1が身長の値で,x2が体重の値の場合,
両者には相関がある ( x2 @ x1 110 )
マハラノビス距離
解決法(2):
マハラノビス距離を用いる
変数間の相関を考慮し,また尺度水準に依存しない
距離を一般化したものという意味でマハラノビス汎距離とも
いう
)()(),( 1 yxyxyxdMA
2
21
2
2
212
121
2
1
nnn
n
n
sss
sss
sss
分散共分散行列
),,,( ),,,,( 2121 nn yyyyxxxx
m
マハラノビス距離
2点 x = (x1, x2), y = (y1, y2) 間の距離:
X1
X2
X1 と X2 の間に相関がある
マハラノビス距離
),( 21 xxx
),( 21 yyy
Z1 と Z2 の間に相関が無い
Z1
Z2
m
),( 21 uuu
),( 21 vvv
正規化ユークリッド
距離
分散共分散行列を用いた基底変換
どのようにして相関の無いZ1, Z2 座標系へ変換するか?
⇒分散共分散行列の固有ベクトルによる線形変換
固有ベクトルを直交座標(基底)とする座標系へ変換する
(固有ベクトルによる基底変換)
変換先の座標系では共分散が 0 となる
多変量における分散,共分散とは
① 多変数(ここではn次元)のデータ(m個のデータ):
② 平均: 分散: 標準偏差:
③ 共分散:
④ 分散共分散行列:
分散はデータのばらつき,共分散はデータの相関の度合いを表す
),,,( , ),,,,( ),,,,( 21222212112111 mnmmmnn xxxdxxxdxxxd
im1
)(1
2
2
m
xm
k iki
i
ms
is
)( 1
))((1
ji
m
k jkjiki
ijm
xxs
mms
分散共分散
共分散分散
2
221
12
2
1
ss
ss
多変量における共分散,散布図
共分散と散布図:
共分散が0となる例題:
x1
x2
x1 の平均
x2 の平均
共分散=正
共分散=正 共分散=負
共分散=負
03
1)1()1(1
14
)23)(23()23)(21()21)(23()21)(21(
)2 ,2(
)3 ,3( ),3 ,1( ),1 ,3( ),1 ,1(:
共分散
平均
データ4点
x2
x1
共分散
(広がりのばらつき)
分散
(長さのばらつき)
固有ベクトル,固有値
① 固有ベクトル,固有値:
ss
ss
ss
ss
)と固有値(スカラー値 固有ベクトル
となるに対して,
),(
21
2
1
2
1
2
221
12
2
1
2
221
12
2
1
pp
p
p
p
p
212121 ,),(),,( と2つの固有値固有ベクトル2変数の場合,2つの qqpp
42
31
固有値 固有ベクトル
行列の対角化
② 対称行列の固有ベクトル行列Pによる対角化:
i. 対称行列の異なる固有ベクトルはお互いに直交する
ii. 対称行列の正規化した固有ベクトルから成る行列Pは直交行列
iii. 直交行列とは,P1=Pt が成り立つ (Pt は転置行列)
iv. 分散共分散行列は対称行列
が成り立つとすると, 0
0
2
1 )( DPPPPD tD
が成り立つ さらに, , 11 ttt PPDDPP
),( ),,( ,1 , 2121
22
22
11qqqpppqp
qp
qpP
21
21
ppPt
(対角化の定理) )固有値は2つの( , 21
分散共分散行列の固有ベクトルによる基底変換
2
221
12
2
1
ss
ss
サンプルデータ
分散共分散行列
21
2121
,
),(),,(
固有値
と固有ベクトル
る分散共分散行列に対す
qqpp
になる変換すると共分散は
とする座標系にを基底
0
22
11
qp
qp
22112
22111
xqxqu
xpxpu
線形変換:
2
1
0
0
変換先の座標系での
分散共分散行列
分散共分散行列の固有ベクトルによる座標変換
(1,0), (0,1) の座標系 (p1, p2), (q1, q2) の座標系
10
01基底
22
11
qp
qp基底
基底変換
),( 21 xxx ),( 21 uuu
22112
22111
21
211
) (
xqxqu
xpxpu
Pqq
ppPP t
が直交行列のとき
22
11
qp
qpP
線形変換 P 1
により変換
このとき,平面上の各点は
座標は
各点は
マハラノビス距離
2
2
21
2
1 )( ,)( ss zz
)()(
)()(
)()(
)(1
0
01
)(
),(
)(
10
0)(
1
),(
)()(
1)()(
)(
1)(
)()(),(
1
1
1
2
1
2211
2
2
2
12211
222
2
22112
1
11
2
2
22
2
1
11
yxyx
yxPPDyx
yxPDyxP
vuvu
vuvu
z
zvuvu
vuz
vuvuz
vu
z
vu
z
vuyxd
t
tt
MA
s
s
ss
ss
uyPuxP tt ,
xPxPt
転置行列の性質より
主成分分析
① 一般に変数間には相関があり,相関を取り除くことにより,少数の主要な次元だけで表せる
② 次元数の削減
– マイクロアレイデータは,数千から数万の遺伝子の網羅的な発現量の計測
– 次元数に比べてサンプル数が少ない
– (多次元尺度構成法)
② データの視覚化
– データの構造探索や簡潔に示す技術
– 定性評価のために視覚化
③ 情報のロスを避けつつ,表現を簡単化していくという原理
主成分分析 数学的定義:
多変量の変数 x1,x2,…,xn をできるだけ情報の損失なしに,1個
または互いに独立な少数個の指標(別の変数) z1,z2,…,zm
で表現する手法
z1,z2,…,zm のことをそれぞれ,第一主成分,第二主成分,...,
第n主成分と呼ぶ
主成分分析では,変数 xi,xj 間の相関を見出すことが重要
nmnmmm
nn
nn
xaxaxaz
xaxaxaz
xaxaxaz
2211
22221212
12121111
主成分とは? 極端な例:
x1
x2
b
c
a
e g
h f
d
この平面上のデータを表現するのに,
この一本の軸 z1 だけで十分なのではないか
と思えてくる
主成分 z1 = a1x1+a2x2
a
b
c a e
g
h
f
d
z1
主成分分析
b
c e
g
h f
d z1
例えば,身長x1と体重x2に相関がある( x2 @ x1 110 )場合, z = x1+ x2
という一つの値(成分)だけでデータの分布を見るのに十分
主成分とは? 情報の損失:
主成分 z1 = a1x1+a2x2
x1
x2
b
e
f
データから主成分z1に下ろした垂線の長さ=情報の損失量
データ e と f は主成分z1上では,同じ点に移動してしまう
情報損失量
直線 l : a2x1a1x2+a0=0 とする
||
) 1(
)(
||
),(
02112
2
2
2
1
2
1
2
2
02112
21
ababa
aa
aa
ababab
lb
bbb
とおくことにより
の情報損失量点
:へ下ろした垂線の長さから直線点
の情報損失量は,点
主成分分析
情報損失量を最小にする主成分:
情報損失量の二乗和:
を最小にする a1, a2 を求める
実は,分散共分散行列の固有ベクトルを求めることと等価:
情報損失量を最小にする主成分 (a1, a2) が求まる
実は,主成分の分散を最大にすることと等価
⇒ 固有値(=主成分の分散)の最大化と等価
⇒ 固有値の最も大きい固有ベクトルを主成分とする
主成分の寄与率:
21 ,
2
02112012 )(),,(xx
axaxaaaaU
値の和すべての主成分の固有
の固有値主成分の寄与率主成分
ii
主成分分析の例題:化合物の主成分分析
化合物に関する多次元の記述子から2次元への主成分分析
⇒ 化合物の多様性の解析
(Dobson, Nature, 2004)
combinatorial chemistry
natural products
drugs
主成分分析の例題:化合物の主成分分析
化合物の記述子の例 (PubChemデータベース)
アセチルサリチル酸 (アスピリン)
構造式