（榊原担当の第1回） - Sakakibara · PDF fileハイスループット実験装置と情報処理【マイクロアレイ】＋プロファイル解析プログラム【質量分析装置】

ポストゲノム生命科学方法論（榊原担当の第１回）

慶應義塾大学生命情報学科

榊原康文

本日の目次

① 二標本検定

② マイクロアレイの発現データのクラスタリング（復習）

③ 類似度の尺度の問題点と解決

正規化ユークリッド距離

マハラノビス距離

④ 主成分分析

講義ノートのウエブページ：

http://www.dna.bio.keio.ac.jp/lecture/postgenome/

授業中試験：５月２２日（月）

変数間の相関

の解析

http://www.dna.bio.keio.ac.jp/lecture/postgenome/

ハイスループット実験装置と情報処理

【マイクロアレイ】

＋プロファイル解析

プログラム

【質量分析装置】

（島津製作所）

（GenePix）

＋マススペクトル解析

プログラム

【次世代シーケンサー】

（Illumina）

ATGCATATGC

CATGCATAGC

ATTGTTGCTA

ATGCATATGC

＋アセンブリ，マッピング

プログラム

DNAチップとマイクロアレイ解析

DNAマイクロアレイによる遺伝子発現プロファイルの解析法

ガラス基板上にスポットし乾燥・固定化

正常細胞（コントロール） ↓

mRNA ↓

cDNA+ 蛍光色素Cy3(緑)

腫瘍細胞 ↓

mRNA ↓

cDNA+ 蛍光色素Cy5(赤)

発現差のある遺伝子の検出

（次の手法はプロファイル化されたデータすべてに適用可）

実験データからの発現差検定の例

正常腫瘍

遺伝子A

正常腫瘍

遺伝子B

エラーバー

遺伝子Aと遺伝子Bのどちらが優位な発現差？

教師信号付き発現プロファイルの識別

① 有意な発現差のある遺伝子の検出

統計的検定方法：ｔ検定

② 遺伝子発現データの識別

線形識別関数

k-近傍法

サポートベクターマシン（SVM）

「有意な発現差の検出」での統計的検定

① サンプルの個体差による「ばらつき」の扱い

② 生物（微生物（大腸菌，酵母，など），線虫，マウス，..）や

細胞，組織，などには個体差があり，ばらつきがある

③ サンプルに個体差が影響して，ばらつきがでる

④ 「実験誤差（サンプルや試薬の調整，測定誤差など）」によ

るばらつき，もある

⑤ １つのサンプル（１回の実験）では個体差の影響が出て，

信頼できる結果と結論を出すことはできない

⑥ （同条件下の）複数のサンプル，実験を行う必要がある

⑦ ばらつきを扱う方法が，統計的検定

「有意な発現差の検出」での統計的検定

① 同条件下の複数サンプルを用いることによりサンプル間のばらつきを統計的に扱う

正常細胞（コントロール）腫瘍細胞

複数のサンプル

A B

C D

E

個体差や実験誤差によるばらつき

個体差と実験誤差によるばらつきは，正規分布に従うと仮定

正規分布 N (m, s 2 )：平均値 m，分散 s 2 ，標準偏差 s

確率密度関数：

2

2

2

)(exp

2

1)(

s

m

s

xxf

0

0.1

0.2

0.3

0.4

0.5

-3 -2 -1 0 1 2 3

標準正規分布

N (0, 12)

0 3 1 2 -1 -2 -3

0.4

個体差によるばらつき

① （例）日本人（成人）男子の身長

② （同条件下の）細胞の遺伝子Aの発現量

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

150 160 170 180 190

0

0.05

0.1

0.15

0.2

0.25

-4 -2 0 2 4

統計的検定における確率：p-value

① 統計量の有意性（期待値からの偏りの程度）を示す確率

与えられた統計量がその値以上となる確率（すそ側確率）

統計的検定量の値の得られにくさをp-値によって確率的に評価する

② （例）日本人男子における，ある身長（１８０ｃｍ）以上となる確率

平均身長１７０ｃｍ，標準偏差５．６ｃｍとした時，１８０ｃｍのp-値は０．０３７

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

150 160 170 180 190

p-値=0.037

すそ側の確率

170 190 180 160 150

0.08

２群の差の検定

① ２群の測定値を比較して，差があることの検定

「差がない」という帰無仮説を立てて，矛盾を証明して棄却する

② それぞれの群における個体差は正規分布に従うと仮定

③ 検定のための統計量は，２群の「平均値の差」とする

④ ２群の平均値の差の分布は，正規分布に従う

帰無仮説における，この統計量（平均値の差）の期待値は０

⇒ 標本の標準偏差を用いるとき，ｔ分布を用いた「ｔ検定」

２群の差の検定（例）日本人男子の身長とスウェーデン人男子の身長の差

測定値

A群 B群

個体差

平均値

差がある？

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

150 160 170 180 190

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

160 170 180 190 200

A群：日本人

B群：スウェーデン人

170 190 180 160 150

180 200 190 170 160

ｔ分布

x が正規分布 N (m, s 2 ) に従うとき，そこから得られたデータ数 n の標本

平均も正規分布となり，その平均値は m，標準偏差はとなる

標本平均：，標本標準偏差：

を母標準偏差 s を使って標準化すると，その値 z は標準正規分布に

従う

を標本標準偏差 s を使って

標準化すると，その値 t は自由度

n1 の t 分布に従う

データ数 n が大きくなると正規分布

n/sx

ixx )1()( 2 nxxs i

x

x

n

xz

s

m

ns

xt

m

自由度４の t 分布

ｔ分布

確率密度関数

ここで，G はガンマ関数

（階乗関数を一般化したもので，

n が自然数のとき，

G(n) n! ）

2

)1(2

1

2

2

1

)(

G

G

n

nn

x

nn

n

xf

（ここで，φは自由度を表す）

２標本ｔ検定（スチューデント検定）

等分散を仮定したｔ検定：

（等分散を仮定できない場合，Welch法）

A群の標本数 n1，平均値 x1，標本標準偏差 s1 と，

B群の標本数 n2，平均値 x2，標本標準偏差 s2

平均値の差 x1 x2 をその標本標準誤差で標準化した

統計量は，

自由度 n1 n2 2 の t 分布に従う

21

21

11

nns

xxt

2

)1()1(

21

2221

21

nn

nsnssここで，

1x

2x

21 xx

遺伝子のグループ化

遺伝子（それがコードするタンパク質）の機能の同定

同じ機能を持つ遺伝子をグループ化

① （アミノ酸）配列の相同性に基づくグループ化

タンパク質のファミリー，スーパーファミリー，など

② マイクロアレイデータの発現プロファイルを用いた

遺伝子のクラスタリング

クラスタリングとは

類似性にしたがって分類 (グループ分け)

クラスター : 内部の要素はお互いに似ているが、外部のものとは異なる集合

クラスタリングにより３つのグループに分類

遺伝子発現プロファイルのクラスタリング

赤：好気性

緑：嫌気性

発現情報のみを用いて発現パターンの類似

した遺伝子をクラスター（グループ）にし

ていく

酵母（S. cerevisiae）の既知遺伝子で，似た機能

をもつものは同じクラスターに分類されることを

確認（Eisen et al.,PNAS, 1998.）

クラスタリングによって得られた結果に対し，同

一クラスター内の既知遺伝子の生物学的な注

釈（アノテーション情報）をもとに未知遺伝子の

機能を推定

マイクロアレイデータの発現プロファイル

● ●

● ●

●

● ●

● ●

● ●

● ●

● ●

● ● ●

● ● ●

● ●

条件１

（時間１）

条件２

（時間２）

条件10

（時間10）

●

●

●

遺伝子１

遺伝子２

遺伝子16

● ●

● ● ●

● ●

● ●

●

●

● ● ●

●

● ●

●

●

●

● ● ●

条件１

条件２

条件10

．．．

遺伝子１

遺伝子２

遺伝子16

．．．

発現プロファイル

発現プロファイルのクラスタリング

● ● ● ● ● ●

● ● ● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

● ● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

●

● ●

●

● ● ● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

条件１

条件２

条件10

．．．

遺伝子１’

遺伝子２’

遺伝子１６’

．．．

クラスター１

クラスター２

クラスター３

発現プロファイル

類似性の尺度

入力ベクトル x = (x1, …, xn), y = (y1, …, yn)

ユークリッド距離 :

マンハッタン距離 :

（ピアソン）相関係数 :

n

i

iiE yxyxd1

2)(),(

.),(1

n

i

iiM yxyxd

n

i

i

n

i

i

n

i

ii

C

yyxx

yyxx

yxd

1

2

1

2

1

)()(

))((

),(

（値域：1≦ dC ≦ 1）

どの尺度を使えばいいのか？

0

1

2

3

4

1 2 3 4

1.0 2.0 3.0 4.0

A 1.0 1.0 1.5 1.5

B 2.5 2.5 3.5 3.5

C 1.5 1.5 1.0 1.0

B

A

C

dc(A, B) = 1

dc(A, C) = -1

dE(A, B) = 3.54

dE(A, C) = 1

ユークリッド距離

ピアソン相関係数

どの尺度を使うか何を検出したいのか

クラスタリングアルゴリズム

Unsupervised (教師なし, 事前ラベルなし) :

階層クラスタリング, k-means法,

fuzzy k-means法, SOM(自己組織化マップ)法

クラスタ内の類似度 = 最大, クラスタ外の類似度 = 最小

[目標]

類似性にしたがって分類 (グループ分け)

階層的クラスタリング

ボトムアップ的手法

• Step1. 各要素分のクラスタを考える

• Step2. 全てのペアの類似度を調べ，類似度が最大のペアを１つにマージする

• Step3. 全てのペアについて類似度を再計算

• Step4. クラスタが1つになるまで，Step2, 3 を繰り返す

現在のクラスタペアをマージしたクラスタを生成


系統図（dendrogram）階層的クラスタリングの結果：


クラスタの類似度の計算

• 最短距離法. クラスタ間の最短距離

• 最長距離法. クラスタ間の最長距離

• 群間平均法. クラスタ間の平均距離

),(min),(,

yxdGGdji GyGx

ji

),(max),(,

yxdGGdji GyGx

ji

),(||||

1),(

,yxd

GGGGd

ji GyGxji

ji

階層クラスタリング


A

B

C

• 最短距離法

• 最長距離法

• 群間平均法

A, C をマージ



A

B

C

• 最短距離法

• 最長距離法

• 群間平均法

B, C をマージ



A

B

C

• 最短距離法

• 最長距離法

• 群間平均法

A, C をマージ

階層クラスタリング例：ユークリッド距離（群間平均法）

[1] [2] A: 1 0

B: 2 2

C: 3 3

D: 0 -1

E: -1 1

A: B: C: D:

B: 2.236

C: 3.605 1.414

D: 1.414 3.605 5.000

E: 2.236 3.162 4.472 2.236

入力ベクトル

距離行列

距離マップ

系統樹

A

B

D

C

E

A B C D

E

階層クラスタリング例：ユークリッド距離

最短距離法最長距離法

A B C D

E

B D A C

E

階層的クラスタリングの応用例

“Systematic Variation in gene expression patterns in

Human cancer cell lines”, Ross, D., et al. Nature Genetics, 2000

がんの種類に関して，関連する遺伝子を正しくグループ分けすることができた

CNS：中枢神経，renal：腎臓，ovarian：卵巣，leukaemia：白血病，

colon：結腸，melanoma：メラノーマ（黒色腫）

クラスタリングにおける類似度の尺度の問題点

① 各遺伝子ごとに，また各条件ごとに発現量にスケール

の違いがある

② 各属性（条件）の計測値の単位が異なる

平均，単位，伸縮に関する依存性からの脱却

③ 遺伝子の発現量の間に相関がある

変数間の相関に関する依存性からの脱却


① 各遺伝子（条件）ごとに発現量にスケールの違いが

ある

0

10

2030

40

50

60

7080

90

100

gene1 gene2 gene3 gene4

サンプル１

サンプル２

サンプル３

多変量解析確率分布を考慮した距離


② 計測値の単位の違い

発現強度：蛍光強度（蛍光単位（FU））

溶液濃度（g/L），モル濃度（mol/L）

温度（摂氏 C）

水素イオン濃度（pH）

時間（秒 s）：反応速度（単位時間あたりにできる生成物の量）

吸光度（Abs，実は無単位（AU））

二本鎖DNAは260 nmの吸光度1が約50μg/mlに相当

（光の波長（nm））

多変量解析

多くの変量を総合的に取り扱う解析手法

一般にN個の変量⇒（簡単のため）２個の変量の場合を考える

（例題）a と b，a と c，どちらの距離が近い？

x1

x2

a b

c 単純には：

d(a, b) < d(a, c)

データの分布（分散）を

考慮して正規化すると：

d(a, b) > d(a, c)

（例） x1が英語の点数で40点～60点に分布， x2が数学の点数で20点～80点に分布

英語50点・数学50点は，英語60点・数学50点と英語50点・数学70点のどちらに近い


解決法（１）：

各遺伝子（各次元）の発現量を正規化した値に変換する

平均値 m と標準偏差 s を計算して変数変換 z (x m ) / s

の値を用いる

（無名数：単位を持たない数）

変数変換された値を用いて，類似度の尺度（ユークリッド距離

など）を計算する

「正規化ユークリッド距離」と同じ：

n

i i

iiNE

yxyxd

12

2)(),(

s

ここで，si2 は i 次元の分散

データの正規化と正規分布変数変換（正規化）と正規分布

変数変換 z (x m ) / s を行うと，平均値0，分散1の標準正規分布

N (0, 12) に標準化される（偏差値は z’ (x m ) * 10 / s 50 ）

どんな正規分布も，データをその平均値と標準偏差で標準化すれば，

単一の標準正規分布となる

正規分布 N (m, s 2 )：平均値 m，分散 s 2 ，標準偏差 s

確率密度関数：

2

2

2

)(exp

2

1)(

s

m

s

xxf

0

0.1

0.2

0.3

0.4

0.5

-3 -2 -1 0 1 2 3

標準正規分布

N (0, 12)


２点 x = (x1, x2), y = (y1, y2) 間の距離：

X1

X2

m

相関がない場合


),( 21 xxx

),( 21 yyy

2

2

22

2

1

11

22 )()(

),(

2211

ss

yxyx

zzzz

yxd

yxyx

NE

クラスタリングにおける類似度の尺度の問題点正規化ユークリッド距離は，変数間に相関のないことを仮定

⇒ 変数間に相関のある場合は？

x1

x2

m

x1 と x2 の間に相関がある場合は？

x1

x2

m

相関がない場合

例えば，x1が身長の値で，x2が体重の値の場合，

両者には相関がある（ x2 @ x1 110 ）


解決法（２）：

マハラノビス距離を用いる

変数間の相関を考慮し，また尺度水準に依存しない

距離を一般化したものという意味でマハラノビス汎距離とも

いう

)()(),( 1 yxyxyxdMA

2

21

2

2

212

121

2

1

nnn

n

n

sss

sss

sss

分散共分散行列

),,,( ),,,,( 2121 nn yyyyxxxx

m


２点 x = (x1, x2), y = (y1, y2) 間の距離：

X1

X2

X1 と X2 の間に相関がある


),( 21 xxx

),( 21 yyy

Z1 と Z2 の間に相関が無い

Z1

Z2

m

),( 21 uuu

),( 21 vvv

正規化ユークリッド

距離

分散共分散行列を用いた基底変換

どのようにして相関の無いZ1, Z2 座標系へ変換するか？

⇒分散共分散行列の固有ベクトルによる線形変換

固有ベクトルを直交座標（基底）とする座標系へ変換する

（固有ベクトルによる基底変換）

変換先の座標系では共分散が 0 となる

多変量における分散，共分散とは

① 多変数（ここではn次元）のデータ（m個のデータ）：

② 平均：分散：標準偏差：

③ 共分散：

④ 分散共分散行列：

分散はデータのばらつき，共分散はデータの相関の度合いを表す

),,,( , ),,,,( ),,,,( 21222212112111 mnmmmnn xxxdxxxdxxxd

im1

)(1

2

2

m

xm

k iki

i

ms

is

)( 1

))((1

ji

m

k jkjiki

ijm

xxs

mms

分散共分散

共分散分散

2

221

12

2

1

ss

ss

多変量における共分散，散布図

共分散と散布図：

共分散が0となる例題：

x1

x2

x1 の平均

x2 の平均

共分散＝正

共分散＝正共分散＝負

共分散＝負

03

1)1()1(1

14

)23)(23()23)(21()21)(23()21)(21(

)2 ,2(

)3 ,3( ),3 ,1( ),1 ,3( ),1 ,1(:

共分散

平均

データ4点

x2

x1

共分散

（広がりのばらつき）

分散

（長さのばらつき）

固有ベクトル，固有値

① 固有ベクトル，固有値：

ss

ss

ss

ss

）と固有値（スカラー値固有ベクトル

となるに対して，

),(

21

2

1

2

1

2

221

12

2

1

2

221

12

2

1

pp

p

p

p

p

212121 ,),(),,( と２つの固有値固有ベクトル２変数の場合，２つの qqpp

42

31

固有値固有ベクトル

行列の対角化

② 対称行列の固有ベクトル行列Pによる対角化：

i. 対称行列の異なる固有ベクトルはお互いに直交する

ii. 対称行列の正規化した固有ベクトルから成る行列Pは直交行列

iii. 直交行列とは，P1=Pt が成り立つ（Pt は転置行列）

iv. 分散共分散行列は対称行列

が成り立つとすると， 0

0

2

1 ）（ DPPPPD tD

が成り立つさらに， , 11 ttt PPDDPP

),( ),,( ,1 , 2121

22

22

11qqqpppqp

qp

qpP

21

21

qq

ppPt

（対角化の定理））固有値は２つの（ , 21

分散共分散行列の固有ベクトルによる基底変換

2

221

12

2

1

ss

ss

サンプルデータ


21

2121

,

),(),,(

固有値

と固有ベクトル

る分散共分散行列に対す

qqpp

になる変換すると共分散は

とする座標系にを基底

0

22

11

qp

qp

22112

22111

xqxqu

xpxpu

線形変換：

2

1

0

0

変換先の座標系での


分散共分散行列の固有ベクトルによる座標変換

(1,0), (0,1) の座標系 (p1, p2), (q1, q2) の座標系

10

01基底

22

11

qp

qp基底

基底変換

),( 21 xxx ),( 21 uuu

22112

22111

21

211

) (

xqxqu

xpxpu

Pqq

ppPP t

が直交行列のとき

22

11

qp

qpP

線形変換 P 1

により変換

このとき，平面上の各点は

座標は

各点は


2

2

21

2

1 )( ,)( ss zz

)()(

)()(

)()(

)(1

0

01

)(

),(

)(

10

0)(

1

),(

)()(

1)()(

)(

1)(

)()(),(

1

1

1

2

1

2211

2

2

2

12211

222

2

22112

1

11

2

2

22

2

1

11

yxyx

yxPPDyx

yxPDyxP

vuvu

vuvu

z

zvuvu

vuz

vuvuz

vu

z

vu

z

vuyxd

t

tt

MA

s

s

ss

ss

uyPuxP tt ,

xPxPt

転置行列の性質より

主成分分析

① 一般に変数間には相関があり，相関を取り除くことにより，少数の主要な次元だけで表せる

② 次元数の削減

– マイクロアレイデータは，数千から数万の遺伝子の網羅的な発現量の計測

– 次元数に比べてサンプル数が少ない

– （多次元尺度構成法）

② データの視覚化

– データの構造探索や簡潔に示す技術

– 定性評価のために視覚化

③ 情報のロスを避けつつ，表現を簡単化していくという原理

主成分分析数学的定義：

多変量の変数 x1,x2,…,xn をできるだけ情報の損失なしに，１個

または互いに独立な少数個の指標（別の変数） z1,z2,…,zm

で表現する手法

z1,z2,…,zm のことをそれぞれ，第一主成分，第二主成分，．．．，

第n主成分と呼ぶ

主成分分析では，変数 xi,xj 間の相関を見出すことが重要

nmnmmm

nn

nn

xaxaxaz

xaxaxaz

xaxaxaz

2211

22221212

12121111

主成分とは？極端な例：

x1

x2

b

c

a

e g

h f

d

この平面上のデータを表現するのに，

この一本の軸 z1 だけで十分なのではないか

と思えてくる

主成分 z1 = a1x1+a2x2

a

b

c a e

g

h

f

d

z1

主成分分析

b

c e

g

h f

d z1

例えば，身長x1と体重x2に相関がある（ x2 @ x1 110 ）場合， z = x1+ x2

という一つの値（成分）だけでデータの分布を見るのに十分

主成分とは？情報の損失：

主成分 z1 = a1x1+a2x2

x1

x2

b

e

f

データから主成分z1に下ろした垂線の長さ＝情報の損失量

データ e と f は主成分z1上では，同じ点に移動してしまう

情報損失量

直線 l : a2x1a1x2+a0=0 とする

||

) 1(

)(

||

),(

02112

2

2

2

1

2

1

2

2

02112

21

ababa

aa

aa

ababab

lb

bbb

とおくことにより

の情報損失量点

：へ下ろした垂線の長さから直線点

の情報損失量は，点

主成分分析

情報損失量を最小にする主成分：

情報損失量の二乗和：

を最小にする a1, a2 を求める

実は，分散共分散行列の固有ベクトルを求めることと等価：

情報損失量を最小にする主成分 (a1, a2) が求まる

実は，主成分の分散を最大にすることと等価

⇒ 固有値（＝主成分の分散）の最大化と等価

⇒ 固有値の最も大きい固有ベクトルを主成分とする

主成分の寄与率：

21 ,

2

02112012 )(),,(xx

axaxaaaaU

値の和すべての主成分の固有

の固有値主成分の寄与率主成分

ii

主成分分析の例題：化合物の主成分分析

化合物に関する多次元の記述子から２次元への主成分分析

⇒ 化合物の多様性の解析

（Dobson, Nature, 2004）

combinatorial chemistry

natural products

drugs

主成分分析の例題：化合物の主成分分析

化合物の記述子の例（PubChemデータベース）

アセチルサリチル酸（アスピリン）

構造式

http://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:Aspirin-skeletal.svg

Documents

（榊原担当の第1回） - Sakakibara · PDF fileハイスループット実験装置と情報処理 【マイクロアレイ】 ＋ プロファイル解析 プログラム 【質量分析装置】

（榊原担当の第1回） - Sakakibara · PDF fileハイスループット実験装置と情報処理【マイクロアレイ】＋プロファイル解析プログラム【質量分析装置】