22
DNAマイクロアレイにおける メタ解析 @antiplastics

Meta analysis of microarray

Embed Size (px)

Citation preview

Page 1: Meta analysis of microarray

DNAマイクロアレイにおける

メタ解析

@antiplastics

Page 2: Meta analysis of microarray

目次

• 事前知識

• DNAマイクロアレイにおけるメタ解析

– Vote-Counting法

– Fisher法

– Effect Size Model (FEM&REM)

– XPN

• データ取得方法

Page 3: Meta analysis of microarray

事前知識

Page 4: Meta analysis of microarray

mRNA

転写

翻訳,折りたたみ

…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム

mRNA

タンパク質

DNAマイクロアレイはこのmRNAを定量的に計測する技術

⇒遺伝子の機能解析、遺伝子間相互作用の解析等に利用

各種生体内機能

Page 5: Meta analysis of microarray

マイクロアレイとは

マイクロアレイ = 基盤上に何かを固定化させたもの

Micro:1/1000レベルに分割して

Array:並べたもの

DNAマイクロアレイ = DNAを基盤上に固定化

細胞マイクロアレイ = 細胞を基盤上に固定化

タンパク質マイクロアレイ

抗体アレイ

組織マイクロアレイ

化合物マイクロアレイ

Page 6: Meta analysis of microarray

DNAマイクロアレイの原理

生物の細胞からmRNAを抽出

ハイブリダイゼーション反応

各スポットにcDNAと相補的なプローブが並んだ基盤

ビオチン標識

Page 7: Meta analysis of microarray

アレイ解析の基礎

-5.6 -4.2 -5.5 4.4 4.4 5.3 遺伝子3

5.1 5.3 4.4 5.3 5.5 6.5 遺伝子1

2.1 2.4 1.3 4.4 0.4 1.5 遺伝子30000

5.7 7.5 5.6 1.0 3.3 2.3 遺伝子2

t3 t2 t1 c3 c2 c1

1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。

各統計手法(例:t検定)

p=0.1

p=0.007

p=0.001

p=0.09

対照群

何も刺激を与えていないもの

処置群

試薬の投与、培養条件の変化など、刺激を与えたもの

発現変動遺伝子の判定等

FDR制御

画像データ

(.DAT)

数値データ、生データ

(.CEL)

正規化 & log2変換

実験

Page 8: Meta analysis of microarray

DNAマイクロアレイに

おけるメタ解析

Page 9: Meta analysis of microarray

p>>n問題

DNAマイクロアレイ等ハイスループット技術において特に重大な問題

-5.6 -4.2 -5.5 4.4 4.4 5.3 遺伝子3

5.1 5.3 4.4 5.3 5.5 6.5 遺伝子1

2.1 2.4 1.3 4.4 0.4 1.5 遺伝子30000

5.7 7.5 5.6 1.0 3.3 2.3 遺伝子2

t3 t2 t1 c3 c2 c1

p=30000

n=6(理想としては30000欲しい)

n(標本数)に対してp(仮説検定数)が異常に大きい

Page 10: Meta analysis of microarray

メタ解析とは

p>>n問題を解決するべく、他の研究データと統合して、より信頼性のある結論を導く事

例:ブリッジング試験

日本人

(10歳、男性、8人) アメリカ人

(11歳、男性、10人) イギリス人

(10歳、男性、7人)

その薬を承認してもいいか

薬Xを服用(4人)

未服用(4人) 未服用(5人) 未服用(4人)

検定 検定 検定

薬Xを服用(5人) 薬Xを服用(3人)

+ +

Page 11: Meta analysis of microarray

アレイデータ登録数の推移

GEO

ArrayExpress

750256枚

(2012/6/3)

128106枚

(2012/6/3)

GEO

登録開始

ArrayExpress

登録開始

二大マイクロアレイデータベース

Page 12: Meta analysis of microarray

DNAマイクロアレイにおけるメタ解析

SVD、rGN、DWD、XPN、L/S adjustment 、

EB

FEM(母数モデル、等分散) REM(変数モデル、不等分散) Bayesian model, meta-z,

LASSO, PCD, SME,

RankProd, Rank aggregation,

RankSum, MAPE、MBP,Knorm

Fisher, Stouffer, AW,

maxP/minP, TPM

Vote-Counting

(共通して変動する遺伝子を見る) クラスタリング結果を見比べる

ネットワークを見比べる、重ねる

各論文の遺伝子リストを見比べる

1つに統合 = メタ解析

エフェクトサイズ

(例:平均値の差) 検定

(例:t 検定) 解析結果

(例:発現変動遺伝子)

低レベル

難しい、根本的

高レベル

手っ取り早い

0.1

0.2

0.1

p

0.2

0.2

0.2

p

0.2

0.3

0.1

p 0.8

0.1

210

x

0.2

0.3

129

x

214

42

124

x ×

×

DEG

DEG

×

DEG

241 286 321 341

1734 1801 2001 2414

1414 1005 1312 1241

T2 T1 C2 C1

245 286 321 341

1794 1801 2001 2414

1101 1441 1011 1211

T2 T1 C2 C1

245 286 321 341

1794 1801 2001 2414

1100 1005 1352 1245

T2 T1 C2 C1

batch effect補正

(Zスケーリング,Empirical

Bayes,FC変換)

Page 13: Meta analysis of microarray

Vote-Counting法:解析結果の統合

Step1 “閾値1”で各研究での発現変動遺伝子を割り出す

Step2 “閾値2”でメタな発現変動遺伝子を割り出す

○ ○ ○ × × gene30000

×

×

研究5

×

×

研究4

○ ○ × gene3

× × × gene2

○ × ○ gene1

研究3 研究2 研究1 meta-DEG

×

×

vs vs vs vs vs

処置群

対照群

閾値1(例:FC>2) 閾値2

(例:3/5以上)

複数の研究に跨るDEGを“Signature”と呼ぶから、Signature解析ともいう

Page 14: Meta analysis of microarray

Fisher法:p値の統合

Step1 各研究データ毎に、“片側検定”でp値を算出(*) (+側、ー側の2パターンのp値を計算しておく)

Step2 +側の変動でのp値をFisher法で統合

Step3 ー側の変動でのp値をFisher法で統合 *両側検定のp値はどっち側で

有意なのか判断できないから

Fisher法

0.42 0.55 0.55 0.33 0.12 gene30000

0.003

0.05

0.62

研究5

0.04

0.03

0.24

研究4

0.014 0.03 0.02 gene3

0.54 0.45 0.12 gene2

0.31 0.72 1.04 gene1

研究3 研究2 研究1 meta-p

0.31

0.01

0.03

0.24

Fisher法 meta-DEG

×

×

FDR制御

片側p値

Page 15: Meta analysis of microarray

Effect Size Model

エフェクトサイズの統合

均質性検定 等分散

(τ2=0) FEM (Fixed Effect Model)

REM (Random Effect Model) 研究間のばらつきをχ2検定

階層モデル

不等分散

(τ2≠0)

i : 1,2,…k(研究数)

yi : 各研究データの標準化した平均値

εi : ノイズ項(研究内)

μ : 全研究データの平均

δi : ノイズ項(研究間)

FEM

REM

研究間分散

研究内分散

wi : si^(-2)

u : (Σwiyi) / Σwi

Page 16: Meta analysis of microarray

XPN:データセットを直接統合

Cross-Platform Normalization : プラットフォーム(アレイのタイプ)を跨いだ正規化手法

一つのデータセットに統合

Affymetrix社

GeneChip

U95Av2 arrays

Agilent社

25K oligonucleotide arrays

Agilent社

22K oligonucleotide arrays

Page 17: Meta analysis of microarray

XPN Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出

Step2 k-means法で各研究データをバイクラスタリング

Step3 行、列で最適と思われるクラスター数を推定し

(ここでは全研究データで同じようにクラスタリング)、”ブロック”を作成

Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正

同じような発現パターンの遺伝子”群”があるだろうという仮定

同じ癌でも幾つかの種類(Phenotype)

があるだろうという仮定 ブロック線形モデル

ブロック平均 感度

オフセット

パラメータ

ノイズ項

g : 遺伝子

s : サンプル(任意のチップ1枚) p : プラットフォーム(チップのタイプ)

Page 18: Meta analysis of microarray

データ取得方法

Page 19: Meta analysis of microarray

データ取得

言うまでもなく、同じような実験データを収集する過程が一番大変

→ 何をもって”同じ”とする?

同じ“ラットの品種”、同じ“性別”、

同じ“年齢”、同じ“生育条件”...

で計測されたデータ同士は、同じ条件下にあるに違いない!

→アレイデータベースの利用

一次データベース:GEO、ArrayExpress、SMD…

二次データベース:ONCOMINE(癌),

RefDic(免疫)、AtGenExpress(シロイヌ

ナズナ)…

同じ条件下にあるのなら、殆どの遺伝子が同程度の発現レベルを示しているに違いない!

→ “Cell montage”による類似データの検索

実験条件を信じる立場 数字を信じる立場

Page 20: Meta analysis of microarray

Cellmontage

スピアマンの順位和相関係数をもとに類似データを検索

スコア順に結果を表示

イメージ クエリ側 DB側

上位ランク遺伝子

下位ランク遺伝子

CMファイル

CBRC@台場

のサーバー

Page 21: Meta analysis of microarray

検索結果

→ 結構それっぽいものがひっかかってくる

カロリー制限ラット

Page 22: Meta analysis of microarray

まとめ

• アレイデータの二次利用として、メタ解析が行われるようになった

• メタ解析により、より信頼できる解析結果を導けると考えられる

• どの段階で統合するかで様々な方法論が提案されている

• メタ解析のためのデータベース、ツールも開発されている