Upload
antiplastics
View
1.679
Download
3
Embed Size (px)
Citation preview
DNAマイクロアレイにおける
メタ解析
@antiplastics
目次
• 事前知識
• DNAマイクロアレイにおけるメタ解析
– Vote-Counting法
– Fisher法
– Effect Size Model (FEM&REM)
– XPN
• データ取得方法
事前知識
mRNA
転写
翻訳,折りたたみ
…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム
mRNA
タンパク質
DNAマイクロアレイはこのmRNAを定量的に計測する技術
⇒遺伝子の機能解析、遺伝子間相互作用の解析等に利用
各種生体内機能
マイクロアレイとは
マイクロアレイ = 基盤上に何かを固定化させたもの
Micro:1/1000レベルに分割して
Array:並べたもの
DNAマイクロアレイ = DNAを基盤上に固定化
細胞マイクロアレイ = 細胞を基盤上に固定化
タンパク質マイクロアレイ
抗体アレイ
組織マイクロアレイ
化合物マイクロアレイ
…
DNAマイクロアレイの原理
生物の細胞からmRNAを抽出
ハイブリダイゼーション反応
各スポットにcDNAと相補的なプローブが並んだ基盤
ビオチン標識
アレイ解析の基礎
-5.6 -4.2 -5.5 4.4 4.4 5.3 遺伝子3
5.1 5.3 4.4 5.3 5.5 6.5 遺伝子1
2.1 2.4 1.3 4.4 0.4 1.5 遺伝子30000
5.7 7.5 5.6 1.0 3.3 2.3 遺伝子2
t3 t2 t1 c3 c2 c1
1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。
各統計手法(例:t検定)
p=0.1
p=0.007
p=0.001
p=0.09
対照群
何も刺激を与えていないもの
処置群
試薬の投与、培養条件の変化など、刺激を与えたもの
発現変動遺伝子の判定等
FDR制御
画像データ
(.DAT)
数値データ、生データ
(.CEL)
正規化 & log2変換
実験
DNAマイクロアレイに
おけるメタ解析
p>>n問題
DNAマイクロアレイ等ハイスループット技術において特に重大な問題
-5.6 -4.2 -5.5 4.4 4.4 5.3 遺伝子3
5.1 5.3 4.4 5.3 5.5 6.5 遺伝子1
2.1 2.4 1.3 4.4 0.4 1.5 遺伝子30000
5.7 7.5 5.6 1.0 3.3 2.3 遺伝子2
t3 t2 t1 c3 c2 c1
p=30000
n=6(理想としては30000欲しい)
n(標本数)に対してp(仮説検定数)が異常に大きい
メタ解析とは
p>>n問題を解決するべく、他の研究データと統合して、より信頼性のある結論を導く事
例:ブリッジング試験
日本人
(10歳、男性、8人) アメリカ人
(11歳、男性、10人) イギリス人
(10歳、男性、7人)
その薬を承認してもいいか
薬Xを服用(4人)
未服用(4人) 未服用(5人) 未服用(4人)
検定 検定 検定
薬Xを服用(5人) 薬Xを服用(3人)
+ +
アレイデータ登録数の推移
GEO
ArrayExpress
750256枚
(2012/6/3)
128106枚
(2012/6/3)
GEO
登録開始
ArrayExpress
登録開始
二大マイクロアレイデータベース
DNAマイクロアレイにおけるメタ解析
SVD、rGN、DWD、XPN、L/S adjustment 、
EB
FEM(母数モデル、等分散) REM(変数モデル、不等分散) Bayesian model, meta-z,
LASSO, PCD, SME,
RankProd, Rank aggregation,
RankSum, MAPE、MBP,Knorm
Fisher, Stouffer, AW,
maxP/minP, TPM
Vote-Counting
(共通して変動する遺伝子を見る) クラスタリング結果を見比べる
ネットワークを見比べる、重ねる
各論文の遺伝子リストを見比べる
1つに統合 = メタ解析
エフェクトサイズ
(例:平均値の差) 検定
(例:t 検定) 解析結果
(例:発現変動遺伝子)
低レベル
難しい、根本的
高レベル
手っ取り早い
0.1
0.2
0.1
p
0.2
0.2
0.2
p
0.2
0.3
0.1
p 0.8
0.1
210
x
0.2
0.3
129
x
214
42
124
x ×
○
×
DEG
○
○
○
DEG
○
×
○
DEG
241 286 321 341
1734 1801 2001 2414
1414 1005 1312 1241
T2 T1 C2 C1
245 286 321 341
1794 1801 2001 2414
1101 1441 1011 1211
T2 T1 C2 C1
245 286 321 341
1794 1801 2001 2414
1100 1005 1352 1245
T2 T1 C2 C1
batch effect補正
(Zスケーリング,Empirical
Bayes,FC変換)
Vote-Counting法:解析結果の統合
Step1 “閾値1”で各研究での発現変動遺伝子を割り出す
Step2 “閾値2”でメタな発現変動遺伝子を割り出す
○ ○ ○ × × gene30000
…
○
×
×
研究5
○
×
×
研究4
○ ○ × gene3
× × × gene2
○ × ○ gene1
研究3 研究2 研究1 meta-DEG
×
×
○
…
○
vs vs vs vs vs
処置群
対照群
閾値1(例:FC>2) 閾値2
(例:3/5以上)
複数の研究に跨るDEGを“Signature”と呼ぶから、Signature解析ともいう
Fisher法:p値の統合
Step1 各研究データ毎に、“片側検定”でp値を算出(*) (+側、ー側の2パターンのp値を計算しておく)
Step2 +側の変動でのp値をFisher法で統合
Step3 ー側の変動でのp値をFisher法で統合 *両側検定のp値はどっち側で
有意なのか判断できないから
Fisher法
0.42 0.55 0.55 0.33 0.12 gene30000
…
0.003
0.05
0.62
研究5
0.04
0.03
0.24
研究4
0.014 0.03 0.02 gene3
0.54 0.45 0.12 gene2
0.31 0.72 1.04 gene1
研究3 研究2 研究1 meta-p
0.31
0.01
0.03
…
0.24
Fisher法 meta-DEG
×
×
○
…
○
FDR制御
片側p値
Effect Size Model
エフェクトサイズの統合
均質性検定 等分散
(τ2=0) FEM (Fixed Effect Model)
REM (Random Effect Model) 研究間のばらつきをχ2検定
階層モデル
不等分散
(τ2≠0)
i : 1,2,…k(研究数)
yi : 各研究データの標準化した平均値
εi : ノイズ項(研究内)
μ : 全研究データの平均
δi : ノイズ項(研究間)
FEM
REM
研究間分散
研究内分散
wi : si^(-2)
u : (Σwiyi) / Σwi
XPN:データセットを直接統合
Cross-Platform Normalization : プラットフォーム(アレイのタイプ)を跨いだ正規化手法
一つのデータセットに統合
Affymetrix社
GeneChip
U95Av2 arrays
Agilent社
25K oligonucleotide arrays
Agilent社
22K oligonucleotide arrays
XPN Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出
Step2 k-means法で各研究データをバイクラスタリング
Step3 行、列で最適と思われるクラスター数を推定し
(ここでは全研究データで同じようにクラスタリング)、”ブロック”を作成
Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正
同じような発現パターンの遺伝子”群”があるだろうという仮定
同じ癌でも幾つかの種類(Phenotype)
があるだろうという仮定 ブロック線形モデル
ブロック平均 感度
オフセット
パラメータ
ノイズ項
g : 遺伝子
s : サンプル(任意のチップ1枚) p : プラットフォーム(チップのタイプ)
データ取得方法
データ取得
言うまでもなく、同じような実験データを収集する過程が一番大変
→ 何をもって”同じ”とする?
同じ“ラットの品種”、同じ“性別”、
同じ“年齢”、同じ“生育条件”...
で計測されたデータ同士は、同じ条件下にあるに違いない!
→アレイデータベースの利用
一次データベース:GEO、ArrayExpress、SMD…
二次データベース:ONCOMINE(癌),
RefDic(免疫)、AtGenExpress(シロイヌ
ナズナ)…
同じ条件下にあるのなら、殆どの遺伝子が同程度の発現レベルを示しているに違いない!
→ “Cell montage”による類似データの検索
実験条件を信じる立場 数字を信じる立場
Cellmontage
スピアマンの順位和相関係数をもとに類似データを検索
スコア順に結果を表示
イメージ クエリ側 DB側
上位ランク遺伝子
下位ランク遺伝子
CMファイル
CBRC@台場
のサーバー
検索結果
→ 結構それっぽいものがひっかかってくる
カロリー制限ラット
まとめ
• アレイデータの二次利用として、メタ解析が行われるようになった
• メタ解析により、より信頼できる解析結果を導けると考えられる
• どの段階で統合するかで様々な方法論が提案されている
• メタ解析のためのデータベース、ツールも開発されている