39
140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法 九州工業大学 情報工学部 飯田

2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

140306 ChIP-Seqデータ解析トレーニングワークショップ

2. ChIP-Seq解析ソフトウェアの利用法

九州工業大学 情報工学部飯田 緑

Page 2: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

クロマチン免疫沈降法

クロマチン免疫沈降法(Chromatin immunoprecipitation)

個々のタンパク質と特定のゲノム領域との結合を検出する方法

○ 必要な DNA サンプル量数が少ない

○ 新規モチーフ配列の探索が可能

○ シーケンスが決定した生物種の場合、全ゲノムでアッセイ可能

ChIP-seq

× データが膨大すぎて解析が困難

(@д@;;)

2

2/40

Page 3: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

1. Gene Expression Omnibus (GEO) からデータを取得

2. FastQCでクオリティCheck

3. bowtieでマッピング

4. MACS2でピークコール

5.遺伝子のアノテーション

6.モチーフ検索

本日のメニュー

3/40

Page 4: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

4/40

mkdir work

ls

workダウンロードテンプレート デスクトップビデオ音楽 画像公開

cd work

作業用のフォルダを作ります。

【作業フォルダの準備】

今後、このフォルダ内で作業します。

作業フォルダの準備

Page 5: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

• NCBIが提供・維持管理している遺伝子発現情報のデータベース• マイクロアレイ実験などで得られたデータが蓄積されている• 登録データ数は世界最大

NCBI GEO(Gene Expression Omnibus)

NRF2 ChIP SFN

GEOからデータを取得

5/40

Page 6: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

Click!

GEOからデータを取得

6/40

Page 7: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

論文のタイトル

生物種

実験系

Summary

実験の内容

寄稿者

引用

GEOからデータを取得

7/40

Page 8: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

WIG:UCSCのゲノムブラウザ上に表示することのできるファイルフォーマット

BED:ゲノム上の特定領域を表現するシンプルなファイルフォーマット

サンプルのデータがダウンロードできる

より詳しいサンプルの情報をみられる

Click!

GEOからデータを取得

8/40

Page 9: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

Click!

右Click!

GEOからデータを取得

SRR491137.sra

9/40

Page 10: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

GEOからデータを取得

10/40

Workに保存してください

Page 11: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

データの実験系

Sulforaphane

(SFN)

SRR491146 SRR491137

NRF2抗体でChIP抗体なしでChIP

(input)

【Keap1-Nrf2シグナル伝達経路】

(図:Bataille AM and Manautou JE. 2012)

(data:Chorley et al., 2012)

酸化ストレス

11/40

Page 12: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

1. Gene Expression Omnibus (GEO) からデータを取得

2. FastQCでクオリティCheck

3. bowtieでマッピング

4. MACS2でピークコール

5.遺伝子のアノテーション

6.モチーフ検索

本日のメニュー

12/40

Page 13: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

FastQCでクオリティCheck

【SRAファイルからfastqファイルへ変換】

fastq-dump SRR491137.sra

Read 4766716 spots for SRR491137.sra

Written 4766716 spots for SRR491137.sra

fastqファイルができたか確認

Sratoolkitを使ってSRAファイルをfastqに変換しよう!

ls

SRR491137.sra SRR491137.fastq

13/40

ペアエンドの場合

fastq-dump -split-files <filename>

Page 14: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

FastQCでクオリティCheck

ディレクトリができたか確認

クオリティCheckしたファイルを入れるディレクトリを作ろう!

fastqc SRR491137.fastq -o fastqc_result

FastQCを使ってクオリティCheckをしよう!

Started analysis of SRR491137.fastq

Approx 5% complete for SRR491137.fastq

Approx 100% complete for SRR491137.fastq

Analysis complete for SRR491137.fastq…

【FastQCでクオリティCheck】

mkdir fastqc_result

lsSRR491137.sra SRR491137.fastq fastqc_result

14/40

Page 15: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

FastQCでクオリティCheck

cd fastqc_result

ls

SRR491137_fastqc SRR491137_fastqc.zip

cd SRR491137_fastqc

ls

Icons Images fastqc_data.txt fastqc_report.html summary.txt

結果ができたか確認

【FastQCでクオリティCheck】

firefox fastqc_report.html

Html形式のファイルで、結果を確認

15/40

Page 16: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

FastQCでクオリティCheck

Htmlの結果を見てみると、シークエンスの精度を評価してくれているのがわかる。

16/40

Page 17: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

FastQCでクオリティCheck

【Per Base Sequence Quality】

リードの位置における全体のクオリティの中間値と平均値が見られる。

quality

score

リード長

赤線:中間値 青線:平均値

黄色Box:interquartile range

値を順に並べたときの上から25~75%

黒線:値を順に並べたときの上から10~90%

【Per Sequence Quality Scores】

平均値のピーク(平均値順にして最もリード数が多いところ)が27を下回ると、Warning、20を下回るとfailureとなる。

リード数

Phred quality score の平均値 17/40

Page 18: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

FastQCでクオリティCheck

【Per Base Sequence Content】

リードにおける位置での各塩基の割合

【Per Sequence GC Content】

GC含量の平均で総リードをソート

したグラフ

GC含有量の理想分布

【Per Base GC Content】

リードにおける位置でのGC含量の割合

【Per Base N Content】

リードにおける位置でのNの割合

Nはシークエンサーで読めなかったところ

18/40

Page 19: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

FastQCでクオリティCheck

【Sequence Length Distribution】

リード長全体の分布

【Per Sequence GC Content】

【Sequence Duplication Levels】

シークエンスの重複レベル

【K-mer Content】

任意の5bpの配列を想定したとき、ライブラリに含まれるATGCの割合を元に、「実際に観測された値/理論的に観測される値」を計算した結果。

重複しているシークエンスの配列とその割合

19/40

Page 20: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

1. Gene Expression Omnibus (GEO) からデータを取得

2. FastQCでクオリティCheck

3. bowtieでマッピング

4. MACS2でピークコール

5.遺伝子のアノテーション

6.モチーフ検索

本日のメニュー

20/40

Page 21: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

bowtieでマッピング

Genome

Read

Bowtie

超高速アライメントツール

SAM フォーマットで出力可能

GAPアライメントはできない

読めたリードがゲノム上のどこに位置するか見つける。

1. Index fileのダウンロード

2. Index fileの解凍

3. bowtieの実行

4. できたSAM fileの確認

ここの章でおこなうこと

21/40

Page 22: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

bowtieでマッピング

http://bowtie-bio.sourceforge.net/tutorial.shtml

Indexファイルのダウンロードができる

I0分弱かかる

22/40

Page 23: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

bowtieでマッピング

unzip hg19.ebwt.zip

ls

hg19.1.ebwt

hg19.2.ebwt

hg19.3.ebwt

hg19.4.ebwt

hg19.rev.1.ebwt

hg19.rev.1.ebwt

make hg19 hg19.ebwt.zip SRR491137.sra SRR491137.fastq fastqc_result

Index file がダウンロードできたか確認

Index file の解凍

ヒトhg19では、これらのファイルが展開される

【bowtieでマッピング】

ls

hg19.ebwt.zip SRR491137.sra SRR491137.fastq fastqc_result

23/40

Page 24: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

24/40

bowtieでマッピング

rm -rf hg19.ebwt.zip

ls

hg19.1.ebwt

hg19.2.ebwt

hg19.3.ebwt

hg19.4.ebwt

hg19.rev.1.ebwt

hg19.rev.1.ebwt

make_hg19.sh SRR491137.sra SRR491137.fastq fastqc_result

Zip file の削除

【bowtieでマッピング】

赤字で示されていたzip fileが削除される。

Page 25: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

bowtieでマッピング

bowtie -p8 --sam --best --chunkmbs 1024 hg19

SRR491137.fastq SRR491137.sam

*Pathを通していない場合、サンプルと同じディレクトリに入れておくか、Pathを書く。

Index file*

入力ファイル名 出力ファイル名

bowtie –v V ––best –q input refile readfile outfile

【bowtie の基本形】

‐v 許容ミスマッチ数 (0~3個)

‐-best ミスマッチ数 (-v) が設定されているとき、ミスマッチの少ない順にレポートする。

‐q 入力データはfastqだよ。

‐p CPUのスレッド数

--sam 出力ファイルはsamにして。

bowtieの実行 (5分~10分くらいかかる)

【bowtieでマッピング】

25/40

Page 26: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

bowtieでマッピング

bowtie のOption設定

‐n シード配列で許容される最大ミスマッチ数

‐l シード配列長

‐e ミスマッチ部位のPhredスコア合計の最大許容値

こんなこともできるよ。

bowtie –n N –l L –e E ––best --strata –maxbts –q input refile

readfile outfile

長さLのシード中のミスマッチがN個以下、またはリード全体のミスマッチ塩基のPhredスコアの合計がE以下のアライメントのみをレポートして。

【bowtieでマッピング】

--best/--strata どのアライメントをいくつレポートするかを定義する

http://bowtie-bio.sourceforge.net/manual.shtml#bowtie-options-strata詳しくは… 26/40

Page 27: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

bowtieでマッピング

bowtie -p8 --sam --best --chunkmbs 1024 hg19

SRR491137.fastq SRR491137.sam

*Pathを通していない場合、サンプルと同じディレクトリに入れておくか、Pathを書く。

Index file*

入力ファイル名 出力ファイル名

bowtie –v V ––best –q input refile readfile outfile

【bowtie の基本形】

‐v 許容ミスマッチ数 (0~3個)

‐-best ミスマッチ数 (-v) が設定されているとき、ミスマッチの少ない順にレポートする。

‐q 入力データはfastqだよ。

‐p CPUのスレッド数

--sam 出力ファイルはsamにして。

bowtieの実行 (5分~10分くらいかかる)

【bowtieでマッピング】

27/40

Page 28: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

28/40

bowtieでマッピング

ls

SRR491137.sam hg19.1.ebwt hg19.2.ebwt hg19.3.ebwt hg19.4.ebwt

hg19.rev.1.ebwt hg19.rev.1.ebwt make_hg19.sh SRR491137.sra SRR491137.fastq fastqc_result

結果の確認

Samファイルができているはず。

less SRR491137.sam @SQ SN:chr1 LN:249250621

@SQ SN:chr2 LN:243199373

@SQ SN:chrM LN:16571

@PG ID:Bowtie VN:0.12.7 CL:"bowtie -p8 -S --best --chunkmbs 1024

hg19 ./FASTQ/SRR491137.fastq SRR491137.sam"

SRR491137.3 0 chr12 3827243 255 36M * 0 0

TTAAACATGGATGATAACAGCACCTCTCATAAAGNT

HHHDHHHFEDEFHFEEFHHEBD::DDGGFFDBBB&F XA:i:0 MD:Z:34T1 NM:i:1

… リファレンスに使った配列の情報

Mappingの結果

【bowtieでマッピング】

Page 29: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

1列目:リードの名前

2列目:リードの状況(どんな風にマッピングされているか)

3列目:張り付いた染色体,コンティグの名前

4列目:張り付いた場所

5列目:マッピングスコア

6列目:マッピング状況(indelの数,マッチ数)

7列目:paired endの時の相方の名前

8列目:paired endの時の相方の場所がわかる

9列目:paired endの時のインサートの長さ

10列目:リードのシークエンス配列

11列目:リードのクオリティ

bowtieでマッピング

【SAMファイルの中身】

参考:http://crusade1096.web.fc2.com/sam.html

SRR491137.3 0 chr12 3827243 255 36M * 0 0

TTAAACATGGATGATAACAGCACCTCTCATAAAGNT

HHHDHHHFEDEFHFEEFHHEBD::DDGGFFDBBB&F XA:i:0 MD:Z:34T1 NM:i:1

29/40

Page 30: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

30/40

bowtieでマッピング

rm -rf hg19.* make_hg19.sh SRR491137.fastaq SRR491137.sra

fastqc_result

ls

SRR491137.sam

bowtieの実行 (5分~10分くらいかかる)

【不要なファイルを削除】

Samファイルだけになりました。

Page 31: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

1. Gene Expression Omnibus (GEO) からデータを取得

2. FastQCでクオリティCheck

3. bowtieでマッピング

4. MACS2でピークコール

5.遺伝子のアノテーション

6.モチーフ検索

本日のメニュー

31/40

Page 32: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

MACS2でピークコール

Model-based analysis of ChIP-Seq

(MACS)

ChIP-Seqタグのシフトサイズのモデル化

ポワソン分布を使ったピーク検出

ChIP-seqでは、ChIPされたフラグメントのどちらかの側から配列が解読されるため、ゲノム配列に対してforward方向のリードから成るピーク、revser方向のリードから成るピークが離れた位置に検出される。

MACSは2つのピークをずらす(タグシフト)

ことにより正しいピーク位置を算出する。

1. SAM→BAM変換

2. BAM fileのsort

3. MACS2でpeak calling

ここの章でおこなうこと

32/40

Page 33: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

MACS2でピークコール

【SAMファイルの前処理 ~SAM to BAM変換~】

samtools view -bS SRR491137.sam > SRR491137.bam

SAMファイルをBAMファイルに変換する

‐b BAMで出力

‐S SAMで入力

ls

SRR491137.bam SRR491147.sam

BAMファイルができたか確認

bamファイルができているはず。

入力ファイル名 出力ファイル名*

33/40

Page 34: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

MACS2でピークコール

samtools sort SRR491137.bam SRR491137.sort

染色体順に並べる

ls

SRR491137.bam SRR491147.sam SRR491137.sort.bam

Sort.bamファイルができたか確認

入力ファイル名 出力ファイル名* *できたファイルには勝手に.bamの拡張子がつくので、このときには.bamはいりません。

【SAMファイルの前処理 ~ BAM sort ~】

34/40

rm SRR491137.bam SRR491147.sam

ls

SRR491137.sort.bam

不要なファイルの削除

Page 35: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

35/40

MACS2でピークコール

export PATH=$PATH:/usr/local/chipseq/bin/

export PYTHONPATH=/usr/local/chipseq/lib64/python2.6/site-

packages/:$PYTHONPATH

$PATHにMACS2のPATHを追加する。

【PATHを通す】

http://fujii00.bio.kyutech.ac.jp/

~iida/chipseq.html

SRR491146(input)のデータをダウンロードします。【input dataのダウンロード】

Sorted BAM fileの

SRR491146.sort.bamを名前をつけて保存

Page 36: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

MACS2でピークコール

【MACS2にかける】

macs2 callpeak -t SRR491137.sort.bam

-c SRR491144.sort.bam -n NRF2_SFN -f BAM -g hs -q 0.01

MACS2でピークコール

‐t ChIPのサンプルファイルが次にくるよと教えてあげる。

-c ChIPのコントロールファイルが次にくるよと教えてあげる。

‐n 出力ファイルにつける名前

-f 入力ファイルのファイル形式を教えてあげる。

-g ゲノムサイズ (ヒト: hs or 2.7e9, マウス:mm or 1.87e9)

-B BEDファイルに出力

‐q peakを検出する際に用いるFDRの最小値

36/40

Page 37: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

MACS2でピークコール

ls

NRF2_SFN_peaks.xls

NRF2_SFN_peaks.bed

NRF2_SFN_summits.bed

NRF2_SFN_model.r

NRF2_SFN_peaks.encodePeak

NRF2_SFN_pq_table.txt

MACS2でできたファイルの確認

6個程のファイルがでてくる

【MACS2にかける】

37/40

Page 38: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

MACS2でピークコール

NAME_peaks.xls: コールされたピークの情報がタブきりで含まれる

NAME_peaks.bed:コールされたピークの情報がbedファイル形式で含まれる

NAME_summits.bed: BEDフォーマットですべてのピークの頂点座標が含まれる

NAME_model.r: モデルに基づいたPDFイメージを作成してくれるRスクリプト

NAME_encode.Peak:ピーク座標とピークの頂点座標・q値・p値が含まれている

NAME_control_lamda.bdg

NAME_pileup.bdg

NAME_pvalue.bdg

NAME_qvalue.bdg

NAME_pq_table.txt: -log10p値、 -log10q値、p値のランキングなど

UCSCゲノムブラウザに表示可能なBed Graphフォーマットファイル

38/40

Page 39: 2. ChIP-Seq解析ソフトウェアの利用法dna00.bio.kyutech.ac.jp/chipseqTW/pdf/2_peak_call.pdf140306 ChIP-Seqデータ解析トレーニングワークショップ 2. ChIP-Seq解析ソフトウェアの利用法

ショートリードの憂鬱 - 次世代シーケンサー

http://shortreadbrothers.blogspot.jp/2010/10/bowtie.html

http://shortreadbrothers.blogspot.jp/2010/10/bowtie-2.html

http://shortreadbrothers.blogspot.jp/2010/11/sam.html

参考URL

NGS Surfer’s Wiki

http://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=MACS

ChIP-seq Analysis With R/Bioconductor

http://cat.hackingisbelieving.org/lecture/tohoku-u/NGS-R-

Bioconductor-3rd.html

全ゲノムクロマチン免疫沈降シーケンス(ChIP-Seq)

www.illuminakk.co.jp/document/pdf/datasheet_chip_sequence-J.pdf

Zhang, Y. et al. (2008) Model-based analysis of ChIP-Seq (MACS). Genome Biol.

39/40