66
BGI 無無無無無無無 無無無無無無無無無無無無無無無無無無無無 2014 年 8 年 28 年 ( 年 ) 年年 2 年年年 3 年年年 年年年年年年 年年年年年年年年年年年年年年年 「」 年年

BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Embed Size (px)

Citation preview

Page 1: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

BGI 無料ウェビナーゲノムワイドメチル化解析とアナリティクス

2014 年 8 月 28 日 ( 木 ) 午後 2 時から 3 時まで

東京農工大学「ゲノム科学人材育成プログラム」  石井一夫

Page 2: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

本日近年、次世代シーケンサーによるアプリケーションとしてエピゲノミクス解析が行われるようになっています。今回、ゲノムワイドメチル化解析に関するマイクロアレイと NGS 解析に関して、ゲノム情報解析の視点からその方法論と臨床解析事例についてお話いたします。

Page 3: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

本日• 本セミナーは初めて、メチル化解析のデータ解

析を行いたい人のための入門的、かつチュートリアル的な内容です。

• これをたたき台に、ご自分でより深く勉強して頂くことを想定しています。

• 後ほど、 SlideShare にこのスライドは公開します。コマンドなどはあとでそちらで確認してください。しかし、簡潔な内容ですので、実際の使用時は文献を参照してください。

• 資料の利用は自己責任でお願いいたします。

Page 4: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

エピゲノムの実験的背景に関しましては

すでに他社でウェビナー、セミナーが開催されています。たとえば、

• イルミナ社 ウェビナーエピゲノム解析シリーズ DNA メチル化・基礎からの網羅的解析 --- 国立がん研究センター研究所 山下 聡 先生http://www.illuminakk.co.jp/documents/pdf/2012_illumina_hm450.pdf

キアゲン /CLC の最近のセミナーでも講演されています。「 Targeted bisulfite sequencing による DNA メチル化解析」 CLCbio ユーザーミーティング 2014 ( 7 月 24 日(木))

Page 5: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

エピゲノムの実験的背景に関しましては

すでに他社でウェビナー、セミナーが開催されています。たとえば、

• イルミナ社 ウェビナーエピゲノム解析による iPS 細胞の特性解析 . 2013.2.26http://www.illuminakk.co.jp/document/pdf/webinar/2013_illumina_ips_no2.pdf

Page 6: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

今回は• そういう実験的な、生物学的化学的な意

味付けなどは深くお話しません。必要な方はそのような資料をご覧ください。

• コマンドラインを用いたデータ解析やデータマイニングを中心にお話します。

Page 7: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

今日のアジェンダ1. 網羅的メチル化解析の概要

2. バイサルファイト法による網羅的メチル化解析のデータ解析法の概要とノウハウ

3. メチル化マイクロアレイなど網羅的メチル化定量解析によるデータマイニング法

Page 8: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

網羅的メチル化解析の概要

Page 9: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

いろいろなゲノムメチル化解析法が有ります

マイクロアレイベース 他には PCR ベースも考えられます メチル化マイクロアレイ各種 CpG Island マイクロアレイ各種 次世代シーケンサーベース全ゲノムバイサルファイトシークエンス( WGBS )Reduced Representation Bisulfite Sequencing ( メチル化部位特異的制限酵素で濃縮 )Me-DIP Seq (抗メチル化 DNA 抗体で濃縮)MethylCap Seq (メチル化 DNA 結合タンパクで濃縮)Sure-Select Methyl-Seq(ハイブリダイダイゼーションによる濃縮)

Page 10: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

いろいろなゲノムメチル化解析法が有ります

• メチル化DNA検出原理による分類

1.バイサルファイト処理による塩基置換2.メチル化感受性制限酵素による切断3.抗メチル化シトシン抗体、またはメチル化DNA結合タンパク質による濃縮

https://www.takara-bio.co.jp/goods/bioview/pdfs/58_02-08.pdf

Page 11: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

メチル化マイクロアレイ• プローブを用いているため解像度が低い。 • 比較的安価でデータが得られやすい。

 例≪アジレント社 CpG Island マイクロアレイ≫ ・ Human CpG Island Microarray ( 244K フォーマット) ・ Mouse CpG Island Microarray ( 105K フォーマット)

Page 12: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

メチル化マイクロアレイ 例 Illumina Human Methylation 450K Infinium I および  Infinium II テクノロジーにより、一塩基レベルの高解像度を達成。

詳細は以下をご参照ください。http://www.illuminakk.co.jp/documents/pdf/technote_hm450_data_analysis_optimization-J.pdf

Page 13: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

全ゲノムバイサルファイトシークエンス

• Whole genome bisulfite sequence  ( WGBS )

• バイサルファイト試薬処理により非メチル化シトシンがウラシルに変換するところを配列解析で検出

C→ T 、 G→A に変わる部位が非メチル化部位、 不変サイトはメチル化部位

• 定量性を持たせるにはかなり高価(非現実的なほど高コスト)

• 多分、これが本命の方法だが、高価で出来ないため他の方法で、コストを下げているのが実情

Page 14: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

全ゲノムバイサルファイトシークエンスBGI のサイトで

紹介されているワークフロー(見にくいのであとでBGI のサイトで確認を)

Page 15: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Reduced Representation Bisulfite Sequencing

DNA はまず制限酵素により CpG 認識部位で切断されます。

その後アダプタ付加、ゲルによるサイズ選択、バイサルファイト変換と PCR を行い、 DNA を濃縮します。

この濃縮法では特定のメチル化領域を選択することはできず、繰り返し配列とCpG-rich な配列にバイアスがかかります。

アジレントの解説文書より、転記。http://www.chem-agilent.com/pdf/low_5991-0166JAJP.pdf

Page 16: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Reduced Representation Bisulfite Sequencing ( RRBS )BGI のサイトで

紹介されているワークフロー(見にくいのであとでBGI のサイトで確認を)

Page 17: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

MeDIP-seq 解析Methylated DNA immunoprecipitation (MeDIP) はメチル化 DNA を全ゲノムに渡って解析する技術です。5- メチルシトシン (5mC) という抗体でメチル化 DNA断片を沈降させ、ハイス ループットシーケンシングを行います。

MeDIP シーケンシングは高メチル化や CpG が高密度にあるゲノム領域を検出することができます。 つぶやき;WGBS のように広い領域をカバーする方法は今のところない。どの方法でやるかは悩ましいのが現状。RRBS も MeDIP-seq 解析もカバー領域があまり広くないのが難点。Sure-Select Methyl がややまし程度。Illumina Human Methylation 450K マイクロアレイのほうが、楽かも。

Page 18: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

MeDIP-seq 解析BGI のサイトで紹介されているワークフロー(見にくいのであとでBGI のサイトで確認を)

Page 19: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

バイサルファイト法による網羅的 DNA メチル化解析の

データ分析法

Page 20: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

データ解析ワークフローシーケンスリー

トリムしたリード

マッピング

メチル化部位検出

視覚化

ゲノム配列

Bisulfite Converted Genome

Bowtie など

Bismark など

IGV, Genome Browser など

Page 21: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

メチル化部位コーリングソフトの例

• BISMARK − bowtie でマッピング • PASH − 低メモリ、高速• BSMAP − SOAP でマッピング• Methylcoder• BS-Seq − 植物用• Kismeth − 植物用、ウェブソフト いろいろある。

以下のサイトでそのパフォーマンスが検討されていますので、参考にしてください。

http://www.genboree.org/workshopFiles/Epigenetics_Workshop_March_2012/Programs%20for%20mapping%20bisulfite%20reads_G%20Ramamoorthy%20030512.pdf

以下も参照http://omictools.com/bisulfite-mappers/

Page 22: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Bismark's approach to bisulfite mapping and methylation calling.

Krueger F , and Andrews S R Bioinformatics 2011;27:1571-1572

© The Author(s) 2011. Published by Oxford University Press.

Page 23: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Bismark's approach to bisulfite mapping and methylation calling.

Krueger F , and Andrews S R Bioinformatics 2011;27:1571-1572

© The Author(s) 2011. Published by Oxford University Press.

Page 24: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Multi-positional hash tables. A. Reads are indexed in a multi-positional hash table.B. A sliding fixed size genomic window is used Coarfa et al. BMC Bioinformatics 2010 11:572 doi:10.1186/1471-2105-11-572

Pash 3.0 Algorythm

Page 25: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

BSMAP algorithm

Xi and Li BMC Bioinformatics 2009 10:232

A) Bisulfite seed table, using the original seed and bisulfite variants as keys and corresponding coordinates in the reference genome as values. Each read was looked up in the seed table for potential mapping positions. B) A positional specific mask of the corresponding reference sequence was generated by setting 01 to C(light blue) and 11 to A, G, T(black). The original read was masked by a bitwise AND operation with the positional specific mask. C) The reference sequence and the masked read were compared with a bitwise XOR operation. Non-zero XOR results were counted as mismatches (red). Bisulfite alignment is marked in green.

Page 26: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

BiQ Analyzer - a software tool for DNA methylation analysis

Example of Graphical Tool

Page 27: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

BisMark データ解析ワークフロー

シーケンスリード

トリムしたリード

マッピング

メチル化部位検出

視覚化

ゲノム配列

Bisulfite Converted Genome

Bowtie など

Bismark など

IGV, Genome Browser など

Trimmomatic など

Page 28: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 (Bismark)インストールするソフトウェア ( インストール上の注意 )

Bismark (v0.12.5) インストールはダウンロードして解凍するだけです。Bowtie2 (v2.2.3)   インストールはダウンロードして解凍するだけです。SAMTools (v0.1.9)   Makefile の curses を  ncurses に書き換えて make します。Trimmomatic (v0.32) インストールはダウンロードして解凍するだけです。

1. Filtering poor quality reads, and reads with adapter sequences (Trimmomatic)2. Generation of bisulfite converted genome (Bismark)3. Genome Alignment (Bismark Bowtie)‐4. Methylation calls (Bismark)5. Generation of genome wide tracks for visualization (SAMtools, Genome Browser)

詳細は以下を参照してください。http://www.epibio.com/docs/default-source/protocols/epignome-bioinformatics-user-guide.pdf?sfvrsn=2

注意: コマンドやマニュアルは頻繁に変わりますので、最新のもので確認してください。本日のものは、セミナー時点で動作していますが、いつまで動くかはわかりません。コマンドの使用は自己の責任で実施してください。

Page 29: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 2 (Bismark)

1. Filtering poor quality reads, and reads with adapter sequences (Trimmomatic)

アダプターのトリミング

コマンド例java -jar /root/bin/trimmomatic-0.32.jar SE -phred33 test.fastq test-trim.fastq ILLUMINACLIP:TruSeq2-SE:2:30:10 LEADING:3 TRAILING:3 MINLEN:36 &

注;上記と同じコマンドが通るとは限りません。マニュアルをよく読んで、自分の環境に合わせて書き換えてください。

Page 30: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 3 (Bismark)2. Generation of bisulfite converted genome (Bismark)

bisulfite converted genome の作成

1) 以下のイルミナの iGenome のサイトから自分の実験に該当する参照配列をダウンロードします。

かなり時間がかかります。http://support.illumina.com/sequencing/sequencing_software/igenome.ilmn

コマンド例

wget ftp://igenome:[email protected]/Homo_sapiens/UCSC/hg19/Homo_sapiens_UCSC_hg19.tar.gz

tar zxvf Homo_sapiens_UCSC_hg19.tar.gz

/Homo_sapiens/UCSC/hg19/Sequence/Chromosome というフォルダー内にゲノム配列があることを確認する。

Page 31: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 4 (Bismark)2. Generation of bisulfite converted genome (Bismark) (続き )

2) bisulfite converted genome を置くファイルを作成する。

mkdir –p Genome/Bisulfude/hg19

3) Homo_sapiens/UCSC/hg19/Sequence/Chromosome/ の中のクロモソームを含むfasta ファイルを Genome/Bisulfude/hg19 にコピーします。

cp /Homo_sapiens/UCSC/hg19/Sequence/Chromosome/*fa Genome/Bisulfude/hg19

4) bisulfite converted genome の作成

bismark_genome_preparation --verdose Genome/Bisulfude/hg19 --bowtie2 --path_to_bowtie /usr/local/bin

--verdose には bisulfite converted genome を置くファイルを、--path_to_bowtie には bowtie2 が置かれているファイルを指定します。

Page 32: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 5 (Bismark)2. Genome Alignment (Bismark Bowtie2)‐   (続き )

1) Bismark ( bowtie2 ) によるアラインメント

Perl のモジュールの GD::Graph を最初にインストールしておかないと、結果のグラフが出てきません。あらかじめ、 gd と gd-devel をインストールしておき、perl –MCPAN –e shell cpan> upgradecpan> install YAMLcpan> GDCpan> GD::Graphで perl のモジュールをインストールzlib, libpng, freetype, jpeg, xpm 関連のライブラリも一緒にインストール

コマンド:  bismark -q --bowtie2 --path_to_bowtie /root/bin/ Genome/Bisulfide/hg19 --1 test1-2.fq --2 test2-2.fq -q fastq の場合、 --phred64-quals クオリティスコア phred64 を使用している場合--path_to_bowtie には bowtie が置かれているファイルを指定Genome/Bisulfide/hg19 bisulfite は、 converted genome の場所

RHEL とか、 CentOS系はこのあたりのパッケージの依存性が壊れていて、構築にそれなりに工夫が必要です。詳細は、個別にお問い合わせください。

Page 33: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 6 (Bismark)2. Genome Alignment (Bismark Bowtie2)‐   (続き )

1) Bismark ( bowtie2 ) によるアラインメント (続き )

コマンド例:  bismark -q --phred64-quals --bowtie2 --path_to_bowtie /root/bin/ Genome/Bisulfide/hg19 --1 test1-2.fq --2 test2-2.fq うまくいば、*.png*.sam*.txt の3つのファイルができているはず。

2 ) duplicate 除去

コマンド例:  deduplicate_bismark –s test1-2.fq_bismark_bt2.sam

オプション  -s : シングルエンドの場合、  -p:ペアエンドの場合

Page 34: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 7 (Bismark)1) Bismark ( bowtie2 ) によるアラインメ

ント (続き )

*alignment_overview.png の結果

1箇所に align

複数箇所に align

Align しなかったもの

http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide.pdf

Page 35: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 8 (Bismark)3. メチル化部位の検出コマンド使い方: bismark_methylation_extrctor [オプション ] < ファイル名 >.sam

以下でヘルプが見れます。bismark_methylation_extractor –help | more

コマンド例bismark_methylation_extractor -s –comprehensivetest1-2.fq_bismark_bt2.duplicated.sam

-s : シングルエンドの場合、  -p:ペアエンドの場合--comprehensive 結果の出力形式の指定。ヘルプを参照。

以下のような接頭文字をもつ出力ファイルが3つできる。

CpG_content_....txtCHG_content_....txtCHH_content_....txt

これらのデータから、情報を抽出して、いろいろな統計情報を作れる。

Page 36: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 9 (Bismark)4. メチル化部位の視覚化コマンド使い方:   bismark_methylation_extrctor [オプション ] < ファイル名 >.sam

以下でヘルプが見れます。  bismark_methylation_extractor –help | more

コマンド例  bismark_methylation_extractor -s --bedGraph –countstest-2.fq_bismark_bt2.duplicated.sam

-s : シングルエンドの場合、  -p:ペアエンドの場合--bedGraph –counts

できた、 *.bedGraph ファイルを UCSC Genome Browser などで視覚化できます。

Page 37: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 10 (Bismark)4. メチル化部位の視覚化(続き)

bedGraph の中身はこんな感じです。 (このあとは , R や Perl などでいろいろ処理できます。)

# head test-2.fastq_bismark_bt2.deduplicated.bedGraphtrack type=bedGraphchr21 1050344 1050345 0chr21 1050919 1050920 0chr21 1050920 1050921 50chr21 1050987 1050988 100chr21 1050988 1050989 50chr21 1051049 1051050 100chr21 1051238 1051239 100chr21 1051282 1051283 100chr21 1051395 1051396 100

メチル化率

大体 1千万箇所くらいありました。

Page 38: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 11 (Bismark)4. メチル化部位の視覚化(続き)bedGraph で以下のような感じで閲覧できます (UCSC Genome Browser) 。

ここで取り込んだメチル化部位を参照できます。

Page 39: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 12 (Bismark)4. メチル化部位の視覚化(続き)  IGV による視覚化例 

http://nbviewer.ipython.org/urls/dl.dropboxusercontent.com/u/115356/ip/claire/Larv_BS_Workflow_Example-IGV.ipynb

Page 40: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 13 (Bismark)4. メチル化部位の視覚化(続き)

M-bias の出力結果。メチル化の偏りが確認できる。 

http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide.pdf

Page 41: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 14 (Bismark)インストールや解析に、はまりどころが結構ある。

Perl のモジュールの GD::Graph をインストールしないとグラフの出力ができないが、

RHEL では、 パッケージの依存性が壊れているようで、yum でエラーが出る。特定のパッケージをウェブ上で検索し、 rpm コマンドをつかってインストールする必要があった。その後、 perl -MCPAN -e shell でインストール。( Ubuntu などでは未確認。)

時間がかかる(時間のオーダー、 1 プロセス数時間)。メモリもかなり必要(数百ギガのオーダー)。

Page 42: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際 15 (Bismark)このあとすること。 (RNA-Seq や ChIP-Seq での作業と類似 )

1 、アノテーション。

genes.gtf 、 refFlat.txt から、情報を抽出して、 bash, perl/Python/Ruby などでスクリプトを作って注釈をつけます。 Methylkit など R のパッケージ他も、使えます。

2、 differential methylation

各実験区の bedGraph をマージして、変動比を出し統計解析。

3、機能解析GO 解析とか、パスウェイ解析とか、 (DAVID などをつかって、、。 )

4、モチーフ解析  WebLogo, MEME

Page 43: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

解析の実際

次世代シーケンサーによる網羅的メチル化解析( RRBS 、 Sure Select Methyl-Seq )

現状で、定量性を持たせるには、かなりのリード数が必要。

データ解析もかなりのパワーを要する。

現状で、多検体の解析に向くか、どうか、厳しいところ。

Page 44: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

今回の解析で用いた解析サーバーのスペック

• HP ProLiant DL980G7 • CPU:80 コア メモリ: 2TB   RHEL6.4

HP様のご協力に大変感謝いたします。

Page 45: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

メチル化マイクロアレイなど網羅的メチル化定量解析による

データマイニング法

Page 46: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

NGS データ解析手順

一次解析

画像データ から配列データ

の抽出

自動化済

ほとんどの場合FastQ

二次解析

マッピング

アセンブリ

SNP コーリングChIP-Seq ピークコー

リングRNA-Seq 発現量係数

その他

多分自動化は容易

三次解析

データマイニング

教師付き学習教師なし学習

数理モデル化

視覚化

自動化ソフトは多いがソフトに任せ

ると危険

ゲノムワイドメチル化解析の場合、コストがまだまだ高いことから、 次世代シーケンサーデータのみでなくマイクロアレイ(イルミナ450 K アレイ)も使用も考慮します。三次解析は、マイクロアレイと NGS で共通するところも多い。

Page 47: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

用語の整理 (Wikipedia)

• 機械学習機械学習の目的は、訓練データから学んだ「既知」の特徴に基づく予測である。• データマイニングデータマイニングの目的は、それまで「未知」だったデータの特徴を発見することである。

厳密に言えば、データマイニングという意味は狭いが、本スライドでは、教師なし学習と、教師付き学習の両方を、特に教師付き学習に重点をおいて説明する。

Page 48: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

教師なし学習分類、パターン認識

マイクロアレイの発現解析でかなり実施されているので、おなじみかもしれない

クラスタ解析 → ヒートマップSOM (自己組織化マップ)K-means 法PCA (主成分分析)

簡単にできるが、それなりに使いこなすには、コツがあり経験が必要

Page 49: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

教師付き学習識別、判別

判別分析 (線形判別分析、マハラノビス距離) サポートベクトルマシンベイズ分類法

次世代シーケンサーデータのみでなくマイクロアレイも使用可。ゲノムワイドメチル化解析の場合、イルミナ450 K アレイのほうが、 解析しやすいことも、、。

以下、 R を用いた簡単な例をご紹介します。

Page 50: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

R を用いた解析R の使用法は、いろいろな書籍、サイトがありますので、そちらを参照されるとよいでしょう。R 関係の資料は大変充実しているとおもいます。

オススメは、以下の The R Tips です。

http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html

R を使うときの OS は、 Linux を使用します。Windows はオススメしません。

Page 51: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

線形判別分析のための R のコード例手順

①  MASS ライブラリの利用② 学習用 Data の準備③  lda() 関数で判別関数を作成④  predict() 関数で判別関数による学習用 Data の判別結果を得る⑤ データの集計視覚化、評価⑥  predict() 関数で判別関数によるテスト用 Data の判別結果を実施

参考サイトhttp://www.slideshare.net/langstat/nagoyar3discriminant

Page 52: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

線形判別分析のための R のコード例> library(MASS)   #  ①  MASS パッケージ使用

> grouping1 <- matrix(c(rep(“1”,25),rep(“0”,25)),nrow=50,ncol=1)      #  分類情報を入力> (rlt1_1 <- lda(as.matrix(data.z), grouping1))                    #③lda() 関数により判別関数を得る

Call:lda(as.matrix(data.z), grouping = grouping1)…( 中略 )Coefficients of linear discriminants:   #判別関数の判別係数 LD1

*data.z 実際に入力するデータはここに変数として データフレームの形で入力します。たとえば、メチル化率のデータ、遺伝子発現定量データを用いることができます。

Page 53: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

線形判別分析のための R のコード例

③判別関数を求めるには、。 fLD = aX1 + bX2 + cX3 + d

判別関数の判別係数は、 lda ()関数のCoefficients of linear discriminants から得られます。定数項 d は以下の式で求められます。apply(rlt1_1$means%*%rlt1_1$scaling,2,mean)

詳細は以下を参照してくださいhttp://www1.doshisha.ac.jp/~mjin/R/17.htmlhttp://homepage2.nifty.com/nandemoarchive/GLM/tahenryou_03_discrim.htm

Page 54: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

線形判別分析のための R のコード例

④学習データの判別結果> (rlt1_2 <- predict(rlt1_1))             #判別関数による判別結果を得る

$class   # 識別結果 [1] 1 0 1 1 1 1 0 1 1 1 1 1$posterior   # 事後確率$x   # 鑑別スコア LD1>(result <- table( grouping1, rlt1_2$class ))         #判別関数による判別結果の表示 

Page 55: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

線形判別分析のための R のコード例

⑤ データの集計視覚化、評価>plot(rlt1_2$x,main=“Discrimination_Analysis”, pch=20, cex=2, col = ifelse(rlt1_2$x >= 0, “blue”, “red”))   #判別結果をプロット

>abline(v = 25.5);abline(h = 0)       #判別境界線などをプロットし見やすく>dev.copy(pdf, file="Discrimination_Analysis:pdf")  >dev.off()

Page 56: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

線形判別分析の解析例

http://itbc-world.com/home/rfm/r%E3%81%AE%E7%B5%B1%E8%A8%88%E9%96%A2%E6%95%B0/%E5%88%A4%E5%88%A5%E5%88%86%E6%9E%90/

Page 57: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

線形判別分析の解析例

⑥  predict() 関数で判別関数によるテスト用 Data の判別を実施

(rlt1_t <- predict(rlt1_1),test.data)

Page 58: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

実際の事例

GEO や SRA や DRA に多くのデータ事例がアップされています。 全部をみていくことは不可能ですので、 2 例のみ見ていきます。

Page 59: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

実際のデータの入手• GEO http://www.ncbi.nlm.nih.gov/geo/

• SRA や  DRA(DDBJ Sequence Read Archive)

http://sra.dbcls.jp/http://trace.ddbj.nig.ac.jp/dra/index.html

上記のサイトなどで状況を見れます。臨床事例の集計もあるようです。ダウンロードの手順、利用方法は各自調査してください。

Page 60: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

実際のデータの入手NCBI のサイトに飛んでいって手作業で調べても興味深い例はすぐに見つかります。最初の練習ならば、興味のあるものを拾ってきて解析してもいいと思います。

Page 61: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Series GSE49149 Query DataSets for GSE49149Status Public on Jul 08, 2014Title Genome-wide DNA methylation patterns in pancreatic ductal adenocarcinoma (PDAC)Organism Homo sapiensExperiment type Methylation profiling by genome tiling arraySummary Determine methylation pattern in PDAC a genome-wide analysis was performed in a cohort of 167 PDAC and 29 adjacent pancreatic tissues samples using the Infinium 450k methylation arrays (Illumina).Int J Cancer. 2014 Sep 1;135(5):1110-8. doi: 10.1002/ijc.28765. Epub 2014 May 9.

ざっと目についた例を見ると、、。

Page 62: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Genome-wide DNA methylation patterns in pancreatic ductal adenocarcinoma (PDAC)

文献に紹介されているヒートマップ

Page 63: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Status Public on Oct 16, 2012 Title Methylation data from glioblastoma tumor samples Organism Homo sapiens Experiment type Methylation profiling by genome tiling array

Summary Glioblastoma (GBM) is an incurable brain tumor carrying a dismal prognosis, which displays considerable heterogeneity.

Sturm D, Witt H, Hovestadt V, Khuong-Quang DA et al. Hotspot mutations in H3F3A and IDH1 define distinct epigenetic and biological subgroups of glioblastoma. Cancer Cell 2012 Oct 16;22(4):425-37. PMID: 23079654

ざっと目についた例を見ると、、(2) 。

Page 64: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

Hotspot Mutations in H3F3A and IDH1 Define Distinct Epigenetic and Biological Subgroups of Glioblastoma

文献に紹介されているヒートマップ

Page 65: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

とても全部は見ていけませんが魅力的な研究はいろいろ開示されています。

いわゆる教師なし学習の応用例は非常に多いのに対し、教師付き学習の応用例は比較的少なめです。

ご自分の興味にあわせて参照されるといいと思います。

Page 66: BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

ご傾聴ありがとうございました。