21
30DDBJing 講習会 in 東京 2014 12/18 @JST東京本部 配布用資料 メタゲノム解析と微生物統合データベース 森 宙史 Hiroshi Mori, Ph.D. [email protected] 東京工業大学 大学院生命理工学研究科 生命情報専攻 黒川・中島・山田研 1

[DDBJing30] メタゲノム解析と微生物統合データベース

Embed Size (px)

Citation preview

Page 1: [DDBJing30] メタゲノム解析と微生物統合データベース

第30回 DDBJing  講習会  in  東京 2014  12/18  @JST東京本部              配布用資料  

メタゲノム解析と微生物統合データベース

  森 宙史 Hiroshi Mori, Ph.D.  [email protected]

東京工業大学  大学院生命理工学研究科   生命情報専攻 黒川・中島・山田研

1

Page 2: [DDBJing30] メタゲノム解析と微生物統合データベース

16S rRNA gene amplicon sequencing analysis (メタ16S解析)

DNA  extrac:on  

PCR  amplifica:on  

DNA  Sequencing  

Pre-­‐analysis  (Remove  Primer,  Chimera  etc.)  

Taxonomic  assignment  and  Comparison  between  samples  

Sequence  clustering  with  species  level    by  CD-­‐HIT-­‐EST  or  UCLUST,  etc.  

TestSample2 SRR061008 SRR061006 SRR061003 SRR061004 SRR095659 SRR094400 SRR090399 TestSample1 SRR094717

0.0

0.2

0.4

0.6

0.8

1.0

Who’s  there?  Togo  picture  gallery  by  DBCLS  is    licensed  under  a  Crea:ve  Commons    AYribu:on  2.1  Japan  license  (c)  

2

Page 3: [DDBJing30] メタゲノム解析と微生物統合データベース

DNA  extrac:on  

DNA  Sequencing  

Assemble  

Metagenomic  reads

Con:g  sets

Gene  finding  

Gene  sets

BLASTP  

Gene  Func:on  abundance  Pathway  abundance  Pathway  reconstruc:on  Taxonomic  abundance  

Who’s  there?   What  are  they  doing?  

Sample1  Metadata Sample2  Metadata

Compara:ve  metagenomics  

MGA,  MetaGeneMark  

SOAPdenovo2,  Velvet,  IDBA-­‐UD  etc.  

Metagenomic sequencing analysis (メタゲノム解析)

Togo  picture  gallery  by  DBCLS  is    licensed  under  a  Crea:ve  Commons    AYribu:on  2.1  Japan  license  (c)  

3

Page 4: [DDBJing30] メタゲノム解析と微生物統合データベース

DB名 環境メタゲノム  サンプル数

ヒトメタゲノム  サンプル数

MG-­‐RAST 14,188 3,291

JGI  IMG/M 1,694 840

INSDC  DRA/ERA/SRA 23,214 18,108

Taxonomic  division RefSeqのゲノム数

Archaea 375 Bacteria 24,119 Fungi 289

公開されているゲノム・メタゲノムのデータ数 (2014年6月時点)

4

Page 5: [DDBJing30] メタゲノム解析と微生物統合データベース

・ メタ16S・メタゲノム解析データ(塩基配列データ)から、容易に   系統組成および遺伝子機能組成の情報を抽出したい    ・ 組成情報を既存のメタ16S・メタゲノム解析サンプルと比較したい  

その環境の細菌群集は他のサンプルと比較するとどのような共通性・違いがあるか?    その環境のメタデータと自分のサンプルのメタデータを比べて、何が異なるのか?  

5

Page 6: [DDBJing30] メタゲノム解析と微生物統合データベース

integrates  lots  of  data  related  to  microbes. Especially,  we  integrates  the  microbial  data  that  can  be  linked  to  genomes.

Ortholog:  MBGD

Genome:  GTPS/RefSeq

Annota:on:    TogoAnnota:on

Culture  Collec:on:  NBRC/JCM

Metadata:    INSDC  SRA  

Metagenome:    INSDC  SRA  

Taxonomy:    NCBI  Taxonomy  

hYp://microbedb.jp/

                 Gene                  Taxon                Environment

Red  color  indicates  our  collaborators. 6

Page 7: [DDBJing30] メタゲノム解析と微生物統合データベース

MicrobeDB.jpを用いて出来ること

1.  既存のゲノム中の各遺伝子の情報 (オーソログ、モデル微生物での高精度アノテーション、系統プロファイル、環境プロファイル)  

2.  菌株保存機関に存在する菌株の情報 (生育培地、表現型情報、遺伝子機能組成、環境プロファイル)  

3.  様々な環境中の細菌群集の情報 (系統組成、遺伝子機能組成)  

4.  上記の情報がシームレスに連携     (exp.  高温環境に多く存在する遺伝子はどのような遺伝子か?        その遺伝子は、どの系統が主に持っているのか?)  

7

Page 8: [DDBJing30] メタゲノム解析と微生物統合データベース

Metagenome/Microbes  Environmental  Ontology    (MEO)  Ver.  0.7  

797  terms

BioPortal  hYp://bioportal.bioontology.org/   で最新版を公開  

atmosphere  (MEO:0000001)

geosphere  (MEO:0000002)

hydrosphere  (MEO:0000004)

environment

human  ac:vity    associa:on  

(MEO:0000003)

organism    associa:on  

(MEO:0000005)

・air  • oxic  • anoxic  :  

・soil  • forest  • plain  :  

・sea  • lake  • water  :  

・rumen  • mucus  • rhizosphere  :  

・bioreactor  • farm  • naKo  :  

Collaborate  with  DBCLS  岡本忍、川島秀一  

8

Page 9: [DDBJing30] メタゲノム解析と微生物統合データベース

公共塩基配列DB    (INSDC  SRA)

        メタゲノムDB

NIG  Super  Computer

解析  パイプライン

MeGAP-­‐MicrobeDB.jp

MeGAP

メタゲノム配列データを取得  

大規模計算実行

既存のメタ16S・  メタゲノムの  解析済み  データを  取得

メタ16S・  メタゲノム  配列データ  (fastq形式)

ユーザ

アップロード

系統組成  (Genus,  Family,    Order,  Class,  Phylum)

遺伝子機能組成  (ホモログ、代謝パスウェイ)

MicrobeDB.jp中の  既存メタ16S・  メタゲノムデータとの  比較解析結果

MeGAPから得られた  系統組成・  

ホモログ組成(tsv形式)

9

Page 10: [DDBJing30] メタゲノム解析と微生物統合データベース

10

MeGAP  (MetaGenome  Annota:on  Pipeline)    version  0.1                hYp://fs2.bio.:tech.ac.jp/megap/

Page 11: [DDBJing30] メタゲノム解析と微生物統合データベース

配列の前処理  (目的:  高精度配列データの抽出)

3’端のQuality  Trim  (Quality  value  <17)  配列長でフィルタリング(<50  base)  

FASTQ  ファイル  

Qualityでフィルタリング  Quality  Average  >25  

Nを含む配列除去

ユーザがメタ16S  or  メタゲノム  の情報を入力

高精度  メタゲノム配列データ

高精度メタ16S  配列データ

11

Page 12: [DDBJing30] メタゲノム解析と微生物統合データベース

メタ16S解析パイプライン  

UCHIME  Reference  mode  でキメラを検出

キメラ除去済みOTU  

OTU代表配列

Reference  16S  rRNA    gene  database

UCHIME  De  novo  mode  でキメラを検出

両modeでキメラとされた  OTUをキメラと判定、  

そのOTUを構成する全リードを除去

高精度メタ16S  配列データ  

UCLUST  Iden:ty  >97%,  coverage  >90%  

RDP  Classifierを用いてbootstrap  cutoff  >50%  で各OTUの代表配列を系統アサインメント

Genus-­‐Phylumレベルの系統組成 12

Page 13: [DDBJing30] メタゲノム解析と微生物統合データベース

13

系統組成

Page 14: [DDBJing30] メタゲノム解析と微生物統合データベース

メタゲノム解析パイプライン  高精度メタゲノム  

配列データ  

CLAST  Refseq  Prokaryote  Genome  

Top  Hitのみ抽出  

各株の遺伝子ごとに  Hit数を集計  

全体のリード数で補正  

OrthologごとにHit数を集計   Strainレベルで  Hit数を集計  

系統組成 遺伝子機能組成  代謝パスウェイ組成

GPUを用いた  塩基配列の類似性検索  

KEGG  Ortholog

KEGG  Pathway

(Yano  et  al.,  2014,  BMC  Bioinforma:cs)

14

Page 15: [DDBJing30] メタゲノム解析と微生物統合データベース

15

MeGAP-­‐MicrobeDB.jp  version  0.1  hYp://fs2.bio.:tech.ac.jp/megaptomicrobedb.jp/

Page 16: [DDBJing30] メタゲノム解析と微生物統合データベース

MicrobeDB.jp中の既存サンプルとの比較解析  

        メタゲノムDB

サンプルとの距離行列計算

階層的  クラスタリング

組成の  可視化

1-­‐Pearson相関係数  

Complete  Linkage法

ユーザのサンプルのGenus組成・KO組成

既存メタ16SサンプルのGenus組成  既存メタゲノムサンプルのKO組成

上記の各ステップはRで実行 16

類似した  100サンプルを抽出

Page 17: [DDBJing30] メタゲノム解析と微生物統合データベース

類似した100サンプルとのKO組成 (メタゲノム)  

17

類似した100サンプルとのGenus組成 (メタ16S)  

Page 18: [DDBJing30] メタゲノム解析と微生物統合データベース

Genus組成によるサンプル間階層的クラスタリングの結果 (メタ16S)  

18

SRR

0477

54SR

R05

6157

SRR

1717

96SR

R17

0533

SRR

0561

45SR

R05

5616

SRR

0493

73SR

R04

6330 SR

R04

6902

SRR

0410

06SR

R17

0301

SRR

0550

38SR

R05

4955

SRR

0564

79SR

R04

4766

SRR

0567

12SR

R04

4992

SRR

0481

16SR

R09

0947

SRR

0449

10SR

R05

6239

SRR

0452

92SR

R05

5870

SRR

0552

47SR

R05

5977

SRR

0561

22SR

R04

7920

SRR

0481

82SR

R20

1927

SRR

2019

01SR

R17

0070

SRR

0503

30SR

R04

8699

SRR

0440

90SR

R04

4123

SRR

0515

83SR

R04

6225

SRR

0410

27SR

R04

0933

SRR

1701

62SR

R17

0959

SRR

0485

36SR

R04

3600

SRR

0455

46SR

R04

7450

SRR

0440

30SR

R04

3994

SRR

1720

02SR

R04

8662

SRR

1712

12SR

R04

4656

SRR

0415

47SR

R04

6241

SRR

0456

47SR

R04

5607

SRR

0492

27SR

R04

4718 SR

R32

8963

SRR

3288

79 SRR

0487

82SR

R04

9962

SRR

0461

97SR

R04

4654

SRR

0900

82SR

R09

0049

Test

1.fa

stq

SRR

4085

25SR

R17

0142

SRR

0514

49SR

R05

1472

SRR

1722

87SR

R32

8866

SRR

1722

80SR

R04

6305

SRR

0483

80SR

R04

4671

SRR

3287

69SR

R32

8673

SRR

0560

33SR

R04

7997

SRR

0446

75SR

R04

8859

SRR

0485

26SR

R04

8551

SRR

4085

30 SRR

0474

48SR

R04

4652

SRR

0446

65SR

R04

4683

SRR

0485

79SR

R04

8650

SRR

0480

51SR

R04

1015

SRR

0472

21SR

R04

7878

SRR

0483

44SR

R04

4028

SRR

0439

89SR

R17

0860

SRR

0436

34SR

R09

1093

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Cluster Dendrogram

hclust (*, "complete")d_cor

Hei

ght

Page 19: [DDBJing30] メタゲノム解析と微生物統合データベース

・ メタ16S・メタゲノム解析データから、容易に   系統組成および遺伝子機能組成の情報を抽出したい  

                 MeGAP                                                        hYp://fs2.bio.:tech.ac.jp/megap/    ・ 組成情報を既存のメタ16S・メタゲノム解析サンプルと比較したい  

                   MeGAP-­‐MicrobeDB.jp                                hYp://fs2.bio.:tech.ac.jp/megaptomicrobedb.jp/  

その環境の細菌群集は他のサンプルと比較するとどのような共通性・違いがあるか?    その環境のメタデータと自分のサンプルのメタデータを比べて、何が異なるのか?  

19

まとめ

Page 20: [DDBJing30] メタゲノム解析と微生物統合データベース

データの収集およびクオリティコントロール、 更新の自動化など持続可能なシステムの構築 データ生産者から継続的にデータを受け付ける窓口のシステムとして微生物ゲノム自動アノテーションシステム「MiGAP」およびメタゲノム解析パイプライン「MeGAP」を利用し、MicrobeDB.jpと一体運用を実現する。また、これまで手作業で実施してきたDBの更新作業を可能な限り自動化し更新体制を強化する。

データ 生産者

微生物ゲノム 自動アノテーションシステム

メタゲノム解析パイプライン

メタデータの入力 RDFへの変換

ユーザのデータと 公共DB中のデータの統合

RefSeq SRA

公共DB中の ゲノム・メタゲノムデータ

20

Page 21: [DDBJing30] メタゲノム解析と微生物統合データベース

Acknowledgement 東京工業大学 黒川顕・山田拓司・山本希・鈴木真也

国立遺伝学研究所 中村保一・菅原秀明・神沼英里・藤澤貴智

基礎生物学研究所 内山郁夫・千葉啓和・西出浩世

21

DBCLS (ライフサイエンス統合データベースセンター) 岡本忍・川島秀一・片山俊明・山本泰智