16
フィルジェン株式会社 バイオインフォマティクスが簡単に NGS解析データをコマンドラインに触れることなく簡単に解析 非モデル生物にも対応 DNA解析、RNA-seq機能、メタゲノム解析を搭載 高速Blast解析やGO解析 数多くの科学研究引用・国際的に認知 機能ゲノミクス解析ソフトウェア

OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

フィルジェン株式会社

バイオインフォマティクスが簡単に

✔ NGS解析データをコマンドラインに触れることなく簡単に解析

✔ 非モデル生物にも対応

DNA解析、RNA-seq機能、メタゲノム解析を搭載

✔ 高速Blast解析やGO解析

✔ 数多くの科学研究引用・国際的に認知

機能ゲノミクス解析ソフトウェア

Page 2: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

Without a reference genome

バイオインフォマティクスが簡単に

解析ツールの位置や手順がわからずソフトウェアを使いこなせない…

他のソフトウェアとの違い

ウェット実験の研究者向けに設計されたソフトウェアです。

初めてでも簡単に使用することができます。ほとんどの作業はアイコンを選択し

パラメーターを決めるだけで簡単に配列データを生物学的解釈を持つデータに

することが可能です。

OmicsBoxはリファレンスゲノムがないデータでも解析が実行可能です。

GO、酵素コード、InterProなど、さまざまなアノテーションデータベースにより

アノテーション情報をより深めることも可能です。

実績の高いがコマンドライン型であったりOSに制限がある

オープンソースソフトウェアを多数組み込みマウス操作で簡単に

解析できるようしたのがOmicsBoxの特徴の1つです。

OmicsBoxは、次世代シークエンサーなどから出力される

遺伝子配列データに対して様々な解析が可能なソフトウェアです。

DNAやRNA配列データのアセンブルによる新規配列決定や、

機能アノテーション情報の付加、発現変動遺伝子の抽出や

遺伝子予測、メタゲノム解析など幅広いデータマイニングを

実行することができます。はこれらの悩みを解決します。

OmicsBoxの解析や計算は、

統合させたウェブサイトやBioBam社のクラウドを通して

行われるため、安定したインターネット接続があれば解析が可能です。

高価なPCの購入無しで様々な解析をしたい…

リファレンスゲノムのない生物のデータも解析したい…

農学系研究に適したゲノム解析ツールを探している…

バイオインフォマティクスの知識は不要

非モデル生物に対応

多くの科学研究引用実績

高度なシステム要件を必要としません

Click

Low cos t

Research citations

1

Page 3: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

機能アノテーションツール

新規ゲノムの配列決定

メタゲノム解析(16S・WGS)

RNA-seqデータ解析

OMICSBOXモジュール

OmicsBoxは、NGSより出力された生リードデータから洞察までを簡単に

取得できるバイオインフォマティクスソフトウェアソリューションです。

アノテーション情報付与、ゲノム、トランスクリプトミクス、

メタゲノムの4つのモジュールよりNGSデータ分析を行います。

Functional Analysis

OmicsBoxの基本となるモジュールでBlastでヒットした遺伝子名や

機能情報を配列などを付与します。アノテーションはBioBam社独自の

アルゴリズムで7000以上の研究引用実績があります。

Genome Analysis

リファレンスゲノムなしで配列を組み立てるDe-Novo Assemblyや

ORF・遺伝子位置情報の予測機能、リファレンスゲノムデータへのマッピング

機能を搭載。ロングリードデータにも対応しています。

Transcriptomics

リファレンスゲノムなしで配列を組み立てるDe-Novo Assemblyや

コーディング領域の検出およびその結果を用いたRNA-seqの

発現量解析・変動遺伝子抽出ができます。

リファレンスゲノムを使用しての発現解析にも対応しています。

Metagenomics

完全なマイクロバイオームデータ分析に必要なすべての手順を組み合わせて

統合し、柔軟で直感的な方法で統合できます。

OTUのグループ間比較にも対応しています。

ページ3へ

ページ5へ

ページ7へ

ページ9へ

2

Page 4: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

Functional Analysis

BlastとInterProScanの高速解析Gene Ontology Mapping

Blast2GO Annotation

Blast2GO Methodology

2005年に公開された有名なBlast2GO Methodologyは、

現在OmicsBoxの一部です。Blast2GOは、7000以上の研究引用があり、

科学コミュニティによって国際的に認められている、

新規ゲノムの分析のための主要なバイオインフォマティクスプラットフォームです。

すべてを1か所で解析

FASTAファイルを読み込んで、Blast2GO Methodologyで段階的に

分析し、高品質の機能アノテーションを取得します。すべてのデータを

1か所ですべての分析パラメーターを完全に制御できます。

統計

ヒストグラムと分布図は、分析のすべての段階を評価してデータを

最大限に活用することに役立ちます。

GOグラフ

アノテーションをGOグラフとして視覚化し、概要を把握します。

グラフをフィルター処理および整形して、結論を明確に提示します。

NCBIサーバーやローカルだけでなく

Biobam社のサーバーにて高速計算が

可能です。計算にはユニットを消費します。

(ユニットについてはP13へ)

クリック操作で簡単かつ高品質な

アノテーション情報を付与できます。

EggNOG/Enzyme Code

オルソロググループ検索やEnzymeCodeを

付与されることでアノテーション情報を

より充実させることができます。

結果の統計

配列にどの程度アノテーション情報を

付与できたか、BLAST検索された

生物種のヒット数、各GOのランク図など

統計データを簡単にグラフ化することが

できます。

Enrichment Analysis

得られた機能情報から過剰および

過少の代表的な機能を同定します。

GOグラフ・棒グラフなど多彩なグラフも

作成可能です。またGSEA解析にも

対応しています。

パスウェイ検索

Enzyme Codeを使用してKEGG

パスウェイをロードすることができます。

※アカデミックユーザー限定機能

3

Page 5: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

Functional Analysisモジュールでなにができる?

【使用したデータセット】

Solanum lycopersicum(トマト)の全ゲノムデータセットを使用。

ゲノムの公式のCDSアノテーションは、International Tomato Annotation Groupに

よってリリースされたSL2.40ゲノムビルドから取得されました。

【クラウドによるBLASTとタンパク質のドメイン検索】

OmicsBoxにロードしたデータにBLASTとInterProScanを実行します。

配列だけのデータに類似した配列情報やタンパク質のドメイン検索の情報を付与できます。

InterProScanとBLASTの検索は、並行して実行することができ解析時間を短縮できます。

【EggNOG-Mapperを使用したオルソロググループ検索】

本ツールはeggNOGベースのオルソロジー割り当てを使用した、

新規配列(遺伝子またはタンパク質)の高速機能アノテーションのためのツールです。

BLAST解析とInterProScanと同時に解析できるため解析時間の短縮が可能です。

【機能アノテーション情報・Enzyme Code付与】

GOアノテーションをマウス操作で簡単に付与することができます。

得られた配列情報からさらに機能情報を付与することがこのプロセスで可能です。

ここまでの解析で配列のみのデータから配列情報や機能情報など生物学的意義を調べる

ことができます。

このアノテーション解析は7000以上の研究引用のある実績のある解析方法です。

Enzyme Codeを付与するオプションもあり、アノテーションの精度を

Enzymeアノテーションまで拡張することができます。

【簡単に統計グラフを作成】

ここまでの結果は表による表示だけでなく様々なグラフに変換が可能です。

(アノテーションの精度や付与された情報はどのような種由来のものかなど)

さらにGene Ontologyは3つのカテゴリに分かれているため、それぞれ分子機能(MF)、

細胞成分(CC)、および生物学的プロセス(BP)の個別のグラフを生成できます。

もちろんGOをまとめたグラフも作成ができ階層も指定することができます、

この例(右図)では、レベル7の棒グラフを生成して、このデータセットの機能分布の

大まかな概要を表しています。

35,768

全配列数 高品質なアノテーション

Viridiplantaeに対するCloudBlast:2.5時間/ 130k ユニットCloudInterProScan:3.5時間/ 100k ユニットEggNOG-Mapper:20分GOマッピングとGOアノテーション:10分 解析時間

同時に解析!

NGSの生データは塩基の情報だけで

それが何を意味しているかはわかりません。

類似する配列情報や機能情報を配列に付与することが

できます。

様々な統計グラフで表示することもでき、

解析結果を資料などにまとめる際にも役立ちます。

塩基配列だけの情報からどのような類似する配列がありどのような機能を持つものがあるか

または、豊富に含まれるかどうかを調べることができます。

ユニットについてはP13へ

操作は行いたい項目をクリックして進めていきます。

解析結果はタグや色分けされた表が作成されます。

さらに‼ Functional Analysisモジュールでは高速かつ高品質なアノテーション情報の付与が可能です‼

【結果】

InterProScan 87%のタンパク質ドメインまたはファミリー情報、56%のGOアノテーションEggNOG-Mapper オルソロググループやその他の情報で89%、 45%のGOアノテーション配列の77.5%はBlast2GO Methodologyを通してGOtermに関連付けができた。その一部であるEnzyme Codeは、配列の23.5%に相当

実績のあるアノテーション

通常、時間を要する解析を快適に

4

Page 6: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

Genome Analysis

生データからDNA配列を組み立てる

NGSより出力されるデータからクオリティチェックを実行し、リードを

フィルタリングし、低品質の塩基を削除します。リファレンスゲノムの

無い生物種でもDe-Novo Assemblyによって配列を組み立てることが

できます。現在、ショートリード・ロングリード・ショートリードとロングリードを

組み合わせたハイブリッドアゼンブリ(バクテリア)の解析が可能です。

統計

さまざまな統計チャートとレポートにより、ゲノムの組み立てと特性評価が

でき、生物学的解釈の結果を支援することができます。

探索的分析

豊富なユーザーインターフェイスにより、データ量が大きいゲノムアノテーションでも

簡単に処理できます。遺伝子アノテーションは、フィルタリング、ソート、

および他の結果セットと組み合わせることができます。

表から直接表示する遺伝子を選択します。

Quality Control DNA-seq De-Novo Assembly

FastQCとTrimmomaticを使用して

品質管理を行います。低品質の

塩基やアダプター除去、

クオリティチェックができます。

ABySS、SPAdesを使用したショートリード

またはハイブリッドアセンブリ、Flyeを使用した

ロングリードの配列を組み立てます。

リファレンスを必要とせずに全ゲノム配列を

構築することができます。

Alignment & Polishing

BWAを使用して短いリードをリファレンス

ゲノムにマッピングできます。さらに

Pilonを使用して作成したマッピング

データを修正します。

Gene Finding

原核生物(Glimmer)および

真核生物(Agustus)の

ORF遺伝子予測を行います。

真核生物はリピート配列と低複雑度領

域のDNA配列をマスクできます。

Genome Browser

アノテーションをトラックの形で視覚化して、

ゲノム配列(.fasta)とアライメント(.bam)、

イントロン - エクソン構造(.gff)、などを

組み合わせます。

また得られた配列情報はFunctional Analysisモジュールを使用して

さらに機能情報を付与することが可能です。

CDS

mRNA

Start

Stop?

Illumina・IonTorrentPacBio・Nanopore

コンティグ

MLST

7つのハウスキーピング遺伝子の内部

フラグメントのシーケンスを使用して、

細菌種の分離株を特徴付けることがで

きます。

5

リファレンスゲノム

Page 7: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

Genome Analysisモジュールで何ができる?

DNAシーケンスは、DNA内の核酸配列を決定するプロセスであり、ゲノムを

特徴付けることができる技術です。現在のDNAシーケンシングテクノロジーはゲノム全体を

一度に読み取ることはできませんが、テクノロジーに応じて20〜30.000塩基の

小さな断片を読み取ります。元のシーケンスを再構築するには、

シーケンスアセンブリテクニックが必要です。

ゲノムアセンブリとは、シーケンシング中に生成される多数のDNAフラグメントを取得し、

元のゲノムを再構築するなどのバイオインフォマティクスプロセスを指します。同様の生物の

ゲノムが以前に配列決定されている場合、目的のゲノムは、この既知のゲノムと比較する

ことにより組み立てられます。しかし、組み立てられるゲノムが、以前に配列決定された

他の生物と類似していない場合、De-Novo Assembly戦略が一般的に行われます。

現在までに、多数のゲノムアセンブラーが開発されています。アセンブラーは、

overlap-layout consensus(OLC)とハミルトン路、およびde Bruijn graphと

オイラー路などに分類されます。さらに、配列技術向けに様々なアセンブラーが

設計されており、小さな(細菌)または大きな(真核)ゲノムのアセンブリなど、

特定のニーズに合わせて調整されています。

OmicsBoxでは3つのアセンブリ戦略が利用可能です。

Genome Analysisモジュールではゲノムデータに最適なアルゴリズムで計算を行うことが可能です。

ゲノムデータに合わせたアルゴリズムを選択できます‼

ABySS(ショートシーケンスによるアセンブリ)は、ショートリード用に設計されたde novoシーケンスアセンブラです。

de Bruijn Graphを表すために、確率的データ構造であるブルームフィルターを使用するアルゴリズムを実装しています。

ABySSは大きなゲノムを組み立てることができます。

SPAdesは、de Bruijn Graphに基づくさまざまなアセンブリパイプラインを含むアセンブリツールです。

SPAdesは小さなゲノム用に設計されており、細菌や単一細胞のゲノムを組み立てることができます。

さらにSPAdesはIlluminaおよびIonTorrentのデータとPacBio、Oxford Nanopore、およびSangerのリードを

組み合わせたハイブリッドアセンブリを実行することで信頼性の高いアセンブルデータを取得できます。

Flyeは、PacBioやOxford Nanopore Technologiesにデータなど、単一分子シーケンスリード用の

de novoシーケンスアセンブラです。小さな細菌プロジェクトから哺乳類規模の大規模アセンブリまで、

幅広いデータセット用に設計されています。

OmicsBoxのDe-Novo Assembly結果はFASTAファイルに

加えて、シーケンスアセンブリの品質に関する統計レポートと

チャートが生成されます。

OmicsBoxは様々なオープンソースのソフトウェアを統合しているので

ツール同士の行き来なく手間がかかりません。

さらに負荷のかかる計算はクラウドにて高速計算されるため素早く結果を得ることが

できます。得られたデータは図や表を通して評価してから下流分析に臨めます。

De Novo Assemblyで得られたコンティグは配列情報のみの状態です。

OmicsBoxでは配列情報だけを用いてゲノム上のORF遺伝子の位置を

予測できます。さらにFunctional Analysisモジュールと組み合わせることで

配列の機能情報などゲノム配列から様々な有用な情報を引き出すことが可能です。

6

Page 8: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

Transcriptomics

生データからRNA配列を組み立てる

NGSより出力されるデータからクオリティチェックを実行し、

リードをフィルタリングし、低品質のベースを削除します。リファレンスゲノムの

無い生物種でもDe-Novo Assemblyによって配列を組み立てることができます。

統計

さまざまな統計グラフが、アセンブリおよび定量化プロセスに関する

追加情報、および結果の品質評価を提供します。

豊富な視覚化

インタラクティブなヒートマップは、異なる遺伝子とサンプルの発現値の違いと

類似性を直感的に確認することに役立ちます。その他MDSプロット、

ボルケーノプロット、MAプロットなどの多彩なグラフ化が可能です。

スプレッドシート

差次的発現の結果をソートおよびフィルタリングし、統計的基準を調整して

重要な遺伝子を評価し、それらを機能情報と組み合わせて

生物学的洞察を理解することが可能です。

RNA-seq De-Novo Assembly

Custer &

Predict Coding Regions

Trinityで短いリードから

リファレンスゲノムなしで配列を

再構築します。さらにBUSCOにより

アゼンブルの完全性を評価できます。

作成されたコンティグなどを

CD-HITで類似配列をクラスター化し

TransDecoderを使用して転写産物

配列内のコーディング領域を検出します

Quantify Expression

リファレンスゲノムの有無にかかわらず、

HTSeqまたはRSEMによる

遺伝子または転写産物レベルでの

発現の定量化が可能です。

Dierencial Expression Analysis

実験条件間または経時的に異なる

発現遺伝子を検出します。

有名な統計パッケージNOISeq、

edgeR、maSigProを使用します。

豊富な視覚化により結果を解釈できます。

Enrichment Analysis

Functional Analysisモジュールと

組み合わせることによって、過剰および

過少発現の生物学的機能を

同定することができます。

RNA-Seq Alignment

超高速ユニバーサルRNA-seq

alignerとして知られるSTARを

使用して、RNA-seqデータを

リファレンスゲノムに合わせます。

ORF

数値化

リファレンスゲノム

コンティグ

7

Page 9: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

Transcriptomicsモジュールでなにができる?

【使用したデータセット】

Ascaridia galli (飼育鳥に感染する腸内寄生虫)

コントロールx3 FLBZ処理(駆虫薬)サンプルx3を(fastq)をダウンロードしました。

【データの品質チェックと前処理】

OmicsBoxに搭載されたFastQCで品質をチェックします。本データではアダプターが

シーケンスに残ったままでしたので、OmicsBoxに搭載されたTrimmomaticで

トリミングを行いました(右図) 。クオリティチェックでは「PASS」や「FALE」など視覚的に

簡単に配列の品質を理解することができ、トリミングもスコアや長さなど様々な処理により

配列の品質を上げることができます。

【新規トランスクリプトームの組み立てと完全性評価】

データ品質を上げた後、OmicsBoxではTrinityを使用した

RNA-Seq de novo assemblyを実行できます。この解析によりリファレンスゲノムなしで

配列を組み立てることができます。

またSuperTranscriptsなど非モデル生物に適したオプションも指定できます。

この解析には通常高スペックなシステム要件を必要としますが、OmicsBoxの場合

解析はメーカのサーバーにて行われるため高価なPCなど初期費用を抑えることができます。

作成されたアセンブリの完全性を評価するために、OmicsBoxにはBUSCO

(Benchmarking Universal Single-Copy Orthologs)が搭載されています。

【オープンリーディングフレーム予測】

良質なアゼンブリデータを取得後、OmicsBoxでトランスクリプト内のORF予測を

検索しました。このツールは、 TransDecoderに基づいておりPfamドメイン検索データに

基づいてデータセットから最適なORFを抽出および分類できます。

ORFの予測後、本データでは遺伝子ごとに1つだけのアイソフォームがあったと仮定し

独自のフィルタリングにより19,700の遺伝子が下流分析のために保存されました。

【機能アノテーションとInterProScan】(Functional Analysis Moduleを使います。)

SwissProtデータベースに対する BlastX→マッピング→アノテーション+CloudIPS

により8,661個の遺伝子の機能アノテーションがを得ることができました。

【発現値定量・比較解析】

OmicsBoxではリファレンスゲノムの有無に関わらず発現値の定量が可能です。

ここではDe novo assemblyで組み立てフィルター処理されたデータと

初めのステップで作成されたクリーンリードを使用して定量化を行いました。

さらにOmicsBoxでは実験条件間に異なる発現遺伝子を検出することができます。

これにより統計的に高発現遺伝子・低発現遺伝子の検出を行うことができます。

結果をヒートマップやボルケーノプロットなどの視覚的な図にまとめることも可能です。

【エンリッチメント解析】(Functional Analysis Moduleを使います。)

OmicsBoxでは発現変動を示した遺伝子についてどのような機能が

豊富に含まれるか統計的に解析することができます。

A.galliがFLBZ耐性メカニズムを

発達させる可能性があるので

耐性機構について理解することが

求められた。

290,713のコンティグが作成された。

線虫オーソログの92%は完全に予想され、5%は部分的に見つかり、

3%は欠落した。

コントロール(未処理)とFLBZ処理サンプルを比較したところ

58個の高発現遺伝子と89個の低発現遺伝子を検出した。

高発現遺伝子の中ストレス状態、薬物排泄、解糖系、

低発現遺伝子の中からATPおよびエネルギー生産

に関する遺伝子を検出した。

(これらがFLBZへの曝露によって影響を受ける可能性を示唆)

Transcriptomicsモジュールではリファレンスゲノムの有無にかかわらず実績のある様々なRNA-seq解析ができます。

高品質のトランスクリプト 解析時間使用したリードデータ量

173M

アダプター除去前 アダプター除去後

アダプタートリミング後クオリティチェックをしたところ、

除去が図からも確認できた。

90,000個のORFが予測された。

転写産物の73.3%が完全で、16.6%が開始コドンの欠落、

6.1%が停止コドンの欠落、4.0%が開始コドンと停止コドンの

両方を欠いてた。

予想に反して、エンリッチメント解析は、主要な

薬物排出経路であるグルクロン酸代謝が低発

現遺伝子間で過剰に含まれることを示した。

高価なPC無しで高速・高品質に

解析

OmicsBoxを使用することで、リファレンス

ゲノムの無い配列を1から組み立てそれらを

比較して薬剤耐性機構について関与する

可能性がある遺伝子を推定することができた。

8

Page 10: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

Metagenomics

Taxonomic Classification

各シーケンスの分類群を識別します。OmicsBoxは、16SやWGSに

対応し、優れたベンチマークスコアを示します。

豊富な視覚化

カラフルでインタラクティブなチャートは、データを直感的に探索するのに

役立ちます。メタゲノム分類の複雑な階層内で、信頼性スコアを使用して

解析は行われます。

サンプル間比較

棒グラフは、たとえば属または種のレベルでのサンプル間の関係を理解する

ことに役立ちます。異なるサンプル間の分類学的な豊富な組成の概要を

簡単に示します。

OTU Differential Abundance Testing

edgeRを使用して、異なるグループ内の異なるレベルのOTUを相互にテストし、

豊富な差異を判断します。結果に加えて、PDFレポートとヒートマップおよび

などが作成され、調査結果の解釈に役立ちます。またアノテーションが付与

されたサンプル間の豊富さをテストし、バブルチャートなどで視覚化をできます。

Taxonomic Classification

種(バクテリア、古細菌、ウイルス)をKraken2で識別し、

マルチレベル円グラフ(Krona)とサンプル間比較棒グラフで

結果を視覚化します。他にもChao1の多様性評価、

Rare faction curves、OTU Differential 、

Abundance Testing(edgeR)、PCoAプロット

にて評価できます。

Gene Prediction

遺伝子およびタンパク質を予測するためのアプリケーション

です。同定し抽出するために、断片化されたリードには

FragGeneScanを使用し、組み立てられたデータには

Prodigalを使用します。

Functional Interpretation

EggNOG-Mapper(オルソロググループ)

PfamScan(ドメインおよびファミリー)を使用して

機能アノテーション情報を付与します。 結果はGOグラフや

チャートで視覚的に表現し比較することができます。

Metagenomic Assembly

通常のリードでは長さが短すぎて機能の特性評価が困難

です。したがって、前のステップとして、メタゲノムアセンブリ

ツールを実行します。MetaSPAdesとMEGAHITの

どちらかを選択すると、大規模なデータセットを簡単かつ

迅速にクラウドで構築できます。

9

Page 11: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

Metagenomicsモジュールでなにができる?

【使用したデータセット】

2つのソーダ湖(高レベルの炭酸ナトリウムと塩分とpHの上昇)Preta湖・Verde湖より午前と午後の2つの

タイムポイントで3サンプルずつサンプルを使用。OmicsBoxに搭載されたFastQCで品質を

チェックしTrimmomaticでアダプタトリミングを行いました。

【Taxonomic Classification】

クリーンリードを使用してOmicsBoxではKrakenに基づいたTaxonomic Classificationを

行うことができます。またこの結果から様々な図の作成が可能です。

まず、PCoAプロットを作成しました。このプロットによりサンプル間の類似パターンを距離で

表すことができます。

次にTaxonomic Classificationの結果を門から種までの構成グラフを作成することが

できます。本データの場合、門の構成グラフは、湖の間には大きな違いがありますが、

サンプリング時間(午前と午後)の間に明確な違いは観察されないことや、Verde湖の

支配的な門はシアノバクテリア(80%)、Preta湖では、主な門はプロテオバクテリア(75%)で

あることが視覚的に理解することができます。

OmicsBoxではRarefaction Curvesの作成も可能です。希薄化は、生態学で広く

使用されている手法であり、OTU分析に適用されます。この図によりシーケンスのカバレッジが

十分に深いかどうかを判断することができます。さらにDiversity Curveの作成もでき、追加の

サンプルをデータセットに含めることの微生物の多様性における利点を評価することが可能です。

サンプル間の分類学的な違いをよりよく理解するために、OmicsBoxで

Differential Abundance Testingを実行できます。このツールは2つの微生物群の間で

著しく異なる分類単位(OUT)を識別するツールです。

階層クラスタリングとして図で表すことも可能です。

【アセンブリと遺伝子発見・機能アノテーション】(一部Functional Analysis Moduleを使います。)

OmicsBoxではMEGAHITを使用して各サンプルを組み立て、FragGeneScanを使用して

各アセンブリの遺伝子と遺伝子断片の予測が可能です。本データの場合、これらの解析を

行うことでBlastでトップヒットした種の比較や機能情報を得ることができます。

ここまでのデータを使用しサンプル比較チャートの作成が可能です。機能アノテーション情報を

まとめサンプル間で比較することでより理解を深めることができます。

Verde湖でシアノバクテリアが多く

確認されているのに対しPreta湖では

Verde湖ほど確認されません。

したがって、湖間には異なる

微生物群集と機能的組成が

存在することが予想された。

Verde湖Preta湖

PCoAプロット:2つの湖の分類学的組成に

大きな違いが存在することを示唆した。

構成グラフ:シアノバクテリアの割合はVerde湖で見つかった

割合と比較してPreta湖で非常に低かったことがわかる。

データセットにサンプルを追加しても効果が向上しないことを

示唆した。特に微生物の多様性のレベルがはるかに高い

Preta湖のサンプルの場合、これらの環境に存在する

すべての種をカバーするにはシーケンスの深さが

十分ではなかったことを示唆している。

OmicsBoxではKronaチャートの作成もできます。

このグラフを使用すると、サンプルを簡単に比較できます。

Metagenomicsモジュールでは微生物群集の同定から比較まで

グラフィカルな結果を出力できます。

高品質のトランスクリプト

解析時間

予測遺伝子

250000

※リードデータ量:6.7M

比較チャートの結果、Verde湖は、光合成や

窒素化合物代謝に関連する機能が特に豊富であり

これらはシアノバクテリアの特徴と一致した。

対しPreta湖ではこれらの機能は重要ではないことを

示した。

Differential Abundance Testingの結果、

Preta湖と比較した場合Verde湖で最も豊富な属が

シアノバクテリアに対応することを示した。

本データはWGSデータですが16SrRNAデータを使用し

てTaxonomic Classificationを行うことも可能です。

10

Page 12: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

OmicsBox機能一覧機能

Blast解析(クラウド・NCBI・ローカル)

InterPro Scan(クラウド・EBI)

Gene Ontology Mapping・Blast2GO Annotation

EggNOGアノテーション(EggNOG-mapper)オルソロジー割り当て

Enzyme Code ECアノテーションの提供

GO-SlimよるGene Ontologyの縮小、可視化

Gene Ontologyグラフビジュアライゼーション

RFAM によるRNAファミリーの機能分けやグラフ化

PSORTbによる細胞内局在部位割り当て

フィッシャーの直接確率検定を使ったエンリッチメント解析

遺伝子セットエンリッチメント解析(GSEA)

エンザイムコードを使用したKEGGパスウェイ検索(アカデミックユーザー限定)

DNA-seq De-Novo Assembly (ショートリード、ロングリード、ハイブリッドアゼンブル)(ABySS2.0・SPAdes・Flye)

DNA-Seqリファレンスゲノムへのマッピング(BWA)

DNA-Seqポリッシング(Pilon)

Repeat Masking(RepeatMasker)

原核生物の遺伝子予測(Glimmer)

真核生物の遺伝子予測(Augustus)

Coding Potential Assessment

NGSデータのMLST解析

RNA-Seq DeNovo Assembly・完全性評価(Trinity・SuperTranscripts・BUSCO)

クラスタリング(シーケンスデータの冗長性を減らす機能・CD-HIT)

コーディング領域の予測(TransDecoder)

RNA-Seq リファレンスゲノムへのマッピング(STAR)

RNA-Seq Transcript定量(RSEM・HTSeq)

ペアワイズデータの発現解析(NOISeq・EdgeR)

経時データの発現解析(MaSigPro)

分類学的種の同定Taxonomic Classification(Kraken)

図表の作成(WEGO・GOグラフ・PCoA・Chao1・Rare faction curves)

メタゲノムアゼンブル(MetaSPAdes・MEGAHIT)

メタゲノム遺伝子予測(FragGeneScan・Prodigal)

メタゲノム機能アノテーション付け(eggNOG・Pfam database)

比較解析

Fastaqデータのクオリティチェック/アダプター除去・トリミング機能(FastQC・Trimmomatic)

ゲノムブラウザ(gff、vcf、fasta、bam)

ワークフロー(作成、実行、共有)

複数のデータセットの同時並行処理

生物学的機能、名前などによる配列サブセットの選択

多彩なデータインポートオプション(fasta、XML/Zip、annot、GFF/GFF2/GFF3、Bam、VCFなど)

5

Genome Analysis

Transcriptomics

Metagenomics

Functional Analysis

共通機能

11

Page 13: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

機能

BioMartデータインポート(脊椎動物、後生動物、植物、原生生物、菌類)

ベン図の作成

NCBI GenBankへのアノテーション配列提出

≫ワークフロー

各解析をワークフローにて1度に解析を実行することができます。もちろん設定の変更なども柔軟に行うことができます。すでに出来上がった既存のワークフローからも解析を行うことが可能です。

Gene Ontology Annotation 解析 トランスクリプトーム解析

エンリッチメント解析 OTU Abundances Table

BAMファイルのトラック表示MLST解析

12

Page 14: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

113

ライセンスタイプ

OmicsBoxはモジュール数とライセンス年数、同時使用可能なPCの台数を自在に組み合わせることが可能です。

まずはご希望のライセンスを弊社までお問い合わせください。

クラウドプラットフォームで実行される各アルゴリズム(例えば、配列アライメント)は、入力データ、アルゴリズムおよびそのパラメーターによって消費ユニットが決まります。これらの計算単位は、クラスタの使用量(使用されたCPU秒とネットワークトラフィック)に直接対応しています。また、OmicsBoxではComputation Units消費しないローカルブラストや公共データベース上でBlast解析やInterProScan解析を実行することもできます。

Computation Units

CloudBlastは、BioBam専用のコンピューティング・クラウド上で、Blast+シークエンス・アライメントを安全かつ高速に実行することができます。OmicsBoxはライセンス年数とシート数に応じて最初にComputation Unitsが付属しています。(右図)

Computation Units消費一例1000配列をCloud Blast にて解析した際の Computation Units 消費量*あくまでも一例であり、使用するアルゴリズムや生物種で異なることもあります。

【購入時に付属するComputation Units 】

ライセンス年数 1 Seat 2 Seat

1 Year 6.000.000 9.000.000

2 Years 9.000.000 12.000.000

3 Years 12.000.000 15.000.000

※モジュール数が1つの場合は購入時にComputation Unitsは付属されません。

データベース 消費ユニット数

NR 42,144

Swissprot 242

Ref-seq 35,867

Viridiplantae 2,661

このComputation Unitsは、CloudBlast解析とInterProScanのCloud解析行うごとに消費されます。(その他の解析では消費されません。)

すべてのUnitsを使いきってしまった場合は、追加で6 million Computation Units を購入することができます。

OmicsBoxは年間ライセンスタイプの

ライセンスです。

1〜3年まで同時購入が可能です。

同時解析人数(シート数)

は1〜5人まで購入できます。

1シートでPC2台までインストール

できます。(同時解析は1台)

*モジュール数の組み合わせの変更も可能です。 モジュールの1つに、Functional Analysisを含めることを推奨しています。

【システム要件】高価な解析PCを必要としないので初期費用を抑えることができます。

【 OS 】Mac OS(10.9以降)Windows(7以降)Linux OS(Ubuntu14.14、Debian8、RedHat Enterprise Linux7以降)Linuxの場合、gtk-2.24以上を必要とします。【メモリ】最低2GB以上

インターネット接続を必要とします。OmicsBoxは、自動的にアップデートされます(書き込み許可が必要)。

Page 15: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

OmicsBoxはライセンス年数、同時使用可能なPCの台数を自在に組み合わせることが可能です。

さらに、それらの組み合わせにより割引が適応されます。

まずはご希望のライセンスを弊社までお問い合わせください。

✔お客様に合わせた価格を実現!まずはご希望のライセンスを弊社までお問い合わせください。

お得なディスカウント

ボリュームディスカウント

年数ディスカウント

同時使用2台

(ソフトウェアインストール台数4台)

同時使用1台

(ソフトウェアインストール台数1台)

7日間無料のOmicsBoxのデモライセンスを提供してます。

まずは弊社までお問い合わせください。

TEL:052-624-4388E-mail:[email protected]

14

Page 16: OmicsBox catalog v6 2005...Functional Analysis BlastとInterProScanの高速解析 Gene Ontology Mapping Blast2GO Annotation Blast2GO Methodology 2005年に公開された有名なBlast2GO

製造元

BioBam Bioinformatics S.L.cipf

Centro de Investigación Príncipe Felipe

Calle Eduardo Primo Yúfera 3

3 Torre, 1ª Planta 46012 Valencia ES-Spain

TEL: +34 963 767 161

FAX: +34 911 335 015

フィルジェン株式会社バイオインフォマティクス部

【お問い合わせ】

〒459-8011 愛知県名古屋市緑区定納山1丁目1409番地

TEL:052-624-4388 FAX:052-624-4389

E-mail:[email protected] URL:https://filgen.jp/

代理店

(May,2020)

輸入販売元