41
DDBJNIG Supercomputerの紹介、大量 配列情報解析 by 神沼英里(国立遺伝学研究所) All members of DNA Data Bank of Japan Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Naofumi Ishikawa, Chiharu Kawagoe, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Hisako Mashima, Fujitaka Matsumori, Kimiko Mimura, Hiroshi Miyazaki, Naoko Murakata, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Yukie Sakon, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Rie Sugita, Kimiko Suzuki, Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Emi Yokoyama, Masanori Arita, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura 33DDBJing 講習会 in 東京 日時:20151111日(水)10:0017:00 場所:国立研究開発法人 科学技術振興機構(JST) 東京本部別館(K's 五番町)

[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 in 東京)

Embed Size (px)

Citation preview

DDBJとNIG Supercomputerの紹介、大量配列情報解析 by 神沼英里(国立遺伝学研究所)

All members of DNA Data Bank of Japan Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Naofumi Ishikawa, Chiharu Kawagoe, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Hisako Mashima, Fujitaka Matsumori, Kimiko Mimura, Hiroshi Miyazaki, Naoko Murakata, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Yukie Sakon, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Rie Sugita, Kimiko Suzuki, Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Emi Yokoyama, Masanori Arita, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura

第33回 DDBJing 講習会 in 東京 日時:2015年11月11日(水)10:00~17:00 場所:国立研究開発法人 科学技術振興機構(JST) 東京本部別館(K's 五番町)

(1)DNA Data Bank of Japan

http://www.ddbj.nig.ac.jp/

http://www.ddbj.nig.ac.jp/

DDBJ(DNA Data Bank of Japan) は

国際塩基配列データベースの構築機関

・Daily exchange among three databanks

DDBJは、米国NCBI・欧EBIと協力して

データベースを運営(定期交換)

特許庁の塩基配列・アミノ酸配列も公開。 JPO (Japan Patent Office) KIPO (Korean Intellectual Property Office) EPO (European Patent Office) USPTO (United States Patent and Trademark Office)

サービス群

DDBJのデータベース①

Next-generation

Sequencer (NGS) Capillary Electrophoresis

Sequencer

DRA (DDBJ Sequence Read Archive)

DTA (DDBJ Trace Archive)

Archive DB for

raw data

Archive DB for

analyzed data

EBI (EMBL-Bank)

Sequence

NCBI (GenBank)

DDBJ

INSDC

collaboration

Quantitative data

GEO ArrayExpress

DDBJ Omics ARchive(DOR)

collaboration

DDBJ Pipeline

DDBJのデータベース②

DDBJのデータベース③ Japanese Genotype-phenotype Archive

http://trace.ddbj.nig.ac.jp/jga/submission.html

個人に由来する次世代シークエンス、アレイ、解析データ (bam, vcf etc)、表現型情報を

受付・保存・提供

データ提供と利用をガイドラインに従って審査 7

2014年度 スパコンユーザ会資料(児玉)より

増え続けるデータ量 SR

A の

ファイルサイズ

(TB)

データベース数

Trace Archive

SRA

BioProject

JGA

BioSample

2014年度 スパコンユーザ会資料(児玉)より

DDBJへの登録国(Top10)

2014年DDBJ事業報告より

DDBJへの分類別3機関登録比率 2014年DDBJ事業報告より

(%)

(%)

http://www.ddbj.nig.ac.jp/sub/locus-j.html

日・欧・米でのデータベース名称の違い

http://www.insdc.org/

個人ゲノムNGS : JGA : EGA : dbGaP

DDBJ の沿革

http://www.ddbj.nig.ac.jp/history-j.html

DDBJ

PDBj DBCLS

DDBJ センター人員2015/09

アノテータ エンジニア

スタッフ 6 (センター長、教授3、助教2)

アノテータ 12 (Ph.D. 7)

DDBJ 事業運用エンジニア 9

遺伝研スパコン管理 6

広報・対外活動 3

企画調整 1

事務担当 2

合計 39

13 スパコンユーザ会資料(児玉)より

④Tutorials (※Japanese only)

②Computational resources

③A Web-based

analytical system for NGS reads

①Archive DB of NGS reads

DDBJ

Sequence

Read Archive

(DDBJ-SRA)

DDBJの大量配列解析用サービス

NIG Supercomputer

(Today’s topic)

DDBJ Pipeline

DDBJing seminar

Video tutorials

http://www.ustream.tv/channel/ddbjing-25

http://trace.ddbj.nig.ac.jp/dra/

http://p.ddbj.nig.ac.jp

https://www.youtube.com/user/DDBJvideo

④講習会開催 / QA対応

②計算機資源利用

③クラウド型大量配列解析ツール

①大量配列を保管

アーカイブデータベース

DDBJ-SRA

本日のデモ用ログインID・パスワード

遺伝研 新スパコン利用案内

DDBJ Pipeline

DDBJing講習会(2015年第31回分映像)

http://www.ddbj.nig.ac.jp/ddbjing/dl.html

DBCLSライフサイエンスQA, DDBJ tag

http://trace.ddbj.nig.ac.jp/D-way/ 登録システムデモ(D-way) Login ID: dradev Pasword: dradev01

Check current jobsボタンを押すと、

ゲストでログインhttp://p.ddbj.nig.ac.jp/

http://qa.lifesciencedb.jp/

稼働状況ログ

http://www.ddbj.nig.ac.jp/system/supercom/ supercom-intro.html (一般用) http://rgm2.lab.nig.ac.jp/wiki/index.php/Main_Page (玄人用)

http://www.ddbj.nig.ac.jp/system/supercom/supercom-util.html

(2)NIG SuperComputer

http://sc.ddbj.nig.ac.jp/

遺伝研スーパーコンピュータ 構成概略

<世界で170位相当の性能> 2012年3月の測定で、82.9テラFLOPS(計算速度)、 2011年11月に統計された世界スパコンTop500ランキングとの性能比較による

2015/2/3 NIIオープンフォーラム資料(小笠原)より

NIGスパコン:Phase1(2012年導入),Phase2(2014年導入)の2部構成

オープンソース解析ツールを インストール(申請可能)

汎用データベースをインストール済

2015/2/3 NIIオープンフォーラム資料(小笠原)より

目的別の利用統計

利用案内:Just Now All Free!

http://sc.ddbj.nig.ac.jp/index.php/account-conditions

①責任者にアカウント・パスワード郵送

②年度末更新時に要報告書

NIGスパコンのユーザ登録

http://sc.ddbj.nig.ac.jp/

new registration for MiGAP (Web only)

new registration for supercomputer account (log in use)

new registration for DDBJ PipeLine (Web only)

request for software install

large-volume resource request

ログインから計算ノード利用のステップ

gw.ddbj.nig.ac.jp node

node

node

node

USER gateway server

computational servers

Qsub Jobs

ssh gw.ddbj.nig.ac.jp

qlogin

qsub ***

NIG Supercomputer (注:2015年からSSH公開鍵認証)

ジョブの状態確認と、混雑具合の確認

http://sc.ddbj.nig.ac.jp/index.php/ja-nig-statistics

check

http://www.slideshare.net/oogasawa

https://www.youtube.com/watch?v=p_FikxzF9Ms

■より詳しいNIGスパコン紹介映像 ■ガイド本

Ⅵ プロトコール データ解析と環境構築 1 解析環境を導入する スパコンの利用 【小笠原 理】

NIGスパコンの使い方ヘルプ

(3)Web Analytical Services

http://www.ddbj.nig.ac.jp/searches-j.html

検索・解析サービス

http://www.ddbj.nig.ac.jp/searches-j.html

<getentry>

アクセッション番号からのDDBJエントリ検索

①番号入力

②検索実行

<ARSA>

キーワードによるDDBJエントリ検索

①キーワード入力

②検索実行

③必要なエントリ選択

④View (Fasta形式選択)

⑤配列確認

<clustalW>

系統樹生成

①前ページ matK配列をペースト

②実行

http://etetoolkit.org/treeview/

③Bootstrapped Tree 結果をコピー

④Bootstrapped Tree 結果をペースト

⑤実行

Sugawara H, Ohyama A, Mori H and Kurokawa K. Microbial Genome Annotation Pipeline (MiGAP) for diverse users. 20th Int. Conf. Genome Informatics (Kanagawa, Japan) 2009: S-001, p 1-2.

MiGAP(Micobial Genome Annotation Pipeline) De novo annotation of nucleotide sequences of prokaryotic and eukaryotic microbes

DDBJ Read Annotation Pipeline紹介

NGS大量配列のクラウド型解析システム(2009年度公開)

DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013)

→遺伝研スパコンをクラウド利用、10TB,2TB mem / 162 nodes / 100TB storage利用

高速

シークエンサ

Instrumentation data

Sequence + quality (fastq)

base calling

Contigs (Overlapping reads)

Scaffolds (Supercontigs)

+ Annotation

DDBJ Sequence Read Archive

CON

Complete genome - Annotation

DDBJ Pipeline

基礎処理部

MSS finishing/gap closure

annotation 通常 データ

WGS

メタデータ

データ

DRA Image data

>Seq1

AGTCGGGTGG . . . . [email protected] http://www.ddbj.nig.ac.jp/sub/trace_sra-j.html

mass-ftp ディスク送付

Contig 情報ファイル + アノテーションファイル

配列 + アノテーションファイル

自動アノテーション 結果

配列 + アノテーションファイル

mass-ftp 電子メール

大量登録システム

研究者による編集

Reference Genome Mapping

DDBJ Pipeline

高次処理部 (Annotation Tools)

PSU Galaxy Workflow Interface (Giardine et al., Genome Res 2005) ・SNP 検出/ 注釈 ・Contig 注釈 ・RNA-seq 解析

:

他のツール

De novo Assembly

登録ユーザ557名(14年7月)、年間約8000ジョブのサービスに発展

DDBJ Pipeline利用統計

▼新スパコン移行 ▼高次部Galaxy本格公開 ▼基礎部公開

裏歴史

<情報共有機能>→×(NGS現場の会始まる) (他Pipeline情報共有部の参考?)

<猛烈反響時代> ・民業圧迫!!(民間研究者) ・激励とダメ嵐(アカデミック研究者)

<Pipeline乱立時代> ・常連さん一部は他Pipelineへ →将来?

<セキュリティ強化へ> ・Pipeline基礎部GUI-Jar盗られる

計算機資源不足や解析支援員不足状況の 実験研究者を支援する!(←理念)

DDBJ Pipelineのユーザ統計

45か国のユーザ

主な利用者のドメイン

(2012年度計算)

DDBJ Pipelineツール利用統計

マッピングツールは毎年bwaの利用が

最も多い。

Bowtie2、TopHat2は、2013年の

導入以降、利用数が急速に伸びている。

de novo アセンブルツールは

VelvetとTrini tyの利用が多い。

2014年春に導入した Platanus、HGAPの利用も伸びを見せている。

DDBJ Pipelineユーザ対応と管理

■2013年度ユーザ対応内訳(質問、連絡)

Pipeline基礎部 対応数2013

対応数2014

利用方法の質問 65 45

エラー連絡 48 24

システム不具合の連絡 25 8

パスワード再発行 6 12

要望検討 5 0

合計 149 89

Pipeline高次部(P-Galaxy) 対応数 2013

対応数2014

利用方法の質問 8 3

エラー連絡 0 3

システム不具合の連絡 2 1

本家Galaxy(米国PSU)から連絡 2 0

要望検討 2 0

合計 14 7

実行後の結果消去までの日数 対応期間

90日 2010/7/30~2013/5/6

60日 2013/5/7~現在

>実行エラー(Job aborted) : 23 アップロードファイルの問題(名称、形式、中身破損) 10 システム不具合 9 オプション指定の誤り 4 >解析結果エラー(No output files) : 25 オプション指定の誤り 9 アップロードファイルの問題(名称、形式、中身破損) 7 メモリ不足 5 システム不具合 4

(4)DDBJのサポート

http://www.ddbj.nig.ac.jp/faq/

講習会、QAサイト

DDBJing講習会

・DB登録・ツール利用の実習

・定員30名

・ほぼ年2回開催

DBCLS ライフサイエンスQA

DDBJタグをサポート

http://www.ddbj.nig.ac.jp/ddbjing/dl.html

依頼により、貴組織で開催いたします。

(要Network接続環境)

メールマガジン・Twitter

御静聴をありがとうございました