Upload
eli-kaminuma
View
732
Download
2
Embed Size (px)
Citation preview
DDBJとNIG Supercomputerの紹介、大量配列情報解析 by 神沼英里(国立遺伝学研究所)
All members of DNA Data Bank of Japan Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Naofumi Ishikawa, Chiharu Kawagoe, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Hisako Mashima, Fujitaka Matsumori, Kimiko Mimura, Hiroshi Miyazaki, Naoko Murakata, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Yukie Sakon, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Rie Sugita, Kimiko Suzuki, Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Emi Yokoyama, Masanori Arita, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura
第33回 DDBJing 講習会 in 東京 日時:2015年11月11日(水)10:00~17:00 場所:国立研究開発法人 科学技術振興機構(JST) 東京本部別館(K's 五番町)
http://www.ddbj.nig.ac.jp/
DDBJ(DNA Data Bank of Japan) は
国際塩基配列データベースの構築機関
・Daily exchange among three databanks
DDBJは、米国NCBI・欧EBIと協力して
データベースを運営(定期交換)
特許庁の塩基配列・アミノ酸配列も公開。 JPO (Japan Patent Office) KIPO (Korean Intellectual Property Office) EPO (European Patent Office) USPTO (United States Patent and Trademark Office)
サービス群
DDBJのデータベース①
Next-generation
Sequencer (NGS) Capillary Electrophoresis
Sequencer
DRA (DDBJ Sequence Read Archive)
DTA (DDBJ Trace Archive)
Archive DB for
raw data
Archive DB for
analyzed data
EBI (EMBL-Bank)
Sequence
NCBI (GenBank)
DDBJ
INSDC
collaboration
Quantitative data
GEO ArrayExpress
DDBJ Omics ARchive(DOR)
collaboration
DDBJ Pipeline
DDBJのデータベース③ Japanese Genotype-phenotype Archive
http://trace.ddbj.nig.ac.jp/jga/submission.html
個人に由来する次世代シークエンス、アレイ、解析データ (bam, vcf etc)、表現型情報を
受付・保存・提供
データ提供と利用をガイドラインに従って審査 7
2014年度 スパコンユーザ会資料(児玉)より
増え続けるデータ量 SR
A の
ファイルサイズ
(TB)
データベース数
Trace Archive
SRA
BioProject
JGA
BioSample
2014年度 スパコンユーザ会資料(児玉)より
DDBJ センター人員2015/09
アノテータ エンジニア
スタッフ 6 (センター長、教授3、助教2)
アノテータ 12 (Ph.D. 7)
DDBJ 事業運用エンジニア 9
遺伝研スパコン管理 6
広報・対外活動 3
企画調整 1
事務担当 2
合計 39
13 スパコンユーザ会資料(児玉)より
④Tutorials (※Japanese only)
②Computational resources
③A Web-based
analytical system for NGS reads
①Archive DB of NGS reads
DDBJ
Sequence
Read Archive
(DDBJ-SRA)
DDBJの大量配列解析用サービス
NIG Supercomputer
(Today’s topic)
DDBJ Pipeline
DDBJing seminar
Video tutorials
http://www.ustream.tv/channel/ddbjing-25
http://trace.ddbj.nig.ac.jp/dra/
http://p.ddbj.nig.ac.jp
https://www.youtube.com/user/DDBJvideo
④講習会開催 / QA対応
②計算機資源利用
③クラウド型大量配列解析ツール
①大量配列を保管
アーカイブデータベース
DDBJ-SRA
本日のデモ用ログインID・パスワード
遺伝研 新スパコン利用案内
DDBJ Pipeline
DDBJing講習会(2015年第31回分映像)
http://www.ddbj.nig.ac.jp/ddbjing/dl.html
DBCLSライフサイエンスQA, DDBJ tag
http://trace.ddbj.nig.ac.jp/D-way/ 登録システムデモ(D-way) Login ID: dradev Pasword: dradev01
Check current jobsボタンを押すと、
ゲストでログインhttp://p.ddbj.nig.ac.jp/
http://qa.lifesciencedb.jp/
稼働状況ログ
http://www.ddbj.nig.ac.jp/system/supercom/ supercom-intro.html (一般用) http://rgm2.lab.nig.ac.jp/wiki/index.php/Main_Page (玄人用)
http://www.ddbj.nig.ac.jp/system/supercom/supercom-util.html
遺伝研スーパーコンピュータ 構成概略
<世界で170位相当の性能> 2012年3月の測定で、82.9テラFLOPS(計算速度)、 2011年11月に統計された世界スパコンTop500ランキングとの性能比較による
2015/2/3 NIIオープンフォーラム資料(小笠原)より
利用案内:Just Now All Free!
http://sc.ddbj.nig.ac.jp/index.php/account-conditions
①責任者にアカウント・パスワード郵送
②年度末更新時に要報告書
NIGスパコンのユーザ登録
http://sc.ddbj.nig.ac.jp/
new registration for MiGAP (Web only)
new registration for supercomputer account (log in use)
new registration for DDBJ PipeLine (Web only)
request for software install
large-volume resource request
ログインから計算ノード利用のステップ
gw.ddbj.nig.ac.jp node
node
node
node
USER gateway server
computational servers
Qsub Jobs
ssh gw.ddbj.nig.ac.jp
qlogin
qsub ***
NIG Supercomputer (注:2015年からSSH公開鍵認証)
ジョブの状態確認と、混雑具合の確認
http://sc.ddbj.nig.ac.jp/index.php/ja-nig-statistics
check
http://www.slideshare.net/oogasawa
https://www.youtube.com/watch?v=p_FikxzF9Ms
■より詳しいNIGスパコン紹介映像 ■ガイド本
Ⅵ プロトコール データ解析と環境構築 1 解析環境を導入する スパコンの利用 【小笠原 理】
NIGスパコンの使い方ヘルプ
<clustalW>
系統樹生成
①前ページ matK配列をペースト
②実行
http://etetoolkit.org/treeview/
③Bootstrapped Tree 結果をコピー
④Bootstrapped Tree 結果をペースト
⑤実行
Sugawara H, Ohyama A, Mori H and Kurokawa K. Microbial Genome Annotation Pipeline (MiGAP) for diverse users. 20th Int. Conf. Genome Informatics (Kanagawa, Japan) 2009: S-001, p 1-2.
MiGAP(Micobial Genome Annotation Pipeline) De novo annotation of nucleotide sequences of prokaryotic and eukaryotic microbes
DDBJ Read Annotation Pipeline紹介
NGS大量配列のクラウド型解析システム(2009年度公開)
DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013)
→遺伝研スパコンをクラウド利用、10TB,2TB mem / 162 nodes / 100TB storage利用
高速
シークエンサ
Instrumentation data
Sequence + quality (fastq)
base calling
Contigs (Overlapping reads)
Scaffolds (Supercontigs)
+ Annotation
DDBJ Sequence Read Archive
CON
Complete genome - Annotation
DDBJ Pipeline
基礎処理部
MSS finishing/gap closure
annotation 通常 データ
WGS
メタデータ
データ
DRA Image data
>Seq1
AGTCGGGTGG . . . . [email protected] http://www.ddbj.nig.ac.jp/sub/trace_sra-j.html
mass-ftp ディスク送付
Contig 情報ファイル + アノテーションファイル
配列 + アノテーションファイル
自動アノテーション 結果
配列 + アノテーションファイル
mass-ftp 電子メール
大量登録システム
研究者による編集
Reference Genome Mapping
DDBJ Pipeline
高次処理部 (Annotation Tools)
PSU Galaxy Workflow Interface (Giardine et al., Genome Res 2005) ・SNP 検出/ 注釈 ・Contig 注釈 ・RNA-seq 解析
:
他のツール
De novo Assembly
登録ユーザ557名(14年7月)、年間約8000ジョブのサービスに発展
DDBJ Pipeline利用統計
▼新スパコン移行 ▼高次部Galaxy本格公開 ▼基礎部公開
裏歴史
<情報共有機能>→×(NGS現場の会始まる) (他Pipeline情報共有部の参考?)
<猛烈反響時代> ・民業圧迫!!(民間研究者) ・激励とダメ嵐(アカデミック研究者)
<Pipeline乱立時代> ・常連さん一部は他Pipelineへ →将来?
<セキュリティ強化へ> ・Pipeline基礎部GUI-Jar盗られる
計算機資源不足や解析支援員不足状況の 実験研究者を支援する!(←理念)
DDBJ Pipelineツール利用統計
マッピングツールは毎年bwaの利用が
最も多い。
Bowtie2、TopHat2は、2013年の
導入以降、利用数が急速に伸びている。
de novo アセンブルツールは
VelvetとTrini tyの利用が多い。
2014年春に導入した Platanus、HGAPの利用も伸びを見せている。
DDBJ Pipelineユーザ対応と管理
■2013年度ユーザ対応内訳(質問、連絡)
Pipeline基礎部 対応数2013
対応数2014
利用方法の質問 65 45
エラー連絡 48 24
システム不具合の連絡 25 8
パスワード再発行 6 12
要望検討 5 0
合計 149 89
Pipeline高次部(P-Galaxy) 対応数 2013
対応数2014
利用方法の質問 8 3
エラー連絡 0 3
システム不具合の連絡 2 1
本家Galaxy(米国PSU)から連絡 2 0
要望検討 2 0
合計 14 7
実行後の結果消去までの日数 対応期間
90日 2010/7/30~2013/5/6
60日 2013/5/7~現在
>実行エラー(Job aborted) : 23 アップロードファイルの問題(名称、形式、中身破損) 10 システム不具合 9 オプション指定の誤り 4 >解析結果エラー(No output files) : 25 オプション指定の誤り 9 アップロードファイルの問題(名称、形式、中身破損) 7 メモリ不足 5 システム不具合 4
講習会、QAサイト
DDBJing講習会
・DB登録・ツール利用の実習
・定員30名
・ほぼ年2回開催
DBCLS ライフサイエンスQA
DDBJタグをサポート
http://www.ddbj.nig.ac.jp/ddbjing/dl.html
依頼により、貴組織で開催いたします。
(要Network接続環境)