12
大量NGSデータの並列処理と共用スパコンにおける環境構築の今後について 情報・システム研究機構 ライフサイエンス統合データベースセンター 大田 達郎 <[email protected]> prepared for 遺伝研DDBJスパコンユーザ会 July 22, 2014

遺伝研 Rina Aizawa ユーザミーティング

Embed Size (px)

DESCRIPTION

遺伝研DDBJスパコンユーザ会

Citation preview

Page 1: 遺伝研 Rina Aizawa ユーザミーティング

大量NGSデータの並列処理と共用スパコンにおける環境構築の今後について

情報・システム研究機構 ライフサイエンス統合データベースセンター

大田 達郎 <[email protected]> !

prepared for 遺伝研DDBJスパコンユーザ会 July 22, 2014

Page 2: 遺伝研 Rina Aizawa ユーザミーティング

Summary

‣ 遺伝研スパコンを利用し公開NGSデータ全てに対してバッチ処理を行い,DBの構築を行っています

!

‣ データ解析パイプラインの共有・再実行を行うためのVM/コンテナを利用した環境構築の調査・開発を行っています

Page 3: 遺伝研 Rina Aizawa ユーザミーティング

sra.dbcls.jp

Page 4: 遺伝研 Rina Aizawa ユーザミーティング

‣ 公開NGSデータに対してFastQCを実行し結果を回収・集計 ‣ DL可能なデータ全てが対象 ‣ ~2013年登録分まで完了 ‣ 総データ数 ‣ 452,144 Sequence Run (single or paired)

‣ 総データサイズ ‣ 745,802,769,612,172 (745T) 塩基対

公開NGSデータのリードクオリティDB

Page 5: 遺伝研 Rina Aizawa ユーザミーティング

‣ データ転送速度

‣ lftp mgetによる16GBのデータ転送 13:00.20 => 1:35.58 (x8.16)

‣ 同時並列実行数

‣ 64CPU => 3184CPU (x49.75)

既存計算機環境との差

Page 6: 遺伝研 Rina Aizawa ユーザミーティング

‣ ソフトウェアのバージョン管理の問題

‣ 共用環境ではインストールが難しい場合もある

‣ 現状は東大笠原さんのLPMを使わせて頂くなどで回避

‣ http://www.kasahara.ws/lpm/

‣ 大量のデータに対してひとつひとつ手作業?

課題: 論文に書かれたパイプラインを再現することが困難

Page 7: 遺伝研 Rina Aizawa ユーザミーティング

‣ VirtualMachine(VM)やコンテナで環境ごと解析パイプラインを共有

‣ イメージを展開してすぐに解析を始めることができる

‣ 環境構築とイメージ共有の技術調査/開発を行っています

‣ Amazon Web ServiceにおけるAMIの共有

‣ Docker Hubにおけるコンテナイメージの共有

‣ 遺伝研スパコンでもこれらと互換性を持たせたい

データ解析の再現性を担保するための解決策

Page 8: 遺伝研 Rina Aizawa ユーザミーティング

コードやソフトウェアと同じように解析環境を公開/共有

Page 9: 遺伝研 Rina Aizawa ユーザミーティング

コードやソフトウェアと同じように解析環境を公開/共有

$ docker run -d -p 8080:80 -t inutano/galaxy

Page 10: 遺伝研 Rina Aizawa ユーザミーティング

‣ イメージ共有で環境への依存がなくなると選択肢が増える

‣ 自分で購入した計算機

‣ 遺伝研スパコンなどの共用計算機リソース

‣ Amazon Web Service(AWS)などのInfrastructure as a Service(IaaS)

‣ 決め手は導入のコストとマシン構成,コスト

‣ AWSのコストがかなり下がったため選択肢として現実的に

‣ ルーチンな計算は遺伝研スパコンで(ただなので)

計算機プラットフォームの選択

Page 11: 遺伝研 Rina Aizawa ユーザミーティング

初期導入コスト 維持コスト 構成の柔軟性 信頼性/永続性 秘匿性 特徴

個別導入 ✕ ✕ ◯ △ ◯ 資金あれば制約なし

共用計算機資源 (NIGスパコン) ◯ ◯ △ △ ✕ DDBJのDBと直結

IaaS (クラウド) ◯ △ ◯ △ △ 必要な時に必要なだけ コストも年々下がる

ユーザ視点での各計算機環境のメリット比較

Page 12: 遺伝研 Rina Aizawa ユーザミーティング

Summary

‣ 遺伝研スパコンを利用し公開NGSデータ全てに対してバッチ処理を行うことでDBの構築を行っています

!

‣ データ処理/解析パイプラインの保存/永続化/再実行を行うためのVM/コンテナを利用した環境構築と公開DBの調査・開発を行っています