59
次世代シークエンスデータの登録 児玉 悠一 Kodama Yuichi, Ph.D DDBJ センター、アノテータ DDBJ center, annotator

[DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

Embed Size (px)

Citation preview

Page 1: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

次世代シークエンスデータの登録

児玉 悠一 Kodama Yuichi, Ph.D

DDBJ センター、アノテータ DDBJ center, annotator

Page 2: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

DDBJ センターが運営するデータベース

INSDC: オープンアクセスデータベース

個人レベルの遺伝型と表現型 JGA アクセス制限データベース

ヒトデータ審査委員会 DDBJ

アセンブリ

アノテーション

リード Quality value

アライメント (bam)

DRA

BioProject BioSample

第31回 DDBJing 講習会 (JST東京) 1

Page 3: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

SRA データモデル

SRA データは3つのデータベースにまたがる

第31回 DDBJing 講習会 (JST東京) 2

Page 4: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

BioProject

Page 5: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

http://www.ncbi.nlm.nih.gov/bioproject/PRJDA38027

ゲノム配列 SRA データ

Pubmed 論文情報

プロジェクト概要

プロジェクト単位でデータをまとめる

NCBI BioProject:

第31回 DDBJing 講習会 (JST東京) 4

Page 6: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

プロジェクトの定義は柔軟

第31回 DDBJing 講習会 (JST東京) 5

植物サンプルのゲノム配列と遺伝子発現を解析 三つの微生物株のゲノム配列を解析

Page 7: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

BioSample

Page 8: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

BioSample でサンプル情報を集中管理

データベースに散在していたサンプル情報を集中管理 サンプル記述を標準化

http://trace.ddbj.nig.ac.jp/biosample/index.html

第31回 DDBJing 講習会 (JST東京) 7

Page 9: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

属性 (attributes) でサンプルを記述

「属性名:値」のペアでサンプルを記述 (例: tissue:liver)

http://www.ncbi.nlm.nih.gov/biosample/1990977

パッケージ

サンプル属性

関連データ

タイトル

NCBI BioSample:

第31回 DDBJing 講習会 (JST東京) 8

Page 10: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

BioProject/BioSample でデータをまとめる

BioSample 1 BioSample 2

data

Umbrella BioProject

Genome BioProject

Transcriptome BioProject

Epigenome BioProject

data data data data data

データベースを横断してデータをまとめる

第31回 DDBJing 講習会 (JST東京) 9

Page 11: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

データ登録

Page 12: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

DRA 登録の流れ

第31回 DDBJing 講習会 (JST東京) 11

1. 「なぜ」そのサンプルを シークエンスしたのか 2. 「なに」をシークエンスしたのか

3. 「どのように」シークエンスしたのか

4. シークエンスの結果

Page 13: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

登録を始める前に

Page 14: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

D-way アカウントを取得しておく

D-way アカウントをウェブサイト (https://trace.ddbj.nig.ac.jp/D-way/) で取得 公開鍵と center name をアカウントに登録し、DRA 登録権限を取得

DRA

BioProject BioSample

公開鍵 と center name を D-way アカウントに登録

http://trace.ddbj.nig.ac.jp/book/account.html 登録アカウント Handbook:

center name : SRA が組織に運用上割り振っている略号 公開鍵 : 秘密鍵とペアでユーザの認証に使用される

第31回 DDBJing 講習会 (JST東京) 13

Page 15: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

予めメタデータの構成を決めておく

登録する前に必要な BioProject・BioSample・Experiment・Run の数を決めておく サンプル数 (≦ Experiment/Run 数) から考えると分かりやすい

1. 最もシンプルな登録 2. 三つの菌株の比較ゲノム解析

http://trace.ddbj.nig.ac.jp/dra/submission.html#オブジェクトの構成例

メタデータ: シークエンスデータがどのようにして得られたのかを説明するデータ

第31回 DDBJing 講習会 (JST東京) 14

Page 16: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

登録手順

Page 17: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

次世代シークエンスデータの登録フロー DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 16

DRA Run の作成

Page 18: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

次世代シークエンスデータの登録フロー DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 17

DRA Run の作成

Page 19: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

DRA 新規登録の作成

登録アカウントにログインし、新規 DRA 登録を作成 DRA ファイル受付サーバに対応するディレクトリが作成される

第31回 DDBJing 講習会 (JST東京) 18

Page 20: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

次世代シークエンスデータの登録フロー DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 19

DRA Run の作成

Page 21: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

データファイルの転送

鍵認証で DRA ファイル受付サーバにアクセスし、 データファイルを新規登録に対応するディレクトリにアップロード

DRA ファイル受付サーバ

秘密鍵 公開鍵

DRA 新規登録

シークエンスデータファイル (fastq, bam etc)

http://trace.ddbj.nig.ac.jp/dra/submission.html#シークエンスデータのアップロード

ファイル名に空白を含めない サブディレクトリをつくらない ディスク郵送には対応していますが、登録処理に時間がかかります

第31回 DDBJing 講習会 (JST東京) 20

Page 22: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

次世代シークエンスデータの登録フロー DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 21

DRA Run の作成

Page 23: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

メタデータ作成ツールを起動

DRA 登録リストから登録ページへ移動し、メタデータ作成ツールを起動

第31回 DDBJing 講習会 (JST東京) 22

ファイルがアップロードされていないとエラーになります

Page 24: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

BioProject の作成

作成済みのプロジェクトを選択 or 新規作成

第31回 DDBJing 講習会 (JST東京) 23

Page 25: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

BioProject 登録管理情報の入力

登録者情報(名前、メールアドレス、所属組織) 即日公開 or 非公開を選択 (公開予定日は指定できない)

第31回 DDBJing 講習会 (JST東京) 24

アカウントの所有者情報がコピーされます

Page 26: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

BioProject の投稿

プロジェクト (概要・研究費・プロジェクトのタイプなど) を入力 内容を入力して投稿

第31回 DDBJing 講習会 (JST東京) 25

アノテーション付きゲノム配列を登録する場合、Locus tag prefix を取得します

Page 27: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

プロジェクトの選択

新規作成したプロジェクトが選択された状態になります

第31回 DDBJing 講習会 (JST東京) 26

Page 28: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

次世代シークエンスデータの登録フロー DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 27

DRA Run の作成

Page 29: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 28

作成済みのサンプルを選択 or 新規作成

Page 30: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

BioSample 登録管理情報の入力

第31回 DDBJing 講習会 (JST東京) 29

登録者情報(名前、メールアドレス、所属組織) 即日公開 or 非公開を選択 (公開予定日は指定できない)

BioProject の登録管理情報がコピーされます

Page 31: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

サンプルの種類を選択

サンプルの種類 (Sample type) に応じた属性セット

http://trace.ddbj.nig.ac.jp/biosample/attribute.html サンプル属性一覧:

第31回 DDBJing 講習会 (JST東京) 30

例: ゲノムの場合 num_replicons が必須

Page 32: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

サンプル属性を記載

Sample type に対応したタブ区切りのテキストファイルをダウンロード エクセルなどで1行に1サンプルの情報を入力し、テキストファイルをアップロード

必須属性に対する値がない場合は “missing” などを記入

第31回 DDBJing 講習会 (JST東京) 31

Page 33: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

サンプルを投稿

属性ファイルの内容を確認し投稿

第31回 DDBJing 講習会 (JST東京) 32

Page 34: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

サンプルの選択

第31回 DDBJing 講習会 (JST東京) 33

新規作成したサンプルが選択された状態になります

Page 35: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

次世代シークエンスデータの登録フロー DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 34

DRA Run の作成

Page 36: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

DRA 登録管理情報の作成

登録者情報と公開予定日 (2年後まで指定可能) を記入

第31回 DDBJing 講習会 (JST東京) 35

BioProject の登録管理情報がコピーされます

Page 37: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

DRA Experiment の作成

デフォルトで選択した BioSample を参照している Experiment が作成される サンプルから構築したライブラリー、シークエンサーやリード長について記入

第31回 DDBJing 講習会 (JST東京) 36

タブ区切りテキストファイルで まとめて内容を作成することができます

Page 38: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

次世代シークエンスデータの登録フロー DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 37

DRA Run の作成

Page 39: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

DRA Run の作成

第31回 DDBJing 講習会 (JST東京) 38

タブ区切りテキストファイルで まとめて内容を作成することができます

デフォルトで作成した Experiment と同数の Run が作成される

Run に含まれるデータファイルを記述

Page 40: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

DRA メタデータの投稿

メタデータ作成後 [Submit/Update DRA metadata] をクリックして投稿 オブジェクト相互が過不足なく参照されているかどうかチェックされます

第31回 DDBJing 講習会 (JST東京) 39

Page 41: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

次世代シークエンスデータの登録フロー DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 40

DRA Run の作成

Page 42: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

データファイルの検証処理

データファイルの形式とメタデータとの整合性が検証され、 アーカイブ用の SRA ファイルが作成されます

第31回 DDBJing 講習会 (JST東京) 41

検証処理を開始

Page 43: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

よくある検証処理エラー

合計長を記入 (例 Forward 100 + Reverse 100 = 200)

ファイルが破損している場合は再度ファイルをアップロード

空白を除去

サブディレクトリを含めず、ファイルそのものをアップロード

配列長が一定のペアリードで Experiment.Spot Length にペアの合計 配列長が記入されていない

メタデータ中の md5 値と転送されたファイルの md5 値が異なる

アップロードされたデータファイル名に空白が含まれている

サブディレクトリを含んでいる

第31回 DDBJing 講習会 (JST東京) 42

Page 44: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

次世代シークエンスデータの登録フロー DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第31回 DDBJing 講習会 (JST東京) 43

DRA Run の作成

Page 45: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

アクセッション番号の発行

BioProject (PRJDB) BioSample (SAMD) Submission (DRA), Experiment (DRX), Run (DRR)

第31回 DDBJing 講習会 (JST東京) 44

Page 46: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

データの公開と更新 BioProject・BioSample・DRA

Page 47: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

BioProject と BioSample の連動公開

塩基配列データの公開は参照している BioProject/BioSample の公開を引き起こす BioProject/BioSample の公開は参照元の塩基配列データの公開を引き起こさない

BioProject/BioSample 公開

DRA/DDBJ 塩基配列データ 公開

BioProject/BioSample 公開

DRA/DDBJ 塩基配列データ 非公開

http://trace.ddbj.nig.ac.jp/bioproject/submission.html#データ公開

第31回 DDBJing 講習会 (JST東京) 46

Page 48: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

データの公開

公開されたデータはミラーされ DDBJ/EBI/NCBI で利用できるようになります

DDBJ DRASearch

NCBI BioProject

NCBI BioSample

NCBI SRA

第31回 DDBJing 講習会 (JST東京) 47

Page 49: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

データの更新

更新内容を BioProject チームに連絡 関連する論文が公開されたら pubmed ID などの文献情報を連絡

BioProject

BioSample

DRA

更新内容を BioSample チームに連絡 Sample name は ID として使用しているため変更不可

メタデータの内容と公開予定日はアカウントにログインし、自身で変更 データファイルの追加: 新規登録を作成し、既存のオブジェクトを参照する

Do it yourself

Request by e-mail

第31回 DDBJing 講習会 (JST東京) 48

Page 50: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

お問い合わせ先

http://trace.ddbj.nig.ac.jp/contact.html

登録について問い合わせる場合には D-way アカウント名と データの ID をお知らせください

第31回 DDBJing 講習会 (JST東京) 49

Page 51: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

補足

Page 52: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

プロジェクト番号でデータが関連付けられる

同じプロジェクト番号を参照しているデータが関連付けられる

DDBJ

DRA

リード Quality value

アノテーション

BioProject

第31回 DDBJing 講習会 (JST東京) 51

Page 53: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2015年6月12日

アンブレラプロジェクトの活用

アンブレラプロジェクト (非公開にできない) でプロジェクトをまとめる 大規模プロジェクトからの成果を整理して提示することができる 初期段階でアンブレラを取得し、関係者に周知することを推奨

DDBJ 側では申告されないとアンブレラとの関係が分からない

http://trace.ddbj.nig.ac.jp/bioproject/submission.html#アンブレラプロジェクトの活用

アンブレラ

プライマリー

第31回 DDBJing 講習会 (JST東京) 52

Page 54: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2014年6月12日

微生物ゲノム配列の登録

Strain-level taxonomy ID にかわり BioSample 微生物ゲノムを識別

BioProject BioSample Strain: 1 Locus tag prefix: AAAA1

BioSample Strain: 2 Locus tag prefix: AAAA2

BioSample Strain: 3 Locus tag prefix: AAAA3

BioProject Strain: 1 Locus tag prefix: AAAA1 Strain-level taxonomy ID: 10

BioProject Strain: 2 Locus tag prefix: AAAA2 Strain-level taxonomy ID: 11

BioProject Strain: 3 Locus tag prefix: AAAA3 Strain-level taxonomy ID: 12

Species-level taxonomy ID: 100

Federhen S et al. Stand Genomic Sci (2014) doi: 10.4056/sigs.4851102

2014年2月以前

2014年2月以降

Genome

Genome

Genome

Bacteria: A Strain: 1

Bacteria: A Strain: 2

Bacteria: A Strain: 3

Genome

Genome

Genome

Bacteria: A Strain: 1

Bacteria: A Strain: 2

Bacteria: A Strain: 3

第31回 DDBJing 講習会 (JST東京) 53

Page 55: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2014年6月12日

Biological/technical replicates

BioSample ではなく SRA Experiment で表現することを推奨

http://trace.ddbj.nig.ac.jp/dra/faq.html#samples-for-sra

第31回 DDBJing 講習会 (JST東京) 54

Page 56: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2014年6月12日

別々の論文に発表する場合

論文ごとに BioProject を分けると別々にデータを公開することができる

第31回 DDBJing 講習会 (JST東京) 55

Page 57: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2014年6月12日

アカウント外の BioProject/BioSample を参照

アカウントをまたがった参照を希望する場合は DRA チームに連絡 参照元と先、双方の登録者の承認が必要 連動公開に注意

第31回 DDBJing 講習会 (JST東京) 56

Page 58: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2014年6月12日

データファイルの追加

新しい DRA 登録から既存の BioProject を参照することでデータを追加

http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイルの追加

第31回 DDBJing 講習会 (JST東京) 57

Page 59: [DDBJing31] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

2014年6月12日

ファイルの破損を md5 値でチェック

md5 値が一致 : ファイルの破損なし md5 値が不一致 : ファイルの破損あり

DRA ファイル受付サーバ

md5 値

md5 値

md5 値

md5 値 =

md5 値 : ファイルに固有の32桁の英数字からなるハッシュ値

http://trace.ddbj.nig.ac.jp/dra/submission.html#補足__MD5_値

第31回 DDBJing 講習会 (JST東京) 58