[DDBJing33] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

Preview:

Citation preview

BioProject, BioSample, DDBJ Sequence Read Archive の紹介

福田 亜沙美Fukuda Asami

DDBJ センター、アノテータDDBJ center, annotator

2015年11月11日

DDBJ センターが運営するデータベース

INSDC: オープンアクセスデータベース

個人レベルの遺伝型と表現型

JGA

アクセス制限データベース

ヒトデータ審査委員会

DDBJ

アセンブリ

アノテーション

リード

Quality value

アライメント

(bam)

DRA

BioProjectBioSample

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

SRA データモデル

SRA データは3つのデータベースにまたがる

第33回 DDBJing 講習会 (JST東京)

BioProject

2015年11月11日

http://www.ncbi.nlm.nih.gov/bioproject/PRJDA38027

ゲノム配列SRA データ

Pubmed 論文情報

プロジェクト概要

プロジェクト単位でデータをまとめる

NCBI BioProject:

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

プロジェクトの定義は柔軟

第33回 DDBJing 講習会 (JST東京)

植物サンプルのゲノム配列と遺伝子発現を解析 三つの微生物株のゲノム配列を解析

BioSample

2015年11月11日

BioSample でサンプル情報を集中管理

データベースに散在していたサンプル情報を集中管理

サンプル記述を標準化

http://trace.ddbj.nig.ac.jp/biosample/index.html

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

属性 (attributes) でサンプルを記述

「属性名:値」のペアでサンプルを記述 (例: tissue:liver)

http://www.ncbi.nlm.nih.gov/biosample/1990977

パッケージ

サンプル属性

関連データ

タイトル

NCBI BioSample:

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

BioProject/BioSample でデータをまとめる

BioSample 1 BioSample 2

data

Umbrella BioProject

GenomeBioProject

TranscriptomeBioProject

EpigenomeBioProject

data data data data data

データベースを横断してデータをまとめる

第33回 DDBJing 講習会 (JST東京)

データ登録の流れ

2015年11月11日

DRA 登録の流れ

第33回 DDBJing 講習会 (JST東京)

1. 「なぜ」そのサンプルをシークエンスしたのか 2. 「なに」をシークエンスしたのか

3. 「どのように」シークエンスしたのか

4. シークエンスの結果

登録を始める前に

2015年11月11日

D-way アカウントを取得しておく

D-way アカウントをウェブサイト (https://trace.ddbj.nig.ac.jp/D-way/) で取得

公開鍵と center name をアカウントに登録し、DRA 登録権限を取得

DRA

BioProject BioSample

公開鍵 と center name を

D-way アカウントに登録

http://trace.ddbj.nig.ac.jp/book/account.html登録アカウント Handbook:

center name : SRA が組織に運用上割り振っている略号

公開鍵 : 秘密鍵とペアでユーザの認証に使用される

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

予めメタデータの構成を決めておく

登録する前に必要な BioProject・BioSample・Experiment・Run の数を決めておく

サンプル数 (≦ Experiment/Run 数) から考えると分かりやすい

1. 最もシンプルな登録 2. 三つの菌株の比較ゲノム解析

http://trace.ddbj.nig.ac.jp/dra/submission.html#オブジェクトの構成例

メタデータ: シークエンスデータがどのようにして得られたのかを説明するデータ

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

今回の登録例

枯草菌3株のゲノム配列をペアードエンドでシークエンスしたデータ

第33回 DDBJing 講習会 (JST東京)

登録手順

2015年11月11日

次世代シークエンスデータの登録フロー

DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

DRA Run の作成

2015年11月11日

次世代シークエンスデータの登録フロー

DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

DRA Run の作成

2015年11月11日

DRA 新規登録の作成

登録アカウントにログインし、新規 DRA 登録を作成

DRA ファイル受付サーバに対応するディレクトリが作成される

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

次世代シークエンスデータの登録フロー

DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

DRA Run の作成

2015年11月11日

データファイルの転送

鍵認証で DRA ファイル受付サーバにアクセスし、

データファイルを新規登録に対応するディレクトリにアップロード

DRA ファイル受付サーバ

秘密鍵 公開鍵

DRA 新規登録

シークエンスデータファイル(fastq, bam etc)

http://trace.ddbj.nig.ac.jp/dra/submission.html#シークエンスデータのアップロード

ファイル名に空白を含めない

サブディレクトリをつくらない

ディスク郵送には対応していますが、登録処理に時間がかかります

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

次世代シークエンスデータの登録フロー

DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

DRA Run の作成

2015年11月11日

メタデータ作成ツールを起動

DRA 登録リストから登録ページへ移動し、メタデータ作成ツールを起動

第33回 DDBJing 講習会 (JST東京)

ファイルがアップロードされていないとエラーになります

2015年11月11日

BioProject の作成

作成済みのプロジェクトを選択 or 新規作成

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

BioProject 登録管理情報の入力

登録者情報(名前、メールアドレス、所属組織)

即日公開 or 非公開を選択 (公開予定日は指定できない)

第33回 DDBJing 講習会 (JST東京)

アカウントの所有者情報がコピーされます

2015年11月11日

BioProject の投稿

プロジェクト (概要・研究費・プロジェクトのタイプなど) を入力

内容を入力して投稿

第33回 DDBJing 講習会 (JST東京)

アノテーション付きゲノム配列を登録する場合、Locus tag prefix を取得します

2015年11月11日

プロジェクトの選択

新規作成したプロジェクトが選択された状態になります

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

次世代シークエンスデータの登録フロー

DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

DRA Run の作成

2015年11月11日

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

作成済みのサンプルを選択 or 新規作成

2015年11月11日

BioSample 登録管理情報の入力

第33回 DDBJing 講習会 (JST東京)

登録者情報(名前、メールアドレス、所属組織)

即日公開 or 非公開を選択 (公開予定日は指定できない)

BioProject の登録管理情報がコピーされます

2015年11月11日

サンプルの種類を選択

サンプルの種類 (Sample type) に応じた属性セット

http://trace.ddbj.nig.ac.jp/biosample/attribute.htmlサンプル属性一覧:

第33回 DDBJing 講習会 (JST東京)

例: ゲノムの場合 num_replicons が必須

2015年11月11日

サンプル属性を記載

Sample type に対応したタブ区切りのテキストファイルをダウンロード

エクセルなどで1行に1サンプルの情報を入力し、テキストファイルをアップロード

必須属性に対する値がない場合は “missing” などを記入

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

サンプルを投稿

属性ファイルの内容を確認し投稿

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

サンプルの選択

第33回 DDBJing 講習会 (JST東京)

新規作成したサンプルが選択された状態になります

2015年11月11日

次世代シークエンスデータの登録フロー

DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

DRA Run の作成

2015年11月11日

DRA 登録管理情報の作成

登録者情報と公開予定日 (2年後まで指定可能) を記入

第33回 DDBJing 講習会 (JST東京)

BioProject の登録管理情報がコピーされます

2015年11月11日

DRA Experiment の作成

デフォルトで選択した BioSample を参照している Experiment が作成される

サンプルから構築したライブラリー、シークエンサーやリード長について記入

第33回 DDBJing 講習会 (JST東京)

タブ区切りテキストファイルでまとめて内容を作成することができます

2015年11月11日

次世代シークエンスデータの登録フロー

DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

DRA Run の作成

2015年11月11日

DRA Run の作成

第33回 DDBJing 講習会 (JST東京)

タブ区切りテキストファイルでまとめて内容を作成することができます

デフォルトで作成した Experiment と同数の Run が作成される

Run に含まれるデータファイルを記述

2015年11月11日

DRA メタデータの投稿

メタデータ作成後 [Submit/Update DRA metadata] をクリックして投稿

オブジェクト相互が過不足なく参照されているかどうかチェックされます

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

次世代シークエンスデータの登録フロー

DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

DRA Run の作成

2015年11月11日

データファイルの検証処理

データファイルの形式とメタデータとの整合性が検証され、

アーカイブ用の SRA ファイルが作成されます

第33回 DDBJing 講習会 (JST東京)

検証処理を開始

2015年11月11日

よくある検証処理エラー

合計長を記入 (例 Forward 100 + Reverse 100 = 200)

ファイルが破損している場合は再度ファイルをアップロード

空白を除去

サブディレクトリを含めず、ファイルそのものをアップロード

配列長が一定のペアリードで Experiment.Spot Length にペアの合計

配列長が記入されていない

メタデータ中の md5 値と転送されたファイルの md5 値が異なる

アップロードされたデータファイル名に空白が含まれている

サブディレクトリを含んでいる

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

次世代シークエンスデータの登録フロー

DRA 新規登録の作成

データファイルの転送

DRA Experiment の作成

データファイルの検証処理

アクセッション番号発行

BioProject の作成

BioSample の作成

第33回 DDBJing 講習会 (JST東京)

DRA Run の作成

2015年11月11日

アクセッション番号の発行

BioProject (PRJDB)

BioSample (SAMD)

Submission (DRA), Experiment (DRX), Run (DRR)

第33回 DDBJing 講習会 (JST東京)

データの公開と更新BioProject・BioSample・DRA

2015年11月11日

BioProject と BioSample の連動公開

塩基配列データの公開は参照している BioProject/BioSample の公開を引き起こす

BioProject/BioSample の公開は参照元の塩基配列データの公開を引き起こさない

BioProject/BioSample公開

DRA/DDBJ 塩基配列データ

公開

BioProject/BioSample公開

DRA/DDBJ 塩基配列データ

非公開

http://trace.ddbj.nig.ac.jp/bioproject/submission.html#データ公開

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

データの公開

公開されたデータはミラーされ DDBJ/EBI/NCBI で利用できるようになります

DDBJ DRASearch

NCBI BioProject

NCBI BioSample

NCBI SRA

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

データの更新

更新内容を BioProject チームに連絡

関連する論文が公開されたら pubmed ID などの文献情報を連絡

BioProject

BioSample

DRA

更新内容を BioSample チームに連絡

Sample name は ID として使用しているため変更不可

メタデータの内容と公開予定日はアカウントにログインし、自身で変更

データファイルの追加: 新規登録を作成し、既存のオブジェクトを参照する

Do it yourself

Request by e-mail

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

お問い合わせ先

http://trace.ddbj.nig.ac.jp/contact.html

登録について問い合わせる場合には D-way アカウント名と

データの ID をお知らせください

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

アノテータ募集中

第33回 DDBJing 講習会 (JST東京)

http://www.ddbj.nig.ac.jp/whatsnew/wn151014-j.html

補足

2015年11月11日

プロジェクト番号でデータが関連付けられる

同じプロジェクト番号を参照しているデータが関連付けられる

DDBJ

DRA

リード

Quality value

アノテーション

BioProject

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

アンブレラプロジェクトの活用

アンブレラプロジェクト (非公開にできない) でプロジェクトをまとめる

大規模プロジェクトからの成果を整理して提示することができる

初期段階でアンブレラを取得し、関係者に周知することを推奨

DDBJ 側では申告されないとアンブレラとの関係が分からない

http://trace.ddbj.nig.ac.jp/bioproject/submission.html#アンブレラプロジェクトの活用

アンブレラ

プライマリー

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

微生物ゲノム配列の登録

Strain-level taxonomy ID にかわり BioSample 微生物ゲノムを識別

BioProject BioSampleStrain: 1Locus tag prefix: AAAA1

BioSampleStrain: 2Locus tag prefix: AAAA2

BioSampleStrain: 3Locus tag prefix: AAAA3

BioProjectStrain: 1Locus tag prefix: AAAA1Strain-level taxonomy ID: 10

BioProjectStrain: 2Locus tag prefix: AAAA2Strain-level taxonomy ID: 11

BioProjectStrain: 3Locus tag prefix: AAAA3Strain-level taxonomy ID: 12

Species-level taxonomy ID: 100

Federhen S et al. Stand Genomic Sci (2014) doi: 10.4056/sigs.4851102

2014年2月以前

2014年2月以降

Genome

Genome

Genome

Bacteria: AStrain: 1

Bacteria: AStrain: 2

Bacteria: AStrain: 3

Genome

Genome

Genome

Bacteria: AStrain: 1

Bacteria: AStrain: 2

Bacteria: AStrain: 3

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

Biological/technical replicates

BioSample ではなく SRA Experiment で表現することを推奨

http://trace.ddbj.nig.ac.jp/dra/faq.html#samples-for-sra

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

別々の論文に発表する場合

論文ごとに BioProject を分けると別々にデータを公開することができる

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

アカウント外の BioProject/BioSample を参照

アカウントをまたがった参照を希望する場合は DRA チームに連絡

参照元と先、双方の登録者の承認が必要

連動公開に注意

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

データファイルの追加

新しい DRA 登録から既存の BioProject を参照することでデータを追加

http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイルの追加

第33回 DDBJing 講習会 (JST東京)

2015年11月11日

ファイルの破損を md5 値でチェック

md5 値が一致 : ファイルの破損なし

md5 値が不一致 : ファイルの破損あり

DRA ファイル受付サーバ

md5 値

md5 値

md5 値

md5 値=

md5 値 : ファイルに固有の32桁の英数字からなるハッシュ値

http://trace.ddbj.nig.ac.jp/dra/submission.html#補足__MD5_値

第33回 DDBJing 講習会 (JST東京)

Recommended