25
バババババババババババババババ ババババババババババババババ 2014.08.07

バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

  • Upload
    aquila

  • View
    29

  • Download
    0

Embed Size (px)

DESCRIPTION

バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07. 全体の流れ. サンプル DNA ↓  シーケンシング シーケンスリード ( fastq ファイル ) ↓  アセンブル コンティグ / スキャフォルド ↓  遺伝子予測 遺伝子塩基配列 ↓  翻訳 遺伝子 アミノ酸配列 ↓  類似配列データベース 検索 機能予測. 本日の演習はここから. 見つかった遺伝子をタンパク質立体構造データベース (PDB) から 探して立体構造を 表示させる。. ショットガンシーケンシング. 染色体 DNA. ↓  水流などでランダムに断片化. - PowerPoint PPT Presentation

Citation preview

Page 1: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

バイオインフォマティクス研修会

ゲノム配列解析および機能解析

2014.08.07

Page 2: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

全体の流れサンプル DNA

  ↓ シーケンシング

シーケンスリード (fastq ファイル )

  ↓ アセンブル

コンティグ / スキャフォルド

  ↓ 遺伝子予測

遺伝子塩基配列

  ↓ 翻訳

遺伝子アミノ酸配列

  ↓ 類似配列データベース検索

機能予測

本日の演習はここから

見つかった遺伝子をタンパク質立体構造データベース (PDB) から探して立体構造を表示させる。

Page 3: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

ショットガンシーケンシング

染色体 DNA

↓  水流などでランダムに断片化

↓  特定の長さの断片のみを回収

↓  断片の末端を 250 塩基ずつだけ解読

ショートリード

断片化 DNA

Page 4: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

ゲノムアセンブリ

↓  同じ部分配列をのりしろとしてリードを繋ぎ合わせる

↓  間の配列が読まれていなくても橋渡しされていれば並べる

ショートリード

コンティグ

スキャフォルド

理想的には元のゲノム配列全長を復元できる     (いつもそううまくいくとは限らない?)

Page 5: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

作業の準備 .1必要なファイルはここにありますhttps://archive.iii.kyushu-u.ac.jp/public/LXTkAARII05AftUBucxHdxakaWn1UpLzfLejV5-Tb9p7

ブラウザに URL を貼り付けて、各自ファイルをダウンロードしてください。

ショートリードの fastq ファイル。 P1 と P2 がペアになっている。

タブレット(アセンブル結果表示ソフト)velvet ( アセンブラ ) 。

velvet.cmd はなくてもよい。

contig から遺伝子配列を切り出すためのプログラム

}

}

Page 6: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

基本的な UNIX コマンド

コマンドの例 :  ls ファイルやディレクトリ ( フォルダ ) のリストを表示。  pwd カレントディレクトリ ( 今注目しているディレクトリ ) の絶対パス ( 住所 ) を表示。  cd カレントディレクトリを変更。  cd Desktop “Desktop” というディレクトリに移動  cd .. 親ディレクトリ ( ひとつ上の階層のディレクトリ ) に移動  cd ~ 自分のホームディレクトリに移動 (= cd)  less テキストファイルの内容を表示。 less P1_10k.fq 等とファイルを指定する。

実行後は、 [enter] で 1 行送り、 [B] で 1 行戻し、 [space] で 1画面送り、 [Q] で終了。

コマンドの打ち間違い等で反応しなくなっても、 [control]+[C] で強制終了できる。

画面下の「ターミナル」をクリックするとコマンドラインが現れる。Mac ではほとんどの UNIX コマンドを実行可能。

Page 7: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

タブレット「 tablet_macos_1_14_04_10.dmg 」はインストールが必要です。ダブルクリックして進めて行き、インストール先には /Applications ではなく自分のホームディレクトリを指定してください。ホームディレクトリはコマンドラインで  cd  pwdと打てば表示されます。それを copy&paste してください。

その他のファイルは Downloads ディレクトリにありますので全てホームディレクトリへ移します。  mv Downloads/* .とコマンドを打つ(警告は無視)か、マウス操作で移動させてください。

extract, velvetg, velveth はプログラムですので予め実行可能の印を付けておきます。  chmod u+x extract velvetg velvethこの時点でメッセージは出ませんが、./extract 等と打って使用方法の英文が出てくれば成功です。

作業の準備 .2

Page 8: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

ショートリード (fastq ファイル )

@M01347:38:000000000-A55N6:1:1101:12076:6805 1:N:0:1TTGGGAGCGTGCTGGTGCTGATGCTTCCTCTGCTGGTATGGTTGACGCCGGATTTGAGAATCAAAAAGAGCTTACTAAAATGCAACTGGACAATCAGAAA+CCCCCCCCCCCCGGGGGGGGGGHHGHHHHHHHHHHHHHHHHHHGHHGGGGGGGGHHHGHHHHHHHHHGGHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH@M01347:38:000000000-A55N6:1:1101:8798:6836 1:N:0:1TCTACCACATCTATTGACATTATGGGTCTGCAAGCTGCTTATGCTAATTTGCATACTGACCAAGAACGTGATTACTTCATGCAGCGTTACCATGATGTTA+FFB/FCBGFB;0FBFB0FBFFF?GEGGGFEFFFBFBBC0HHGFFHHFCHHEGHHGHHGHHHGGHHHGHHHGHFHGHEHFHDGDCGHHHGHGHHHHFGHHH@M01347:38:000000000-A55N6:1:1101:10079:6918 1:N:0:1ATGCAAAATGAGACTCAAAAAGAGATTGCTGGCATTCAGTCGGCGACTTCACGCCAGAATACGAAAGACCAGGTATATGCACAAAATGAGATGCTTGCTT+CCDEEFFFFFFFGGGGGGGGGGGHHHHHHHHHGHHHHHHHHGGGGGGGGHHHHHGGGHHHHHHGHGGHHHHHGHHHHHHHHHHHHHHHHHHHHHHHHHHH

塩基配列

クォリティ

リード ID

PC の文字コード33 59 64 73 104 126 | | | | | | !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL.................................................... | | | | 0.2......................26...31........41

クォリティ (QV)

L - Illumina 1.8+ Phred+33, raw reads typically (0, 41)

例 ) ある塩基の QV が「 H 」なら、 H→39なので、 エラー率 p = 10^(-3.9) 1/8000≒

 その塩基は 8000 個に 1 個の確率で 誤りであるということを表している。

クォリティ QV = -10 log ( エラー率 p)     数字が大きいほどエラー率が低い (=正確 )

コマンド less P1_10k.fq や less P2_10k.fq で中身を見ることができる。

Page 9: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

ゲノムアセンブリ

Velvet アセンブラ(無償ソフトウェア)を用いる。

Velvet は velveth と velvetg の2つのプログラムから成っている。  velveth : リードを細分化して「のりしろ」のリストを準備する。  velvetg : 「のりしろ」を繋ぎ合わせて長いコンティグやスキャフォルドを作る。

./velveth asm201 201 -fastq -shortPaired –separate P1_10k.fq P2_10k.fq

./velvetg asm201 -scaffolding yes -exp_cov auto -amos_file yes 結果が書き出された asm201 ディレクトリに入るには cd asm201 と打つ。戻るには cd .. 。 ls コマンドでファイルの一覧が表示される。

ここで重要なファイルは、  contigs.fa : コンティグ配列  velvet_asm.afg :  リードアライメント ( コンティグの構成リードを 1 本 1 本重ね合わせたもの )

リード結果の保存先 のりしろの長さ

Page 10: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

アライメントビューワtablet を用いてアライメント ( リードの重なり ) を確認する。

これをダブルクリックまたはコマンド open ~/Tablet.app で実行

読み込むファイルは、asm201 内の velvet_asm.afg

見たい contig を選択。今回は1つしかない。

ソフトウェアにバグがあり、最初の部分だけデタラメに見える(アライメントされなかった仲間外れのリードが表示されてしまう)

Page 11: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

リードアライメント

概要表示から見たい部分を押せばフォーカスが移動する

スクロールバー

ズームの調整や Variants( エラー ) の強調コンティグは多数のリードから成っている

コンティグ構築の際には、多数決で塩基が決定される。

よく見ると所々に誤りが…

欠失エラー

置換エラー

Page 12: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

コンティグ配列

>NODE_1_length_5386_cov_122.646118CTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTGATAAAAGATTGAGTGTGAGGTTATAACGCCGAAGCGGTAAAAATTTTAATTTTTGCCGCTGAGGGGTTGACCAAGCGAAGCGCGGTAGGTTTTCTGCTTAG

GCTGAGGGTCAGTGGTATCGTTATGCGCCTTCGTATGTTTCTCCTGCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTga

less contigs.fa と打てば表示される。

カバレッジ (平均して何本のリードが重なっているか )

コンティグ番号

配列の長さ

> から始まる行 (ヘッダ ) に配列の情報が書かれている。今回は長さ 5,386 bp のコンティグ 1 本にまで全長が繋がった。小文字はクォリティが低い塩基。

Page 13: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

遺伝子予測Glimmer 3.02 (無償ソフトウェア)のウェブ版を用いて、コンティグ配列上から遺伝子を探す。http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi

ここを押して実行

contigs.fa ファイルを指定。

または contigs.fa 内の塩基配列をここに copy&paste してもよい。

Page 14: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

遺伝子配列の切り出し

contigs.fa から遺伝子領域を切り出すには、  ~/extract ~/asm201/contigs.fa ~/orf.txt > ~/nuc.txtとコマンドを打つ。nuc.txt に各遺伝子の塩基配列が保存される。

nuc.txt の内容を見るには less nuc.txt

orf から始まるすべての行をテキストエディットに copy&paste する。

フォーマットを標準テキストに変更してから、[command] + [S] で保存する。保存場所はホームディレクトリに。 ([command] + [shift] + [H])ファイル名は orf.txt とする。

GLIMMER (ver. 3.02; iterated) predictions: orfID start end frame score-------- ----- ----- -- ----->NODE_1_length_5386_cov_122.646118orf00001 5583 200 +3 5.68orf00002 311 838 +2 11.73orf00004 847 1833 +1 9.11orf00007 1870 3438 +1 6.85orf00009 3692 4150 +2 3.82orf00010 4150 4266 +1 5.41orf00011 4303 5586 +1 11.84

見つかった遺伝子の位置と方向だけが書かれている。それを元にコンティグから切り出す必要がある。

>orf00001 5583 200 len=204GTgaCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTGA>orf00002 311 838 len=528ATGTTTCAGACTTTTATTTCTCGCCATAATTCAAACTTTTTTTCTGATAAGCTGGTTCTCACTTCTGTTACTCCAGCTTCTTCGGCACCTGTTTTACAGACACCTAAAGCTACATCGTCAACGTTATATTTTGATAGTTTGACGGTTAATGCTGGTAATGGTGGTTTTCTTCATTGCATT

Page 15: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

European Bioinformatics Institute (EBI) のサービスを用いる。http://www.ebi.ac.uk/Tools/st/emboss_transeq

塩基配列からアミノ酸配列への翻訳

ここを押して実行

nuc.txt を指定する。

または遺伝子の塩基配列をcopy&paste 。

今回は Bacterial が望ましいが、Standard のままでも問題ない。

結果のアミノ酸配列はテキストエディットに貼り付けて、protein.txt として保存。

>orf00001_1 5583 200 len=204VTYHLLEGFPFIQEPPSGDLQERVLIRHHDYDQCFQSVQLLQWNSQVKFNVTVYRNLPTTRDSIMTS*>orf00002_1 311 838 len=528MFQTFISRHNSNFFSDKLVLTSVTPASSAPVLQTPKATSSTLYFDSLTVNAGNGGFLHCIQMDTSVNAANQVVSVGADIAFDADPKFFACLVRFESSSVPTTLPTAYDVYPLDGRHDGGYYTVKDCVTIDVLPRTPGNNVYVGFMVWSNFTATKCRGLVSLNQVIKEIICLQPLK*>orf00004_1 847 1833 len=987MFGAIAGGIASALAGGAMSKLFGGGQKAASGGIQGDVLATDNNTVGMGDAGIKSAIQGSNVPNPDEAVPSFVSGAMAKAGKGLLEGTLQAGTSAVSDKLLDLVGLGGKSAADKGKDTRDY

コドン表

Page 16: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

NCBI の BLAST ( ウェブ版 ) を用いるhttp://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

配列相同性検索 ( 機能予測 )

ここを押して実行。しばらく時間がかかる。

アミノ酸配列の一つを貼り付ける。まずは len=987 の配列を選んだ。

(987 とは塩基配列の長さであり、アミノ酸配列長としては 1/3 の 329 残基である )

nr は報告されている全生物種全タンパク質の配列を集めたデータベース。

Page 17: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

検索結果 .1

スクロールしていくと詳細の記述がある。

Microvir_H という機能ドメインに似ている。

既知配列と似ている領域が図示されている。ほぼ全長にわたって高い類似性を持つ配列が、データベース内に多数あるということを示している。

Page 18: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

検索結果 .2

minor spike protein Hファージがバクテリアに感染するときに突き刺す注射針の役目

今回シーケンサーで読んだ生物は、このバクテリオファージ phiX174 。ファージはバクテリアにだけ感染するウィルスの一種なので、それ以外の様々なバクテリアからもファージ由来の遺伝子が検出される。

[] 内に生物種が書かれている。ここに挙がっているのはほとんどがバクテリア

データベースから見つかった類似配列が、似ている順に並べられている。

Page 19: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

検索結果 .3 アライメント

データベース上の配列に全長が完全一致 !

「 Minor spike protein 」であることに間違いなさそう。

今回は完全一致だったが、30% 程度以上合っていれば同じ機能を持つことが多い。

入力配列

データベースから見つかった配列

Page 20: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

NCBI の BLAST ( ウェブ版 ) を用いるhttp://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

配列相同性検索 ( 機能予測 )

ここを押して実行。

アミノ酸配列の一つを貼り付ける。len=1284 の配列を選んだ。

( アミノ酸配列としては 1/3 の 426 残基に相当 )

capsid というファージやウイルスの殻となるタンパク質がヒットする。

Page 21: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

Protein Data Bank (PDB)http://www.rcsb.org/pdb/home/home.do

タンパク質立体構造データベース

capsid phix174 と入力。

全部で 9 個が登録されている。

最も古い 1991年の構造 (2BPA) を見てみる。タンパク質を結晶化して X線回折によって解かれた構造である。

Page 22: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

ファージ phiX174 の構造

概観のサムネイル。capsid が 60 個組み合わさって、正 20 面体を構成している。

12 個の頂点から突き出た角は、G タンパク質および H タンパク質からできている。

ここを押すとより詳細に見ることができる。(少し時間がかかる)

Page 23: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

ファージ phiX174 の構造

マウス操作で拡大・縮小・回転ができる。

Asymmetric Unit を選べば個々の部品だけを見ることができる。

正 20 面体

Page 24: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

ファージ phiX174 の構造

β シート

αヘリックス

大きい方の β シートが capsid 。小さい方は major spike 。ヘリックスや細い白線の大部分は橋渡しタンパク質。

Page 25: バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

ファージが感染する瞬間の電顕写真

Nature 505, 432–435 (16 January 2014)実際にスパイクを突き刺している様子が観察されている