バイオプログラミング第2 - Lab遺伝子配列解析 •...

バイオプログラミング第２

慶應義塾大学理工学部生命情報学科

榊原康文、佐藤健吾

ゲノム配列の決定

•  2003年４月１４日およそ30億塩基対からなるヒトゲノムの解読が完了した

1 agatggcggc gctgaggggt cttgggggct ctaggccggc cacctactgg tttgcagcgg x61 agacgacgca tggggcctgc gcaataggag tacgctgcct gggaggcgtg actagaagcg 121 gaagtagttg tgggcgcctt tgcaaccgcc tgggacgccg ccgagtggtc tgtgcaggtt 181 cgcgggtcgc tggcgggggt cgtgagggag tgcgccggga gcggagatat ggagggagat 241 ggttcagacc cagagcctcc agatgccggg gaggacagca agtccgagaa tggggagaat 301 gcgcccatct actgcatctg ccgcaaaccg gacatcaact gcttcatgat cgggtgtgac 361 aactgcaatg agtggttcca tggggactgc atccggatca ctgagaagat ggccaaggcc 421 atccgggagt ggtactgtcg ggagtgcaga gagaaagacc ccaagctaga gattcgctat 481 cggcacaaga agtcacggga gcgggatggc aatgagcggg acagcagtga gccccgggat 541 gagggtggag ggcgcaagag gcctgtccct gatccagacc tgcagcgccg ggcagggtca 601 gggacagggg ttggggccat gcttgctcgg ggctctgctt cgccccacaa atcctctccg 661 cagcccttgg tggccacacc cagccagcat caccagcagc agcagcagca gatcaaacgg 721 tcagcccgca tgtgtggtga gtgtgaggca tgtcggcgca ctgaggactg tggtcactgt

遺伝子配列解析

•  遺伝子配列のアラインメント •  遺伝子領域の探索、発見、予測 •  遺伝子の構造予測、機能予測

配列を比較する

•  配列が似ていれば遺伝子としての機能も似ているに違いない！

•  複数の配列を比較し、それらに含まれている遺伝情報を抽出する

•  遺伝子配列を比較することで似ている部分、違う部分を発見する

配列のアラインメント

•  ２つの配列に対して、適切な位置にギャップ記号を挿入することで、配列中の同じ位置にある文字が並ぶようにする

GTCAGA AGCGTAG

-GTCAG-A- AG-C-GTAG

入力

出力

大域アラインメントの数

•  長さ n 本の2本の配列に対して：

AGCGTAG

GTCAGAG

A-CGT-G

G-CAGA- nCk

nCk ⇥ nCk = 2nCn

2nCn =(2n)!

(n!)(n!)' 22np

大域アラインメントの数

•  長さ n 本の2本の配列に対して：

2nCn =(2n)!

(n!)(n!)' 22np

n=10の時

n=100の時

数え上げるのは無理

22⇥10

p10⇡

' (103)2

5.6' 1.8⇥ 105

22⇥100

p100⇡

' (103)20

17.7' 5.6⇥ 1058

分割統治

•  問題をいくつかの小問題に分割して、それぞれを解く。

の解 GTCAG AGCG

の解 GTCA AGC

の解 G G

の解 GTCA AGCG

の解 G -

の解 GTCAG AGC

の解 - G

動的計画法によるアラインメント

0 1 2 3 4 5 6

G T C A G A

D(i,j): x1x2...xiとy1y2...yjの最適アラインメントのスコア

•  初期化

•  再帰式

ギャップペナルティ

マッチスコア

D(0, 0) = 0

D(i, 0) = D(i� 1, 0) + d (i > 0)

D(0, j) = D(0, j � 1) + d (j > 0)

D(i, j) = max

D(i� 1, j � 1) + s(xi, yj) case (1)

D(i� 1, j) + d case (2)

D(i, j � 1) + d case (3)

0 1 2 3 4 5 6

G T C A G A

0 0 0 0 0 0 0

0 1 2 3 4 5 6

G T C A G A

0 0 0 0 0 0 0

0 0 0 1 1 1

0 1 1 1 2 2

0 4 4 7

1 1 2 2 2

1 1 2 2

1 2 2 2 3

1 2 2 3 3

1 2 2 3

0 1 2 3 4 5 6

G T C A G A

0 0 0 0 0 0 0

0 0 0 1 1 1

0 1 1 1 2 2

0 4 4 7

1 1 2 2 2

1 1 2 2

1 2 2 2 3

1 2 2 3 3

1 2 2 3

- G A A - T G G A - C C T - G G - A

•  初期化

•  再帰式

T (i, 0) = “ ” (i > 0)

T (0, j) = “ " ” (j > 0)

T (i, j) =

“- ” case (1)“ ” case (2)“ " ” case (3)

•  ダウンロードした雛形プログラムに以下の関数を追加する。 – align: 配列間の類似度を計算する –  traceback: アラインメントを出力する – scoref: マッチスコアを返す

•  簡単な配列で実行してみる。 –  h=p://www.dna.bio.keio.ac.jp/lecture/progen2/data/example-‐sequence1.data –  h=p://www.dna.bio.keio.ac.jp/lecture/progen2/data/example-‐sequence2.data

h=p://www.dna.bio.keio.ac.jp/lecture/progen2/data/dp.c

できれば今日中にやること

float align(int len_x, int len_y)

•  表（D, T）を埋めて、最大スコアを返す。

0 1 2 3 4 5 6

G T C A G A

0 0 0 0 0 0 0

0 0 0 1 1 1

0 1 1 1 2 2

0 4 4 7

1 1 2 2 2

1 1 2 2

1 2 2 2 3

1 2 2 3 3

1 2 2 3

int traceback(int i, int j)

•  Tの矢印を辿りアラインメントを作る。 0 1 2 3 4 5 6

G T C A G A

0 0 0 0 0 0 0

0 0 0 1 1 1

0 1 1 1 2 2

0 4 4 7

1 1 2 2 2

1 1 2 2

1 2 2 2 3

1 2 2 3 3

1 2 2 3

- G A A - T G G A - C C T - G G - A

float scoref(char x, char y)

•  塩基xと塩基yがマッチした時のスコアを返す。

– DNA配列の場合 •  +1 (x==y) •  -‐1 (x!=y)

– アミノ酸配列の場合 •  BLOSUM（後述）に従う

実行例

sun% ./a.out example-sequence1.data example-sequence2.data !score 21.000000!GAGGTTATCAA-AA-GCTACTAGTC-CA!GAGG--AT-AACAAGGCTACTA-TCACA

提出までにやること

•  scorefがアミノ酸の置換スコアBLOSUMを返すように変更する。

– ギャップスコアを-‐8に変更する。

•  ４生物種のヘモグロビンのアミノ酸配列を比較する。

h=p://www.dna.bio.keio.ac.jp/lecture/progen2/data/score-‐matrix.c

h=p://www.dna.bio.keio.ac.jp/lecture/progen2/data/hemoglobin-‐human.data h=p://www.dna.bio.keio.ac.jp/lecture/progen2/data/hemoglobin-‐gorilla.data h=p://www.dna.bio.keio.ac.jp/lecture/progen2/data/hemoglobin-‐chicken.data h=p://www.dna.bio.keio.ac.jp/lecture/progen2/data/hemoglobin-‐horse.data

実行例

sun% ./a.out hemoglobin-human.data hemoglobin-chicken.data !score 706.000000!MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH!MVHWTAEEKQLITGLWGKVNVAECGAEALARLLIVYPWTQRFFASFGNLSSPTAILGNPMVRAHGKKVLTSFGDAVKNLDNIKNTFSQLSELHCDKLHVDPENFRLLGDILIIVLAAHFSKDFTPECQAAWQKLVRVVAHALARKYH!

sun% ./a.out hemoglobin-human.data hemoglobin-gorilla.data !score 987.000000!MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH!MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFKLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

課題の提出

•  今回の課題番号は「13」

•  締切：１月２０日（月）

バイオプログラミング第2 - Lab遺伝子配列解析 •...

Documents

シカジーニアス AmpC 遺伝子型検出キット Cica Geneus AmpC … · 2019-11-07 · シカジーニアス® AmpC 遺伝子型検出キット Cica Geneus AmpC Genotype Detection

Mutations in Mouse （遺伝子，対立遺伝子，突然変 …...Mutations in Mouse （遺伝子，対立遺伝子，突然変異の命名に関する規約） International Committee

遺伝性パーキンソン病の原因遺伝子産物 Parkin が活性化され …...1986/05/19 · 1．はじめに Parkin は遺伝性劣性パーキンソン病の原因遺伝子産物で

ヒト遺伝子特集 - H-Invitational

OMIMによる遺伝性疾患情報（英文情報）第19回日本遺伝子診療学会遺伝子技術講習会〜遺伝子診療におけるウェブツールの活用〜 2012.7.28

トロンボモデュリンアルファ（遺伝子組換え）...リコモジュリン点滴静注用12800 トロンボモデュリンアルファ（遺伝子組換え）第 1

関節リウマチに関連する遺伝子多型データベース多型デタ … · 内容 • 関節リウマチ関連遺伝多型関連遺伝子多型デタベデータベース

遺伝子癌遺伝子、癌抑制遺伝子）の傷ががんを発生さ …ds.cc.yamaguchi-u.ac.jp/~2byouri/Oncol.311.pdf · 山口大学医学部病理山口大学病理遺伝子(癌遺伝子、癌抑制遺伝子）の傷ががんを発生させる

「遺伝カウンセリング」（その1）ゲノム医療時代 …...2019/03/16 · 1．「遺伝カウンセリング」と「認定遺伝カウンセラー」 2．ゲノム、遺伝子、遺伝子検査とは？

第10回遺伝子組換えと遺伝子改変動物tkl.pc.uec.ac.jp/images/class2015/bio10.pdf第10回遺伝子組換えと遺伝子改変動物先進理工学科生体機能システムコース

Since 1874 「遺伝子治療用医薬品の品質及び安全性 … materials/201602.pdf標的細胞を取り出すベクターによる遺伝子導入輸注 In vivo遺伝子治療

› kensa › pdfs › kensa_27.pdf 遺伝子検査の基礎知識2 タカラバイオ遺伝子検査の基礎知識 1902 1 遺伝子とは？ゲノム・遺伝子・DNA ゲノムは、ある生物が持つ遺伝情報全体を表す用語です。ゲノムの中には、多数の遺伝情

DNAと遺伝子 - SEIKEIDNAと遺伝子遺伝子9 DNA・RNAの構造と機能 6 セントラルドグマ 7 遺伝子の複製と間違いの修復 6 良い遺伝子と悪い遺伝子

図説脳神経外科 - Kagoshima Uns/pdf/147.pdfIDH遺伝子変異は、glio maの発生初期に起こる遺伝子変化である（図1）。IDH遺伝子変異はグルタミン、脂

遺伝子導入実験ハンドブック - takara-bio.co.jp · 細胞や生体への遺伝子導入は、遺伝子や遺伝子産物の機能の研究に欠かせない必須の手法です。

AmpliSeq forIlluminaComprehensive CancerPanel...PrepareLibrary | Sequence | AnalyzeData 特長関連遺伝子のコンテンツがん関連409遺伝子の全エクソンをカバー

遺伝子の解析第 2 弾　 DNA シークエンス法

動物遺伝学遺伝子を調べるといろいろなことがわか …genetics/images/Animal...動物遺伝学：遺伝子を調べるといろいろなことがわかります！

シロイヌナズナ花序形態の制御 - Semantic Scholar...CRM1遺伝子と,ERもしくは,CRM2遺伝子の遺伝子間の相互作用を理解するために,crm1erやcrm1crm2

遺伝子検査の基礎知識...2 タカラバイオ遺伝子検査の基礎知識 1902 1 遺伝子とは？ゲノム・遺伝子・DNA ゲノムは、ある生物が持つ遺伝情報全体を表す用語です。ゲノムの中には、多数の遺伝情