107
バイオインフォマティクス 5博幸 バイオインフォマティクス 5博幸 BIO IT

IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

バイオインフォマティクス第5回

藤 博幸

バイオインフォマティクス第5回

藤 博幸

BIO

IT

Page 2: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

本日の講義

(1)前回の近隣結合法による系統樹構築の補足(1-1)モデル選択、モデルとは?(1-2)ブートストラップ法(1-3)Newick形式

(2)最尤法による系統樹構築外群導入による根の同定

Page 3: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

本日の講義

(1)前回の近隣結合法による系統樹構築の補足(1-1)モデル選択、モデルとは?(1-2)ブートストラップ法(1-3)Newick形式

(2)最尤法による系統樹構築外群導入による根の同定

Page 4: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

得られたアラインメントを使ってMEGAで系統樹を作成

(1) MEGAを起動してmafftで作成したアラインメントの読み込み

(2) MEGA形式へのデータの変換

(3) モデル選択

(1) 近隣結合法による系統樹の構築

Page 5: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

モデル選択

モデルとは?

Page 6: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

① Modelsをクリック

② FindBestDNA.ProteinModels(ML)をクリック

Page 7: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

現在 activeばファイル(=hivpol.meg)を使用するかを聞いてくるウィンドウが開くYesをクリック

Page 8: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

モデル選択の計算のオプション確認のウィンドウが開く黄色の部分がAutomaticNucleotideCompletedeletionになっていることを確認して、Computeをクリック

Page 9: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

計算経過を示すウィンドウが開く

Page 10: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

結果画面出力行がモデル列に情報量基準とパラメータが書かれている

Page 11: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

BIC,AICc :情報量基準この表がBICでソートされている情報量は小さい方が良い

lnL:対数尤度大きい方が良い

BIC最小の T92+Gモデルを今回使用することにする

このウィンドウは閉じる

Page 12: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

最も簡単な配列間距離=p距離 (p distance)

Nヌクレオチドの長さの二つの配列で、Mサイトに差異がある場合p-distance=M /N

p距離の問題点多重置換(復帰置換や平行置換を含む)

=同じサイトでの複数回の置換

------->数回分の変化が隠されてしまう

p <5%程度の時のみ、p距離は有効

Page 13: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

TTCAAGAC

CTCAAGAC

CTTAAGAC

CTTAAAAC

CTTAGAACATTAGAACATTACAACATTACGAC

TCCAAGACTCCACGACTCTACGAC

ATTACGAC

TCTACGAC

7回3回

実際のサイトあたりの置換数 =(3+7)/8=1.25 p距離 =2/8=0.25

Page 14: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

置換数の推定 <-----塩基置換を表現する確率モデルが必用

連続時間マルコフ連鎖 (continuous-timeMarkovchain)が良く使用される。

仮定:

(1)全てのサイトは独立に進化

(2)特定のサイトの置換 (substitution)は マルコフ連鎖で表現

(3)塩基置換速度に異なる制約 → 異なるモデル

Page 15: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

TTCAAGACCTCAAGACCTTAAGACCTTAAAACCTTAGAACATTAGAACATTACAACATTACGAC

このサイトに着目

時刻0

時刻t

サイト5は、A→A→A→A→G→ G→C→Cと遷移している。

4種類の塩基を、このサイトのとりうる状態(state)とよぶ。状態の遷移は確率的に生じる。

マルコフ性(Markovian property):無記憶性

P(C |G,G,A,A,A,A) = P(C |G)次の時点の状態が何になるかは、現在の状態にのみ依存過去にとった状態が何であるかは影響しない

Page 16: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

塩基置換のマルコフ・モデルと距離の推定JC69モデル (1)

塩基置換速度に異なる制約 → 異なるモデル

↓JC69モデル (JukesandCantor,1969)どの塩基も、任意の他の塩基に同じ速度λで変化すると仮定

瞬間置換速度行列(instantaneoussubstitution-ratematrix)を次のようにおくことで表現

Q = qij[ ] =

−3λ λ λ λ

λ −3λ λ λ

λ λ −3λ λ

λ λ λ −3λ

$

%

& & & &

'

(

) ) ) )

Page 17: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

Q = qij[ ] =

−3λ λ λ λ

λ −3λ λ λ

λ λ −3λ λ

λ λ λ −3λ

$

%

& & & &

'

(

) ) ) )

行、列はT,C,A,Gを表す

q12 = λ は、T(1)からC(2)への瞬間置換速度が

λであることを表している。

※ 各行の総和は0になることに注意ある塩基iが、任意の塩基に置換される速度の総和は

3λ = −qii

Page 18: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

JC69モデルによる2本の配列間の距離の推定

Page 19: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

STEP1:配列間距離dのQによる表現

t/2

祖先配列

配列1 配列2

t配列1 配列2

Page 20: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

(1)配列1の塩基組成を

π T πC πA πG( ) とする。

Δt(2)Qが与えられた時に時間間隔 の間に塩基iからjに変化する確率

= qijΔt(3)任意の塩基が他の塩基に置換される速度

STEP1:配列間距離dのQによる表現

t配列1 配列2

配列1と配列2の距離

d = π T 3λ( )t + πC 3λ( )t + πA 3λ( )t + πG 3λ( )t= π T + πC + πA + πG( ) 3λ( )t = 3λt

Page 21: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

STEP2:JC69モデルのもとで2本の配列で差異のあるサイトの期待確率

t配列1 配列2

JC69モデルのもとでの遷移確率行列

P(t) = eQt =

p0(t) p1(t) p1(t) p1(t)p1(t) p0(t) p1(t) p1(t)p1(t) p1(t) p0(t) p1(t)p1(t) p1(t) p1(t) p0(t)

"

#

$ $ $ $

%

&

' ' ' '

p0(t) =14

+34e−4λt

p1(t) =14−14e−4λt

p = π T pTC(t) + π T pTA (t) + π T pTG(t) +πCpCT (t) + πCpCA (t) + πCpCG(t) +πA pAT (t) + πA pAC(t) + πA pAG(t) +πGpGT (t) + πGpGC(t) + πGpGA (t) = π T (3p1(t))+ πC(3p1(t)) + πA (3p1(t)) + πG(3p1(t))

= (π T + πC + πA + πG)(3p1(t)) = 3p1(t) =34−34

e−4λt =34−34

e−43d

(1.5)

Page 22: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

STEP3:実測値との対応付けによる推定

配列1と配列2で差異のあるサイト数x総サイト数 n

差異のあるサイトの割合

ˆ p = p とおく。

xn

=34−34e−43d

e−43d

=1− 43xn

(ハットは推定値を意味する)^

p =xn

d = −34ln 1− 4

3xn

#

$ %

&

' (

d = −34ln 1− 4

3xn

#

$ %

&

' ( = −

34ln 1− 4

3p

#

$ %

&

' ( ^^

p > (3/4) であれば、この距離の公式は適用できない^※

Page 23: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

K80モデルトランジション

ピリミジン間 (T<-->C)の置換プリン間 (A<-->G)の置換

トランスバージョン

プリン、ピリミジン間 (T、C<-->A,G)の置換

トランジションは、トランスバージョンより高い速度で生じている

を考慮したモデル

Page 24: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

T C

A G

T C

A G

JC69 K80

Page 25: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

K80モデル、あるいはKimuraの2パラメータモデルにおけるQの設定

− α + 2β( ) α β β

α − α + 2β( ) β β

β β − α + 2β( ) α

β β α − α + 2β( )

%

&

' ' ' '

(

)

* * * *

トランジションの置換速度 α

トランスバージョンの置換速度 β

TCAG

T CA G

(1.8)

Page 26: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

d = − 12log(1−V − 2S)− 1

4log(1− 2V )

^

Page 27: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

TN93

Q =

− α1πC +βπR( ) α1πC βπA βπGα1πT − α1πT +βπR( ) βπA βπGβπT βπC − α2πG +βπY( ) α2πGβπT βπC α2πA − α2πA +βπY( )

&

'

( ( ( (

)

*

+ + + +

ここで、

πY = πT +πCπR = πA +πG

ピリミジンの頻度

プリンの頻度

Page 28: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

T C

A G

α1

α2

β

Page 29: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

TN93の特殊なケース

TN93

HKY85

α1 =α2 =α

κ1 =κ2 =κあるいは

F84

α1 = 1+κ /πY( )β,α2 = 1+κ /πR( )β,

パラメータが1つ減る

F81

α1 =α2 = β

Page 30: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

結果画面出力行がモデル列に情報量基準とパラメータが書かれている

Page 31: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

配列間距離の推定のため、与えられたアラインメントにもっとも適したモデルを選択する

モデル:塩基置換の生じ方を記述複雑なモデルが、必ずしもて最適なモデルではない

Page 32: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

得られたアラインメントを使ってMEGAで系統樹を作成

(1) MEGAを起動してmafftで作成したアラインメントの読み込み

(2) MEGA形式へのデータの変換

(3) モデル選択

(1) 近隣結合法による系統樹の構築

Page 33: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

ブートストラップ法(bootstrap)

Page 34: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

Victim(Maria)から単離されたHIVは、Robertの患者から単離されたHIVに近縁(ただし、bootstrapsupport(bootstrapprobabilityともよぶ)小さい)

Page 35: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定
Page 36: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

ブートストラップサンプル1...

ブートストラップサンプル1000

系統樹1

系統樹1000

例えば、1000個のブートストラップサンプルから作られた系統樹の中で、ヒト、チンパジー、ボノボがクラスターを形成している回数が994回であれば、99.4%をブートストラップサポートをオリジナルの系統樹にマッピングする。

Page 37: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

系統樹のNewickフォーマット

Page 38: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

① Originaltreeタブを選択しオリジナルの系統樹を表示

② メニューバーのFileをクリック

③ ExportCurrentTree(Newick)を選択

Page 39: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

Newick形式のデータを保存するファイル名を聞いてくるので、Hivpol.nwkとファイル名を指定してSaveをクリック

Page 40: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

hivpol.nwkをメモ帳で開く(((((((((((((((V1.MIC.RT:0.00183356,V2.MIC.RT:-0.00005991)0.8910:0.00358471,P6¥.MIC.RT:-0.00000974)0.1770:0.00000487,V1.BCM.RT:-0.00000487)0.1240:0.00000487,P¥5.BCM.RT:-0.00000487)0.1580:0.00000487,V2.BCM.RT:-0.00000649)0.6510:0.00179596,¥P6.BCM.RT:-0.00002443)0.2560:0.00047535,(P3.MIC.RT:0.00247068,(P5.MIC.RT:0.0001¥0360,(P4.BCM.RT:-0.00001486,(P1.BCM.RT:0.00180051,P7.BCM.RT:-0.00002890)0.3290:¥0.00001486)0.6290:0.00167160)0.3700:0.00110497)0.1450:0.00042271)0.1300:0.00012¥758,(P2.MIC.RT:0.00692434,(P3.BCM.RT:0.00000000,P4.MIC.RT:0.00000000)0.3170:0.0¥0022865)0.3800:0.00123392)0.2950:0.00120878,P2.BCM.RT:0.00151719)0.1530:0.00021¥449,LA32.RT:0.00555837)0.1380:0.00004296,(LA08.RT:0.00517567,LA05.RT:0.01117874¥)0.4190:0.00175445)0.2030:0.00101235,P1.MIC.RT:0.00223222)0.3350:0.00231784,LA1¥8.RT:0.00719763)0.0810:0.00037487,((((LA29.RT:0.01283766,LA06.RT:0.00724592)0.3¥080:0.00136025,LA12.RT:0.00407447)0.1500:0.00100562,(LA28.RT:0.01213187,LA07.RT¥:0.00795380)0.5010:0.00248453)0.0890:0.00048663,((LA10.RT:0.00771152,LA23.RT:0.¥01441878)0.4210:0.00234077,((((LA04.RT:0.00992803,LA25.RT:0.01196780)0.2190:0.0¥0075079,LA27.RT:0.00367005)0.1520:0.00156941,(LA22.RT:0.01275031,LA30.RT:0.0111¥6664)0.2420:0.00081036)0.0260:0.00057137,((LA17.RT:0.00971516,LA13.RT:0.0103715¥9)0.5080:0.00308458,(LA31.RT:0.00767816,(LA14.RT:0.01046118,(LA21.RT:0.00708465¥,LA24.RT:0.00192401)0.8140:0.00438466)0.2290:0.00054839)0.1320:0.00076469)0.146¥0:0.00116298)0.0090:0.00046111)0.0210:0.00077806)0.0200:0.00022654)0.1420:0.001¥01897,LA16.RT:0.00625876)0.5290:0.00018712,(LA26.RT:0.00566221,LA02.RT:0.016280¥61)0.5290:0.00268962);

Newick形式とは、系統樹の情報を、テキストとして記述したもの

Page 41: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

Newickフォーマット

(A,B,(C,D)); leaf nodes are named(A,B,(C,D)E)F; all nodes are named(A:0.1,B:0.2,(C:0.3,D:0.4):0.5); distances and leaf names (popular)(A:0.1,B:0.2,(C:0.3,D:0.4)E:0.5)F; distances and all names

http://en.wikipedia.org/wiki/Newick_format より

Newickフォーマットの表記は一意ではない

(C:0.3, D:0.4, (A:0.1, B:0.2):0.5);

Page 42: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

1

2

3

45

((1,2),(3,4),5);

テキスト形式による系統樹の記述 - Newick format

Page 43: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

((1,2),(4,5),3);(((1,2),3),4,5);(1,((4,5),3),2);…

Newick Formatによる系統樹表記は1通りに決まらない

1

3

4

5

2

この系統樹は、たとえば左のような複数の表記が可能である

Page 44: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

1

3

4

5

2 1.0 3.02.0

4.0

3.02.0 2.0

((1:2.0,2:1.0):2.0,3:3.0,(4:2.0,5:4.0):3.0);

枝の長さの情報を付加した Newick Formatによる系統樹表記

Page 45: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

1

3

4

5

21.0 3.0

2.0

4.0

3.02.0 2.0

((1:2.0,2:1.0)60 :2.0,3:3.0,(4:2.0,5:4.0)90 :3.0);

90(%)

60(%)

枝の長さの情報と Bootstrapサポートを付加したNewick Formatによる系統樹表記

Page 46: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

本日の講義

(1)前回の近隣結合法による系統樹構築の補足(1-1)モデル選択、モデルとは?(1-2)ブートストラップ法(1-3)Newick形式

(2)最尤法による系統樹構築外群導入による根の同定

Page 47: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

種1

種3

種2

種5種2

無根系統樹がえられる近隣結合法では進化速度の一定性は仮定されていないので、一つの内部節から分岐した外部節への枝の長さが異なることに注意

Page 48: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

分子系統解析では、系統樹は無根系統樹として作成される。根の導入は、外群(outgroup)を用いてなされる

進化速度の一定性が成立する場合(=分子時計が成立している場合)を除き、注目するグループの根を決められない

多くの場合、分子時計の一定性は仮定できない

Page 49: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

外群の利用研究対象である群:内群 (ingroup)内群に対して遠い関係であることがわかっているもの:外群(outgroup),

外群を含めて系統樹を構築全体としては無根系統樹だが、内群の根(root)を決めることができる。

今、種1~4(哺乳類)の系統関係を調べたい根を導入するために種5(爬虫類)を外群として導入

種5

種1

種2

種3

種4

内群の根

Page 50: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

ブートストラップの説明図は「分子系統学への統計的アプローチ」 共立出版を改変

Newick formatは、隈啓一 京都大学化学研究所ゲノム情報解析特論 (系統樹推定法)を改変

Page 51: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

カール•ウーズ(CarlRechard Woese,1928-2012)

rRNAを用いた分子分類や細胞の違いなどから、真正細菌とも真核生物とも異なる古細菌の存在を示唆し、3ドメイン体系を提唱した。

エルンスト•マイヤーらから激しい反発をうける「こんな分類体系を思いつくのは生物学者ではない証拠だ」

受容には時間がかかった。

Page 52: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

http://ja.wikipedia.org/wiki/ファイル:PhylogeneticTree.png

真正細菌 古細菌 真核生物

Page 53: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

古細菌も真正細菌も、原核細胞を持った原核生物残りは真核生物

従来あった動物界や植物界などを残して、これらの分類群を呼ぶために、上位の階級名としてドメイン (domain,超界)がつくられた。

• 真正細菌 (バクテリア)ドメイン• 古細菌(アーキア)ドメイン• 真核生物(ユーカリア)ドメイン

従来の「界」はそのまま使用される・

Page 54: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

3つのドメインの間の関係

3者についての無根系統樹

3通りの関係が考えられる。

通常は、外群を導入して「根 (=共通祖先)」を決定

しかし、3者で地球上の生物は尽きており、

これよりも遠い関係の生物はいない

Page 55: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

真核生物ドメイン

真正細菌ドメイン 古細菌ドメイン

三者の関係の3つの仮説

真核生物

真正細菌

古細菌

真正生物

真核生物

古細菌

古細菌

真正細菌

真核生物

Page 56: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

遺伝子データとして、3つのドメイン全てが核にコードされたパラログを有する遺伝子を考える※ ミトコンドリアや葉緑体に由来するものを外す(細胞内共生によるものは真正細菌に近くなる)

真正細菌ドメイン 古細菌ドメイン 真核生物ドメイン

遺伝子 A

遺伝子 B

全てのドメインにパラログ(遺伝子Aと遺伝子B)があるということは、遺伝子A,Bはこれら3つのドメインが種分化する以前の祖先生物において遺伝子重複により生じたと考えられる。

遺伝子Aと遺伝子Bをお互いに外群として利用できる。

Page 57: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

藤田俊彦(2010)“動物の系統分類と進化”裳華房 より

外群としてパラログを利用して3つのドメインの根を決定したのは宮田隆のグループの研究 (Iwabeetal.1989)

EF-1α/Tu

EF2/G

遺伝子重複

全生物の共通祖先

真核生物

古細菌

真正細菌

真核生物

古細菌

真正細菌

Page 58: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

Ecocyte Hypothesis =TwoDomainsHypothesis

TwoDomains=Archaea andBacteria

EukaryotesarosethroughendosymbioticPartnershipbetweenArchaea andBacteria

Page 59: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定
Page 60: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

最尤法 (maximumlikelihoodmethod)による系統樹の構築

elongationfactor1-alphaのアミノ酸配列を使用

(1)真核生物ヒト (Homosapiensgi |4503471)

(2)古細菌クレンアーキオータ (Sulfolobus solafatarocus gi|80090675)ユーリアーキオータ (Methonococcus maripaludis,gi|73919278)

(3)真正細菌 (outgroupとして導入)大腸菌 (Escherichiacoligi|487459962)

アラインメントはmafftで作成済みのものを使用

Page 61: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

(1) MEGAを起動してmafftで作成したアラインメントの読み込み

(2) MEGA形式へのデータの変換

(3) モデル選択

(1) 最尤法による系統樹の構築

Page 62: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

(1) MEGAを起動してmafftで作成したアラインメントの読み込み

(2) MEGA形式へのデータの変換

(3) モデル選択

(1) 最尤法による系統樹の構築

Page 63: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

aaseq2.alnmafft で作成されたEF-1αのアラインメントを入力として使用

CLUSTAL format alignment by MAFFT L-INS-i (v7.130b)

gi|4503471|ref| MGKEKTHINIVVIGHVDSGKSTTTGHLIYKCGGIDKRTIEKFEKEAAEMGKGSFKYAWVLgi|800906750|gb M-SQKPHLNLIVIGHIDHGKSTLVGRLLMDRGFIDEKTVKEAEEAAKKLGKESEKFAFLLgi|73919278|sp| MAKEKPILNVAFIGHVDAGKSTTVGRLLLDGGAIDPQLIVRLRKEAEEKGKAGFEFAYVMgi|487459962|re ------------------------------------------------------------

gi|4503471|ref| DKLKAERERGITIDISLWKFETSKYYVTIIDAPGHRDFIKNMITGTSQADCAVLIVAAGVgi|800906750|gb DRLKEERERGVTINLTFMRFETKKYFFTIIDAPGHRDFVKNMITGASQADAAILVVSAKKgi|73919278|sp| DGLKEERERGVTIDVAHKKFPTAKYEVTIVDCPGHRDFIKNMITGASQADAAVLVV--NVgi|487459962|re --------------------ETPKYHVTVIDAPGHRDFIKNMITGTSQADCAILIIAGGT

* ** .*::*.******:******:****.*:*::

gi|4503471|ref| GEFEAGISKNGQTREHALLAYTLGVKQLIVGVNKMDSTEPPYSQKRYEEIVKEV-STYIKgi|800906750|gb GEYEAGMSVEGQTREHIILAKTMGLDQLIVAVNKMDLTDPPYDEKRYKEIVDQV-SKFMRgi|73919278|sp| DDAKSGIQP--QTREHVFLSRTLGITQLAVAINKMDTVN--FSEADYNEMKKMLGDQLLKgi|487459962|re GEFEAGISKDGQTREHALLAYTLGVKQLIVAVNKMDSVK--WDKNRFEEIIKET-SNFVK

.: ::*:. ***** :*: *:*: ** *.:**** .. :.: ::*: . . ::

gi|4503471|ref| KIGYNPDTVAFVPISGWNGDNMLEPSANMPWFKGWKVTRKDGNASGTTLLEALDCILPPTgi|800906750|gb SYGFNTNKVRFVPVVAPAGDNITHRSENMKWY------------NGPTLEEYLDQLELPPgi|73919278|sp| MVGFNPDNIDFIPVASLLGDNVFKKSENTPWY------------NGPTLAQVIDGFQPPEgi|487459962|re KVGYNPKTVPFVPISGWNGDNMIEPSTNCPWYKGWEKETKSGKVTGKTLLEAIDAIEPPT

*:*...: *:*: . ***: . * * *: .* ** : :* : *

Page 64: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

MEGAの起動

① 左下のスタートをクリック

②下部ウィンドウにMEGAと入力 ③MEGAのアイコンが出てくる

ので、クリックして起動

Page 65: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

起動画面 左上に注目

Page 66: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

メニューバーのFileをクリック

Page 67: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

OpenAFile/Sessionを選択

Page 68: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

ファイル選択のウィンドウが表示される

Page 69: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

前ページのファイル選択ウィンドウを拡大したもの

スクロールバーで表示位置を変更しながらファイルを探して選択

Page 70: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

読み込まれたアラインメントが新しいウィンドウ上でClustal形式で表示される

Page 71: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

(1) MEGAを起動してmafftで作成したアラインメントの読み込み

(2) MEGA形式へのデータの変換

(3) モデル選択

(1) 最尤法による系統樹の構築

Page 72: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

アラインメントウィンドウのメニューバーのUtilityをクリックプルダウンメニューからConverttoMEGAFormatを選択

Page 73: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

新しいウィンドウが開いてファイルと形式を確認してくるので、OKをクリック

Page 74: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

MEGA形式のデータを保存するファイル名を聞いてくるので*の部分を aaseq2 としてaaseq2.megという名前で保存

Page 75: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

変換が正常に終了したことを示すウィンドウが現れる。OKをおしてとじるそれまでClustal形式だったアラインメントがMEGA形式に変換されて表示されている

Page 76: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

MEGA形式のデータが表示される

Page 77: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

(1) MEGAを起動してmafftで作成したアラインメントの読み込み

(2) MEGA形式へのデータの変換

(3) モデル選択

(1) 最尤法による系統樹の構築

Page 78: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

モデルをクリック

プルダウンメニューのFindBestDNA/ProteinModels(ML)を選択

Page 79: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

新しく開いたウィンドウから、変換したMEGA形式のファイルを選択し

Openをクリック

Page 80: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

新しいウィンドウが開くので、ProteinSequencesを選択してOKをクリック

ウィンドウの拡大図

Page 81: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

モデル選択の確認画面がでてくるデフォルト設定のままでComputeをクリック

Page 82: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

時間がかかるので、計算の途中経過を示すウィンドウが現れる

Page 83: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

計算結果の画面が現れる

Page 84: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

BIC,AIC,lnLがモデル選択の基準BIC,AICcは小さい程よく、lnLは大きいほど良い。MEGAではBICでソートされている

LG+Iモデルが、このモデルに最適であることが示されている

Page 85: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

(1) MEGAを起動してmafftで作成したアラインメントの読み込み

(2) MEGA形式へのデータの変換

(3) モデル選択

(1) 最尤法による系統樹の構築

Page 86: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

上部のPhylogenyをクリックプルダウンメニューからConstruct/TestMaximumLikelihoodTreeを選択

Page 87: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

現在、activeになっているaaseq2.megについて系統樹をつくるのかを聞いてくるので、 Yes をクリック

Page 88: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

最尤法の計算設定の画面が現れる黄色の部分が変更可能

Page 89: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

① PhylogenyTestBootstrapを100回

② SubstitutionModelLGmodel

③ RatesandPatternsHasInvariantsites(I)

他はデフォルトで

Page 90: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

変更の仕方

変更する項目をクリックすると右端にボタンが出てくるのでそれを使って変更

Bootstrapの回数の変更

上向き矢印で増加、下向きで減少

今回は 100になるようにしてください

Page 91: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

変更の仕方

変更する項目をクリックすると右端にボタンが出てくるのでそれを使って変更

Bootstrapの回数の変更

上向き矢印で増加、下向きで減少

今回は 100になるようにしてください

Page 92: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

Substitutionmodelは、右端をクリックすると現れるプルダウンメニューの中から選択

RatesandPatternsも同様

Page 93: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

設定が完了したらComputeをクリック

Page 94: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

時間がかかるので途中経過を示すウィンドウが表示される

Page 95: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

計算が終了すると最尤系統樹にbootstrap supportがマッピングされた図が表示される。

Page 96: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

系統樹をNewick formatで保存系統樹ウィンドウのメニューバーからFileをクリック

Page 97: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

系統樹のウインドウのメニューバーのFileメニューから、ExportCurrentTree(Newick)を選択

Page 98: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

ファイルネームを aaseq2.nwkとして、Saveをクリック

Page 99: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

((gi|4503471|ref|:0.09656983,gi|487459962|re:0.11764039)1.0000:0.31334860,(gi|800906750|gb:0.36944335,gi|73919278|sp|:0.37953026)1.0000:0.05145874);

Newick formatでファイルに保存された情報

Page 100: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

系統樹のメニューバーのImageをクリックプルダウンメニューからSavePDFfileを選択

Page 101: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

先ほど指定したファイル名が残されているので必要に応じて書き換えて、Saveをクリック今回は、ファイル名はaaseq2だけにしておく

Page 102: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

aaseq2.PDFというファイル名で、系統樹の画像ファイルが保存される

gi|4503471|ref|

gi|487459962|re

gi|800906750|gb

gi|73919278|sp|

100

0.1

Page 103: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

ヒトとクレンアーキオータがクラスタを形成することを期待して作成したが、古細菌同士がクラスタを形成

ここが、ヒトと古細菌の根になる

Page 104: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

今回の系統樹

大腸菌 (外群)

ヒト

クレンアーキオータユーリアーキオータ

Page 105: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

この解析の問題点

(1) 真核生物、クレンアーキオータ、ユーリアーキオータ、真正細菌を1種ずつで代表させる。選択したそれぞれの生物に特化した進化の状況が反映されてしまう。---------------à もっと種数を増やす

(2)Elongationfactor1-alpha/Tuだけしか使っていない他のタンパク質についても解析するべき

Page 106: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

今回のまとめ

アミノ酸にも置換モデルがある

分子系統樹は基本的には無根(unrooted)

根を導入するには、何らかの根拠から遠い関係にあると考えられる配列を外群(outgroup)として導入する

最尤法の説明については次回

Page 107: IT - 関西学院大学tohhiro/bioinfo18/...置換数の推定

点数 (4)100-90 (3)89-80 (2)79-70 (1)69-60達成目標 (3)に加え、

MEGAで最尤法による系統樹の構築ができる。

(2)に加え、Newickformatについて説明できる。

(1)に加え、ブートストラップ法の計算の手続きや、その計算結果の解釈について説明できる。

進化モデルについて説明できる。特にJC69,K80,TN93について説明できる。

またモデル選択について説明できる。