112
生物信息学 第七章 分子进化与系统发育分析 1 主讲:张志勇 [email protected] 电话:63600854

生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

  • Upload
    others

  • View
    15

  • Download
    1

Embed Size (px)

Citation preview

Page 1: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

生物信息学

第七章 分子进化与系统发育分析

1

主讲:张志勇 [email protected]

电话:63600854

Page 2: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

概念

生物进化的理论使各种生物间以亲缘关系为纽带联系起来,它是生物信息学中一些重要问题,如序列比对、基因组分析、蛋白质结构分析等的理论基础。分子系统发育分析是利用生物大分子有关性质去研究生物进化或生物间亲缘关系的方法,在生物信息学中的地位越来越重要。

2

Page 3: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

生命之树:Tree of Life 重建所有生物的进化历史并以系统树的形式加以描述

3

Page 4: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

Darwin, Charles (1809-1882)

《The Origin of Species》 (1859) 共同祖先

4

演示者
演示文稿备注
达尔文提出的进化论是人类历史上重要的思想革命之一,它强烈地改变了我们对世界的认识,包括人类自身发展的进程。
Page 5: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

生物进化理论 达尔文进化论: 进化:变异的遗传 自然选择:解释为何演变发生的机制

种群中个体变异的遗传学基础:孟德尔遗传 孟德尔豌豆实验:杂交的表现特征是基因表达的结果,而不是基因杂交遗传

中性进化论:并非所有种群中保留下来的突变都由自然选择所形成;大多数突变是中性或接近中性,不妨碍种群的生存与繁衍。

5

Page 6: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

研究生物进化历史的途径 最确凿证据是:生物化石!—— 零散、不完整 比较形态学、比较解剖学和生理学等:确定大致的进化框架 —— 细节存在很多争议

6

Page 7: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

分子进化

1964年,Linus Pauling提出分子进化理论; 从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。 发生在分子层面的进化过程:DNA, RNA和蛋白质分子 基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。

7

Page 8: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

8

分子进化的模式

核苷酸替代 DNA突变 基因复制:多基因家族以及伪基因的产生

Page 9: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

核苷酸替代:转换 & 颠换

转换(transition) 嘌呤被嘌呤替代,或嘧啶被嘧啶替代

颠换(transversion)嘌呤被嘧啶替代,或嘧啶被嘌呤替代 在进化过程中,转换发生的频率远比颠换高。

9

Page 10: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

DNA突变的模式

替代 插入

缺失 倒位

10

Page 11: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

基因复制:(1)单个基因复制

重组

逆转录

11

Page 12: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

基因复制:(2)基因组复制

酿酒酵母

克鲁雄酵母

12

Page 13: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

同源物定义

同源:序列同源,来自共同祖先。 Ortholog (直系同源物):通过物种形成的事件而产生,存在于不同物种的基因/蛋白质,通常有相同或相似的功能。

Paralog (旁系同源物):在同一物种中,通过至少一次基因复制事件产生。常常具有不同功能。

Xenolog (异系同源物):由某一个基因水平转移事件而得到的同源序列。水平转移的基因功能主要根据在前后宿主中变化而确定,然而功能却常常相似。

13

演示者
演示文稿备注
蛋白质同源家庭的分析对于确立物种之间的亲缘关系和预测新蛋白质序列的功能有重要意义,同源蛋白质(homolog)进一步划分为直系同源(ortholog)和旁系同源(paralog),前者指不同物种中具有相同功能和共同起源的基因,后者则指在同一物种内具有不同功能,但也有共同起源的基因,例如同是起源于珠蛋白的α珠蛋白、β珠蛋白和肌红蛋白。
Page 14: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

paralogs

orthologs

直系同源物 vs. 旁系同源物

14

Page 15: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

异源基因或水平转移基因 xenologous or horizontally transferred genes

15

Page 16: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

同源性与相似性 相似性 (Similarity) 序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例; 定量描述;

同源性 (Homology) 两个基因或蛋白质序列具有共同祖先的结论; 定性判断;

相似不一定同源,同源不一定相似。 氨基酸序列相似性超过30%,很可能同源。

16

Page 17: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

序列同源性模型中的进化假设 所有的生物都起源于同一个祖先; 序列不是随机产生,而是在进化上,不断发生着演变; 基本假设: 序列保守性 结构保守性

注意:反之未必 序列保守性 结构保守性

17

Page 18: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 —— tree of life

大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列或结构同源性分析,构建系统发育树,进行相关分析;功能预测

进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?

分子进化研究的目的

18

Page 19: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

Tree of Life: 16S rRNA

原核生物起初分为两大类:真细菌(Eubacteria)和古细菌(Archaebacteria) 生物三域分类: • 细菌域

(Bacteria) • 古菌域

(Archaea) • 真核域

(Eukarya)

19

真细菌 古细菌

真核 在真核生物中的同源物是18S rRNA

演示者
演示文稿备注
16S rRNA作为研究分类学和系统进化的分子受到很大重视,16S rRNA序列分析是当前对细菌进行分类学研究中较精确的一种技术。随着分子生物学的快速发展以及该技术在医学微生物研究中的应用,对16S rRNA作为微生物分类依据的研究也逐渐发展起来并已得到广泛认同。
Page 20: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

分子进化研究——物种分类

20

Page 21: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

分子进化研究——人类起源(Out of Africa)

线粒体基因组(16,587bp)

人类迁移的路线

当前人类线粒体基因组最大的差异存在于非洲和非非洲人之间。

21

Page 22: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

本章内容提要

第一节,密码子偏好及分析 第二节,氨基酸序列的进化演变 第三节,分子系统发育分析 第四节,分子系统发育分析软件介绍

22

Page 23: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

第一节,密码子偏好及分析

密码子(codon): 在随机或者无自然选择的

情况下,各个密码子出现频率将大致相等; 密码子偏好:各个物种中,编码同一氨基酸

的不同同义密码子的频率非常不一致; 可能的原因:密码子对应的同功tRNA丰度

的不同 - Anticodon

23

Page 24: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

tRNA & Anticodon

每一个密码子,对应一

个tRNA; tRNA通过Anticodon来识别codon,联系

mRNA和氨基酸序列的

合成; 密码子的使用偏好:受

到密码子对应的tRNA的

进化及丰度影响。

24

Page 25: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

标准密码子表

25

Page 26: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

大肠杆菌密码子偏好

26

演示者
演示文稿备注
括号里面的数值下面会介绍。
Page 27: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

大肠杆菌密码子偏好

密码子偏好非常明显;例如 同为编码Leu的同义密码子CUA和CUG,二者出现的次数显著不等,CUA(1次), CUG(141次); 再如:编码Arg的四个密码子CGU, CGC,

CGA, CGG, 出现次数分别为:89,46,1,0. 提示:0表示对应CGG的同功tRNA可能不存在!

27

Page 28: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

碱基出现的频率

假如:每个核苷酸位点上的替代是随机发生的,则A,T,C,G出现的频率应该大致相等。

实际情况:DNA受到自然选择的压力,各个位点的碱基出现频率并不相等。

需要解决的问题: A. 每个位点上受到什么样的选择压力? B. 各个位点的碱基频率反映了什么样的规律?

表征/统计的方法:计算G+C的含量,并进行比较

28

Page 29: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

分子进化的理论

自然选择理论: 阳性选择:促进有益突变; 定向选择:固定有益的等位基因; 平衡选择:保持多态性;

阴性选择(净化选择):清除有害突变;

中性理论: 阳性选择:少有; 阴性选择:普遍存在; 中性进化:普遍存在;

29

Page 30: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

基因的编码区和非编码区 基因的DNA由编码区(Coding region)和非编码区(Non-coding region)构成; 编码区可以转录信使RNA,进而调控蛋白质的合成; 非编码区不能转录成信使RNA,但是它可以调控遗传信息的表达; 原核基因:编码区全部编码蛋白质; 真核基因:编码区分为外显子和内含子,只有外显子能编码蛋白质;

30

Page 31: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

同义替代 vs. 非同义替代 64个密码子,编码20个氨基酸

GTT GTC GTA GTG

CGT CGC

脯氨酸P 组氨酸H

四倍简并 二倍简并

TGG

TGC

色氨酸W

半胱氨酸C

同义替代 非同义替代 31

Page 32: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

分子进化选择压力

进化选择压力: A. 编码区:阳性选择 ~1%;阴性选择~19%;

中性进化~80%;

B. 非编码区:~100%的中性进化

中性进化: 同义突变; 非编码区DNA序列的突变对蛋白质的合成很少有影响。

32

Page 33: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

编码区:密码子

对于同义的密码子,第一位少部分可以允许不同,例如,编码Ser的六个密码子:TCT, TCC, TCA, TCG, AGT, AGC

第二位少部分可以允许不同 第三位绝大多数可以不同 近似随机; 因此: A. 第一位:阴性进化占大部分,中性进化占小部分 B. 第二位:阴性进化占大部分,中性进化占小部分 C. 第三位:阴性进化占小部分,中性进化占大部分

33

Page 34: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

密码子偏好的应用及计算

基本假设:在高表达的基因中,密码子的选择,更倾向于使用“优化”的同义密码子

推论1:给定一个物种的一些高表达的基因,我们可以估算优化的同义密码子的分布

推论2:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,预测该基因的表达量!

推论3:对于一个表达量很低的基因,我们是否能够通过将少量的密码子改变成优化密码子,从而显著提高基因的表达量?

34

Page 35: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

RSCU

相对同义密码子使用度(relative synonymous codon usage, RSCU)

定义:观测到的某一同义密码子的使用次数,除以“期望”的该密码子出现次数

∑=

=in

jij

i

ijij

Xn

XRSCU

1

1

编码第i个氨基酸的第j个密码子的出现次数

编码第i个氨基酸的同义密码子的数目

编码第i个氨基酸的第j个密码子的RSCU值

35

Page 36: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

例如,编码PHE的同义密码子UUU和UUC,表中显示分别出现15、44次

51.02/)4415(

15

1

1

=+

==

∑=

−in

jij

i

ijuuuphe

Xn

XRSCU

36

Page 37: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

大肠杆菌密码子偏好

表1 37

Page 38: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

密码子相对适应度 The relative adaptiveness of a codon

maxmax i

ij

i

ijij X

XRSCURSCU

w ==

编码第i个氨基酸的第j个同义密码子的“相对适应性”:

即该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值

38

Page 39: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

大肠杆菌 & 酵母

与表1参考数据集不同 39

Page 40: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

CAI:密码子适应指数 Codon Adaptation Index

LL

kkwCAI ∏

=

=1

L为基因中所使用的密码子数

CAI值介于0~1之间, 该值越小表示偏性越强; CAI值一般用来预测种内基因的表达水平,以及预测外源基因的表达水平。 不同物种CAI的计算依赖于各自的参考数据集。

40

演示者
演示文稿备注
反映编码区同义密码子与密码子最佳使用相符合的程度,取值范围在0—1之间。密码子适应指数(Codon adaption index。CAI)以一组具高表达水平的基因为参考,测量某一个基因的密码子偏好情况和这些高表达基因密码子偏好情况的接近程度,如果一个基因完全使用高表达基因中所用的密码子,则其CAI值为1。目前这个指数已被广泛用来预测基因的表达水平。
Page 41: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

大肠杆菌和酵母:部分基因的CAI

41

Page 42: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

异源基因:在其他物种中的CAI

42

Page 43: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

不同物种密码子使用频率可由 Codon Usage Database 查询

www.kazusa.or.jp/codon Codon W: 密码子使用频率偏好性分析,多变量分析

43

演示者
演示文稿备注
叶子弘编生物信息学; Codon W
Page 44: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

第二节,氨基酸序列的进化演变

分子进化的分析:基于氨基酸序列的分析早于DNA序列 优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较DNA更简单 p距离:p-distance 泊松校正,d距离

44

Page 45: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

P-distance 两条蛋白质序列之间的氨基酸差异数为nd, 序列的氨基酸数目均为n,则P距离:

nnp d=

所有的插入/缺失均删除

45

Page 46: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

46

氨基酸序列替换率估计

不同物种间血红蛋白α链氨基酸差异数及比例

不同物种血红蛋白α链氨基酸序列的对齐(140个aa的前60个)

Page 47: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

47

进化时间

氨基酸序列替换率

期望值 (实际值)

观测值

P不是很严格地与时间成比例

进化时间较短时,两者大致成线性关系;当进化时间较长时,多个氨基酸替代可能出现在同一位点(极端情况为回复突变),二者成非线性关系。

Page 48: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

48

TIYAPPPWS

TIYTPPPWS

TIYGPPPWS

TIYAPPPWS

例如 该位点的丙氨酸虽然发生了3次变化,但我们并没有观察到这些变化

由于多个氨基酸替代可能出现在同一位点,大多数替换估计会显著低估真正替换率。

Page 49: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

基本假设:令r为某一位点每年的氨基酸替代率,并假设所有位点的r都相同

在时间t年之后,每个位点替代的平均数为:rt 给定一个位点,氨基酸替代数k(k=0,1,2,3,…)的可能性遵循泊松分布,即

因此,某一位点氨基酸不变的概率为

!)();(

krtetkP

krt−

=

rtetP −=);0(

49

泊松校正(Poisson Correction)

Page 50: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

泊松距离 祖先序列未知:不知道当前的序列从何演化而来 解决方案:对两条已经有t年分化的序列,一条序列某位点无替代的概率为: ,两条序列同源位点均无替代概率为:

此概率可用1-p估计:q≈1-p; 两个序列间每个位点氨基酸替代总数设为d(d=2rt):

d=-ln(1-p),即泊松距离

rte−

rtrt eeq 22)( −− ==

1 ln(1 )ln(1 )

dp e d pd p

−− ≈ ⇔ − = −⇔ = − −

50

演示者
演示文稿备注
增加一个三序列分化、比对示意图
Page 51: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

51

泊松校正

0.129 0.129 0.206 0.573 0.666 0.129 0.232 0.637 0.652

0.197 0.598 0.624 0.573 0.707

0.753

泊松校正距离

P距离

Page 52: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

52

P-距离与泊松距离比较

进化时间

氨基酸序列替换率

期望值 (实际值)

P距离(观测值)

泊松距离

Page 53: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

第三节,分子系统发育分析

系统发育树:分子进化树/分子进化分析 通过进化树的构建,分析分子之间的起源

关系,预测分子的功能。 建树方法: A. 最大简约法 (Maximum Parsimony) B. 距离法 (distance-based methods) C. 最大似然性法 (Maximum Likelihood) D. 贝叶斯(Bayesian)推断

53

Page 54: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

祖先节点/树根

内部节点/分歧点,该分支可能的祖先结点

分支/世系 末端节点

A

B

C

D

E

代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等

系统发育树: 术语

54

Page 55: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

Taxon A

Taxon B

Taxon C

Taxon D

1

1

6

遗传变化

Taxon A

Taxon B

Taxon C

Taxon D

时间

Taxon A

Taxon B

Taxon C

Taxon D

无意义

分支图 进化树 时间度量树

以上三种类型的系统发育树表示相同的分支状况,相同的进化关系

系统发育树:三种类型

遗传变化 无意义 时间 遗传变化 无意义

以上三种类型的系统发育树表示相同的分支状况,相同的进化关系

时间 遗传变化 无意义

以上三种类型的系统发育树从不同方面描述同一组分支状况和进化关系。

时间 遗传变化 无意义

分支图 进化树 时间度量树

55

Page 56: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

树只代表分支的拓扑结构

A B C D E

F G F G C D E

A B

56

Page 57: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

57 无根树

基本概念

树可分为有根树和无根树两类

——有根树是具有方向的树,包含唯一的节点,作为树中所有物种的最近共同祖先。

——无根树是没有方向的树,在无其他信息(外群)或假设时不能确定树的根。不能确定其演化方向。

有根树

Page 58: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

通过外类群来确定树根

bacteria outgroup

eukaryote eukaryote

eukaryote eukaryote

archaea archaea archaea

有根树

外类群

无根树,有根树,外类群

通过外类群来确定树根

有根树

外类群 通过外类群来确定树根

有根树

外类群 通过外类群来确定树根

有根树

eukaryote

eukaryote

eukaryote

eukaryote

archaea

archaea

archaea

无根树

58

Page 59: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

选择一个或多个已知与分析序列关系较远

的序列作为外类群; 外类群可以辅助定位树根; 外类群序列与分析序列间的差异必须比分

析序列之间的差异更显著。

外类群(Outgroup)

bacteria outgroup

eukaryote eukaryote

eukaryote eukaryote

archaea archaea archaea

外类群

59

演示者
演示文稿备注
要区分不同的进化路径,在进化树分析过程中必须加入一个或多个已知与分析序列关系较远的序列作为外类群(out group)。 外类群的选择对进化分析的结果影响较大。人、黑猩猩、大猩猩、猩猩,以狒狒作为外类群,因为已知狒狒从种群中分化出来的时间比其他4个要早。
Page 60: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

60

a b

c a b c

不同数目的分类群可能的有根树和无根树

考虑3个分类群时,共有3种可能的有根树,1种无根树

a c b c b a

Page 61: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

61

a b c d

a b c d

a b c d a d b c

b a c d

c a b d

d a b c

a c b d

b c a d

c b a d

d b a c

a d b c

b a a c

c d a b

d c a b 考虑4个分类群时,共有15种可能的有根树

Page 62: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

62

a

b

c

d

a

c

b

d

a

d

b

c

考虑4个分类群时,共有3种可能的无根树

Page 63: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

无根树和有根树:潜在的数目

分类单元 无根树 有根树 3 1 3 4 3 15 5 15 105 6 105 945 7 945 10,395 … 30 ~3.58X1036 ~2.04X1038

分类单元数增多,计算量急剧增加。

因此,目前算法都为优化算法,不能保证最优解 63

Page 64: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

多序列比对(自动比对,手工校正)

选择建树方法以及替代模型

建立进化树

进化树评估

系统发育树重建分析步骤

64

演示者
演示文稿备注
在进行系统发育分析过程中,建树序列的进化模型选择是至关重要的一步,尤其对进化模型敏感的ML法和BI法,更是重中之重。对于蛋白质序列以及DNA序列,两者模型的选择是不同的。以作者的经验来说,对于蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型。而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。
Page 65: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

1. 最大简约法 (maximum parsimony, MP) 适用序列有很高相似性时

2. 距离法 (distance) 适用序列有较高相似性时

3. 最大似然法 (maximum likelihood, ML) 可用于任何相关序列集合

计算速度: 距离法 >最大简约法 >最大似然法

系统发育树重建的基本方法

65

Page 66: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

1. 最大简约法 (MP) 根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数的树的方法。

理论基础为奥卡姆剃刀 (Ockham)原则:计算所需替换数最小的那个拓扑结构,作为最优树。

在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。

优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设 (替代模型)

缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果。

66

演示者
演示文稿备注
平行突变:亲缘关系相近物种因遗传基础近似,常发生相似的基因突变。�回复突变: 突变体经过第二次突变又完全地或部分地恢复为原来的基因型和表现型,这里的第二次突变就称为回复突变。在这里要注意的是:单是表现型变得和原来一样,并不一定是因为回复突变,而有可能是第二次突变发生在另一部位上。
Page 67: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

信息位点:能将所有可能的树区别出来的

位点。

信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两

次的位点。

信息位点 (Sites are informative)

67

Page 68: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

68

演示者
演示文稿备注
Taxon:分类单元
Page 69: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

69 Tree 1突变位点4 Tree 2突变位点5 Tree 3突变位点6

用最大简约法构树, 选择最小变化的拓扑树

Page 70: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

上例 Position 5, 7, 9为信息位点;

基于position 5的三个MP树: Tree 1长度为1,Tree 2 & 3长度为2

类似Position 5, 对位点7, 9分别计算树长度

Tree 1总长:1+1+2=4

Tree 2长5;Tree 3长6

计算结果:MP tree的最优结果为tree 1

70

Page 71: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

2. 距离法

又称距离矩阵法,首先通过各个物种之间的

比较,根据一定的假设(进化距离模型)推

导得出分类群之间的进化距离,构建一个进

化距离矩阵。再依据进化距离,分别依次将

序列合并聚类,构建进化树。

71

Page 72: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

简单的距离矩阵

72

Page 73: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

由进化距离构建进化树的方法有很多,常见

有: (1) Fitch-Margoliash Method (FM法): 对短支长

非常有效 (2) Neighbor-Joining Method (NJ法/邻接法):求最短支长,最通用的距离方法 (3) Neighbors Relaton Method(邻居关系法) (4) Unweighted Pair Group Method with Arithmetic Mean (UPGMA,非加权组平均法)

通过距离矩阵建树的方法

73

Page 74: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

(1) Fitch-Margoliash方法 (FM法)

=> D和E最接近! D

E

ABC

e

d

m

示例

74

Page 75: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

分成三组:D, E, 以及ABC

(1) FM法示例

75

Page 76: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

DE距离=d+e=10 (1) D到ABC间的平均距离=d+m = 32.7 (2) E到ABC间的平均距离=e+m = 34.7 (3) (2)-(3)+(1) d=4,e=6

D

E

ABC

e

d

m

76

Page 77: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

分成三组:C, DE, 以及AB => C最接近DE!

77

Page 78: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

c+g+(e+d)/2=19 (1) c+f+(a+b)/2=40 (2) (e+d)/2+(a+b)/2+f+g=41 (3) (1)+(2)-(3) => c=9 => g=5

78

Page 79: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

由:(a+b)/2+f+g+(d+e)/2=41 得:f=20 由:a+f+c=39 得:a=10,则b=12

79

Page 80: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

d=e=10/2=5

UPGMA法 非加权组平均法

80

Page 81: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

c=19/2=9.5 g=c-d=9.5-5=4.5

81

Page 82: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

a=b=22/2=11

A B (CDE) A - 22 39.5 B - - 41.5

(CDE) - - -

82

Page 83: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

(AB) (CDE) (AB) - 40.5

(CDE) - -

f1+a=f2+c=40.5/2=20.25 f1=9.25 , f2=11.75

83

Page 84: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

最大似然法 (ML)

最大似然法(maximum likelihood, ML): 最早应用于对基因频率数据的分析上

选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树;

在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长;

缺点:费时,每个步骤都要考虑内部节点的所有可能性

改进:启发式算法,分枝交换搜索等

84

Page 85: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

85

根据实际情况选择合适的构树方法

选择相关 序列数据

强序列相似性? 是

最大简约法

最大似然法

距离法

进化树评估

进行多 序列比对

具有可识别的 序列相似性?

Page 86: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

1. 可靠的待分析数据 2. 准确的多序列比对 3. 选择合适的建树方法:

A. 序列相似程度高,MP首先 B. 序列相似程度中等, Distance法首先 C. 序列相似程度较低,ML首先 D. 序列相似程度太低,无意义

4. 一般采用两种及以上方法构建进化树,无

显著区别可接受

构建进化树的一般原则 (2)

86

Page 87: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

进化树的可靠性分析

单纯由预先获得的多序列比对结果数据所推导出的进化树有时并不一定可靠。 改进办法:引进一些统计分析来寻找更优的进化树,检验结果的可靠性。 最常见的就是bootstrap评估。

87

Page 88: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

从排列的多序列中随机有放回的抽取某一列,

构成相同长度的新的排列序列; 重复上面的过程,得到多组新的序列; 对这些新的序列进行建树,再观察这些树与原

始树是否有差异,以此评价建树的可靠性。 一般Bootstrap的值>70,则认为构建的进化树

较为可靠。

自展法- 进化树的可靠性分析 Bootstrap Method

88

演示者
演示文稿备注
待举例!
Page 89: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

89

原始排列 S1 AACAAC

S2 AACCCC

S3 ACCAAC

S4 CCACCA

S5 CCAAAC

Bootstrap1 S1 ACAAAC S2 ACCCCC S3 ACAAAC S4 CACCCA S5 CAAAAC Bootstrap2 S1 AAAACC S2 AACCCC S3 CCAACC S4 CCCCAA S5 CCAACC Bootstrap3 S1 ACAAAC S2 ACCCCC S3 CCAAAC S4 CACCCA S5 CAAAAC

Page 90: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

基于全基因组的分子系统发育分析

选用哪些片段进行分析?基因的水平迁移 全基因组考虑了所有的生物特征,并可作为所有生物的共同指标 基于部分片段的进化树、全基因组进化树、真正的物种进化树 不同物种全基因组的序列比对

90

Page 91: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

第四节,系统发育分析软件介绍 软件 说明 PHYLIP 免费的、集成的进化分析工具

http://evolution.genetics.washington.edu/phylip.html MEGA 图形化、集成的进化分析工具,不包括ML

http://www.megasoftware.net/ PAUP 商业软件,集成的进化分析工具

http://paup.csit.fsu.edu/ PHYML 最快的ML建树工具

http://atgc.lirmm.fr/phyml/ MrBayes 基于贝叶斯方法的建树工具

http://mrbayes.csit.fsu.edu/ MAC5 基于贝叶斯方法的建树工具

http://www.agapow.net/software/mac5/ 91

Page 92: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

相关软件

软件 说明 ClustalX 图形化的多序列比对工具;构建N-J系统树

http://bips.u-strasbg.fr/fr/Documentation/ClustalX/ GeneDoc 多序列比对结果的美化工具(可以导入fasta格式的文

件,作图可用于发表)http://www.psc.edu/biomed/genedoc/

BioEdit 序列分析的综合工具 http://www.mbio.ncsu.edu/BioEdit/bioedit.html

TreeView 进化树显示工具 http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

92

Page 93: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

MEGA使用说明

93

Page 94: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

一、序列文本的准备

构树之前先将目标基因序列都分别保存为txt文本文件中(或者把所有序列保存在同一个txt文本中,可以用“>基因名称”作为第一行,然后重起一行 编辑基因序列),序列只包含序列字母(ATCG或氨基酸简写字母)。文件名名称可以已经您的想法随意编辑。

94

Page 95: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

95

Page 96: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

二、序列导入

(1)打开MEGA软件,界面如下

96

Page 97: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

(2)导入需要构建系统发育树的目的序列

97

Page 98: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

OK

98

Page 99: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

选择分析序列类型(如果是DNA序列,点击DNA,如果是蛋白序列,点击Protein)

99

Page 100: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

出现新的对话框,创建新的数据文件

100

Page 101: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

选择序列类型

101

Page 102: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

导入序列

102

Page 103: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

103

Page 104: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

导入序列成功

104

Page 105: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

三、序列比对分析

点击工具栏中“W”工具,进行比对分析

105

Page 106: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

比对结束后删除两端不能够完全对齐碱基

106

Page 107: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

四、系统发育分析

107

Page 108: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

关闭窗口,选择保存文件路径,自定义文件名称

108

Page 109: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

五、系统发育树构建

根据不同分析目的,选择相应的分析算法

109

Page 110: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

Bootstrap 选择1000,点击Compute,开始计算

110

Page 111: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

111

Page 112: 生物信息学 - USTCstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/zyzhang... · 2015-11-14 · 概念. 生物进化的理论使各种生物间以亲缘关系 为纽带联系起来,它是生物信息学中一些重

计算完毕后,生成系统发育树;根据不同目的,导出分析结果,进行简单的修饰,保存

112