Upload
bayardo-picazo
View
236
Download
1
Embed Size (px)
Citation preview
Construcción de árboles filogenéticos
Construcción de árboles filogenéticos
Para construir un árbol filogenético se necesitan tres ingredientes básicos:
Materiales de partida
1.- Un alineamiento múltiple de secuencias bien hecho
2.- Un modelo evolutivo que explique las diferencias observadas
3.- Uno de los muchos métodos que existen para construir el árbol
Construcción de árboles filogenéticos
Hay que saber seleccionar las secuencias del AMS
Construcción de árboles filogenéticos
1.- Es importante escoger bien las secuencias (ortólogas o parálogas)
2.- Es importante que las secuencias tengan el grado de diversidad adecuado: ni poca ni mucha.
3.- Una vez hecho el AMS, se considera que cada posición ha evolucionado de forma independiente y, normalmente, a la misma velocidad. Si se pueden evitar los huecos, mejor.
4.- Para construir el árbol filogenético, en vez de cuantificar el grado de similitud, se cuantifican las diferencias.
El alineamiento múltiple de secuencias
Construcción de árboles filogenéticos
Construcción de árboles filogenéticos
Modelos evolutivos (1)
1.- El más sencillo: Todas las secuencias evolucionan a la misma velocidad y la divergencia es moderada (cada posición ha mutado, como mucho, una vez). Es un modelo poco realista, que puede valer si se aplican correcciones.
2.- Corrección de Poisson: La velocidad de mutación es uniforme (la misma para cada sitio y por unidad de tiempo). En cada posición, la probabilidad de que se produzcan mutaciones se ajusta a una distribución de Poisson. 3.- Corrección Gamma (): Considera que la probabilidad de que se produzcan mutaciones no es la misma en todas las posiciones (esto es lo que se suele observar en las secuencias funcionales o en las que codifican proteínas)
Construcción de árboles filogenéticos
Modelos evolutivos (2)
La suma de cada fila es cero: el número de posiciones (la longitud de las secuencias) permanece constante
La suma de cada columna es cero: el número de bases de cada tipo permanece constante
4.- Jukes-Cantor (JC): Cada posición es independiente y evoluciona a la misma velocidad. Todas las bases son igual de abundantes y todas las sustituciones de nucleótidos son equiprobables y ocurren a la misma velocidad (aunque se puede aplicar la corrección Gamma).
Construcción de árboles filogenéticos
Modelos evolutivos (3)
5.- Kimura con 2 parámetros (K2P): Diferencia entre transiciones y transversiones. Las transiciones ocurren a una velocidad y las transversiones a una velocidad . R es el cociente entre la velocidad de transiciones y transversiones (R=/2). Si fuesen equiprobables, R valdría ½, pero es frecuente observar valores de 4 o mayores (la presión evolutiva parece favorecer las transiciones). Todas las bases son igual de abundantes.
Construcción de árboles filogenéticos
A
G C
T
Transversiones ()
Transiciones ()
Transiciones vs. transversiones
Purina ↔ Purina
Pirimidina ↔ Pirimidina
Purina ↔ Pirimidina
R = relación transiciones/transversiones
Aunque el número de transversiones es el doble que el de transiciones, las transiciones son dos
veces más frecuentes que las transversiones
2
R
Construcción de árboles filogenéticos
transversiones
Nº total de mutaciones
Sustituciones de nucleótidos
observadas en un conjunto de
secuencias alineadas del gen para la
subunidad II de la citocromo c oxidasa mitocondrial bovina.
Nº de transiciones >> nº de transversiones
Construcción de árboles filogenéticos
Modelos evolutivos (4)
6.- HKY85 (Hasegawa, Kishino, Yano): Es una modificación del modelo de Kimura en la que se tiene en cuenta la composición real de las bases, que no tienen por qué ser igual de abundantes.
La composición de las bases es A:C:G:T. Se cumple que A+C+G+T = 1
Construcción de árboles filogenéticos
Modelos evolutivos (5)
7.- Modelos complejos: Se tiene en cuenta la composición real de las bases y cada tipo de sustitución se da con una frecuencia distinta. Cada posición muta de forma independiente y con igual probabilidad.
Construcción de árboles filogenéticos
Métodos para construir árboles
filogenéticos
Métodos que utilizan la distancia evolutiva
Métodos que utilizan directamente el AMS
Sólo utilizan el modelo evolutivo para calcular las
distancias
UPGMA
Fitch - Margoliash
Neighbor - joining
Hacen uso del modelo evolutivo durante todo el
proceso de creación del árbol filogenético
Máxima parsimonia
Máxima probabilidad
Métodos para construir árboles filogenéticos
Construcción de árboles filogenéticos
Etapas en la construcción de árboles filogenéticos
Criterios óptimos: Distancias, longitud de las ramas, etc.
Algoritmos: UPGMA, neighbour-joining, F-M, etc.
Construcción de árboles filogenéticos
Para construir el árbol filogenético, en vez de cuantificar el grado de similitud, se cuantifican las diferencias, es decir, el número de posiciones que presentan un nucleótido o un aminoácido distinto. Es preferible ignorar los indels porque no existe un sistema de puntuación fiable para ellos.
Métodos basados en la distancia evolutiva
Construcción de árboles filogenéticos
Cálculo de las distancias evolutivas
Construcción de árboles filogenéticos
Cambios producidos entre dos secuencias
Construcción de árboles filogenéticos
Matriz de distancias evolutivas
Un nucleótido se convierte en otro en un único paso.
Para que un aminoácido se
convierta en otro, se necesitan uno, dos o tres pasos, según el número
de bases del codón que deban cambiar.
En la Tabla se indica el número
mínimo de cambios que se necesitan.
Construcción de árboles filogenéticos
Distancia-p (Distancia de Hamming)
Construcción de árboles filogenéticos
Distancia-p
La distancia evolutiva entre dos secuencias alineadas se puede calcular mediante la expresión:
L
Dp
D = número de posiciones que contienen residuos distintos
L = número total de posiciones alineadas (excluyendo indels)
Este método es impreciso:Cuando la tasa de mutación es baja o el periodo evolutivo es corto, se observan pocos cambios y hay una elevada variabilidad estadística entre las secuencias.
Cuando el periodo evolutivo es largo, muchos sitios habrán mutado más de una vez, con lo cual se está subestimando el número real de mutaciones que han tenido lugar, que es lo que queremos calcular.
Además, no todas las especies (ni todos los genes de una misma especie) evolucionan a la misma velocidad, pues se encuentran sometidos a diversas presiones evolutivas a lo largo del tiempo.
p también puede considerarse como la probabilidad de que se produzca una mutación en una determinada posición
Construcción de árboles filogenéticos
Corrección de Poisson (1)
La tasa de mutación es uniforme (r) para cada posición y por unidad de tiempo. Por tanto, al cabo de un tiempo t, el promedio de mutaciones en cada posición es rt.
En cada posición, la probabilidad de que se produzcan n mutaciones se ajusta a una distribución de Poisson.
Se considera que:
rtenp )0(
Consideremos dos secuencias que divergieron hace un tiempo t. Como han evolucionado de forma independiente, en cada secuencia se habrán producido rt mutaciones y, por tanto, la distancia evolutiva (d) entre ellas será de 2rt.
!
)()(
n
rtenp
nrt
En cada una de ellas, la probabilidad de que se hayan producido n cambios en una posición determinada es, según la distribución de Poisson,
Construcción de árboles filogenéticos
Corrección de Poisson (2)
La probabilidad de que no se hayan producido cambios en una misma posición de las dos secuencias es:
)1(2 pee drt
donde p es la distancia p (D/L).
A partir de la expresión anterior se obtiene que:
)1ln( pdP
Construcción de árboles filogenéticos
Corrección Gamma ()
La tasa de mutación varía en función de la posición en la secuencia (lo que parece ser cierto en el caso de secuencias funcionales o que codifican proteínas). El parámetro a determina la variación.
Se considera que:
En el caso de secuencias de proteínas se ha estimado que el valor del parámetro a puede variar entre 0,2 y 3,5.
Cuanto más elevado sea el valor de a, más se acerca al caso en que la tasa de mutación es constante.
Construcción de árboles filogenéticos
Jukes – Cantor (JC)
Todas las posiciones se comportan de forma independiente, con la misma tasa de mutación. Todas las sustituciones de nucleótidos se producen con la misma velocidad por unidad de tiempo. Todas las bases están presentes en igual proporción.
Se considera que:
)
3
41ln(
4
3pdJC
Construcción de árboles filogenéticos
Jukes – Cantor (JC) corregido por Gamma
Todas las posiciones se comportan de forma independiente, pero con distinta tasa de mutación. Todas las bases están presentes en igual proporción.
Se considera que:
13
41
4
3/1 a
JC pad
Construcción de árboles filogenéticos
Kimura (K2P)
)21ln(4
1)21ln(
2
12 QQPd PK
Las transiciones y las transversiones tienen lugar con distinta probabilidad. Todas las bases están presentes en igual proporción.
Se considera que:
P = fracción de sitios alineados que presenta una transición
Q = fracción de sitios alineados que presenta una transversión
P + Q = distancia p
Construcción de árboles filogenéticos
¿Qué método utilizo para calcular distancias?
Construcción de árboles filogenéticos
Distancias aditivas y distancias ultramétricas
En un árbol, si las distancias son aditivas, también son ultramétricas, pero lo contrario no siempre se cumple: en un árbol, las distancias pueden ser ultramétricas pero no aditivas (porque no todas las OTU
tienen por qué haber evolucionado a la misma velocidad).
Construcción de árboles filogenéticos
Unweighted pair group method using arithmetic averages
Construcción de árboles filogenéticos
UPGMA
Construcción de árboles filogenéticos
Algoritmo de UPGMA
Unweighted pair group method using arithmetic averages
Construcción de árboles filogenéticos
Cálculo de las distancias
Construcción de árboles filogenéticos
1.- Calcular las distancias entre los taxa
Matriz de distancias
Métodos para representar las distancias entre las secuencias
Método gráfico
menor distancia
Construcción de árboles filogenéticos
2.- Identificar los grupos menos separados
La menor distancia es dAB. A y B se agrupan. Las dos
ramas tienen igual longitud (dAB/2), de modo que su suma sea dAB (el
árbol es aditivo).
1 y 2 se agrupan. Se crea un nuevo nodo (6)
Construcción de árboles filogenéticos
3.- Recalcular las distancias
A y B están agrupadas (AB). Se calcula la
distancia entre (AB) y las secuencias C y D. Ahora la menor distancia es d(AB)C.
Ahora, la menor distancia es d45. Se agrupan para formar (4,5) y se crea el
nodo 7.
Construcción de árboles filogenéticos
4.- Agrupar los menos separados
(AB) se agrupa con C y forman (ABC). El nuevo nodo se coloca a una longitud d(AB)C/2 de los
nodos terminales.
Ahora, tenemos dos grupos distintos:
(1,2) y (4,5).
Construcción de árboles filogenéticos
5.- Recalcular las distancias
Ahora, la menor distancia es d(45)3. Se
agrupa (4,5) con 3 para formar (3,4,5).
Por último, se agrupa (ABC) con D. El nuevo nodo se coloca a una longitud
d(ABC)D/2 de los nodos terminales.
Construcción de árboles filogenéticos
6.- Agrupar los menos separados
Por último, se agrupa (3,4,5) con (1,2). Se
crea el nodo 9, que es la raíz del árbol de la
cual descienden todos los taxa
Construcción de árboles filogenéticos
Ventajas e inconvenientes
* Genera un único árbol con raíz, ultramétrico
* Es un método rápido y sencillo
* Es adecuado si se cumple la “molecular clock hypothesis”
* Se puede aplicar a un gran número de taxa
* Si no se cumple la premisa de una velocidad constante de mutación, se pueden generar topologías incorrectas. Esto se puede corregir mediante la introducción de un taxón externo (outgroup) que no está relacionado con los demás taxa y que permite corregir las distintas tasas de evolución. Se usa poco, principalmente con fines educativos.
Construcción de árboles filogenéticos
Science 155(760):279-284 (1967)
Construcción de árboles filogenéticos
El método de Fitch – Margoliash
Construcción de árboles filogenéticos
Fitch – Margoliash (1)
Construcción de árboles filogenéticos
Fitch – Margoliash (2)
a = 10
b = 12
c = 29
Construcción de árboles filogenéticos
Fitch – Margoliash (3)
A
B
C
b1
b2
b3
21 bbdAB
31 bbdAC 32 bbdBC
)(2
11 BCACAB dddb )(
2
12 ACBCAB dddb
)(2
13 ABBCAC dddb
Construcción de árboles filogenéticos
Fitch – Margoliash (3)
Construcción de árboles filogenéticos
Fitch – Margoliash (4)
d D
E
(ABC)
e m
Construcción de árboles filogenéticos
Fitch – Margoliash (5)
(DE)
C
(AB)
c = 9
g = 10 h = 21
Construcción de árboles filogenéticos
Ventajas e inconvenientes
* Genera un único árbol sin raíz, aditivo
* Es un método rápido y sencillo
* No asume la hipótesis del “molecular clock”.
* Se puede aplicar a un gran número de taxa
* Depende del método utilizado para calcular las distancias: van bien si las distancias son pequeñas y las secuencias largas. Si las secuencias son cortas, el cálculo de las distancias puede incluir errores estadísticos apreciables.
Construcción de árboles filogenéticos
Mol. Biol. Evol. 4 (4):406-425 (1987)
Construcción de árboles filogenéticos
The Neighbor – Joining method (1)
Construcción de árboles filogenéticosEl principio del método Neighbor-Joining (N-J) se basa en encontrar vecinos secuencialmente que minimicen la longitud total del árbol. El método comienza con un árbol tipo estrella:
The Neighbor – Joining method (2)
Construcción de árboles filogenéticos
The Neighbor – Joining method (3)
Se analizan todas las parejas de vecinos
posibles y se selecciona aquélla que minimiza la
longitud total de las ramas internas del árbol (X--Y) (siguiendo el principio de
mínima evolución)
…
Construcción de árboles filogenéticos
The Neighbor – Joining method (4)
N - J = 1 + 2 N - J = 5 + 6 N - J = (1,2) + 3
N - J = (1,2,3) + 4 N - J = (1,2,3,4) + (5,6) N - J = (1,2,3,4,5,6) + (7,8)
Construcción de árboles filogenéticos
Ventajas e inconvenientes
* Genera un único árbol sin raíz, aditivo
* Es un método rápido y sencillo
* Asume el principio de mínima evolución (minimiza la longitud de las ramas del árbol). No asume la hipótesis del “molecular clock”. Es especialmente adecuado cuando la velocidad de evolución de los distintos taxa varía.
* Se puede aplicar a un gran número de taxa
* Depende del método utilizado para calcular las distancias: van bien si las distancias son pequeñas y las secuencias largas. Si las secuencias son cortas, el cálculo de las distancias puede incluir errores estadísticos apreciables.
Construcción de árboles filogenéticos
Métodos que utilizan directamente el AMS
Construcción de árboles filogenéticos
Máxima parsimonia
Construcción de árboles filogenéticos
Máxima parsimonia
Construcción de árboles filogenéticos
Sitios invariantes, informativos y no informativos
Construcción de árboles filogenéticos
Sitios invariantes
Construcción de árboles filogenéticos
Sitios no informativos
Construcción de árboles filogenéticos
Sitios informativos
Construcción de árboles filogenéticos
Se selecciona el árbol que requiere menos cambios
Construcción de árboles filogenéticos
Se selecciona el árbol que requiere menos cambios
Construcción de árboles filogenéticos
Ventajas e inconvenientes
Genera uno o más árboles sin raíz
Funciona bien cuando hay poca divergencia. Con mucha divergencia puede dar lugar a topologías incorrectas
Es muy eficaz con pocos taxa y si hay muchos sitios informativos
Con más de 10 taxa hay que utilizar métodos heurísticos para encontrar el árbol (que puede no ser el mejor)
Como considera todos los árboles posibles, el proceso requiere muchos recursos computacionales y es lento.
Construcción de árboles filogenéticos
Construcción de árboles filogenéticos
J. Mol. Evol. 33:114-124 (1991)
Construcción de árboles filogenéticos
Máxima probabilidad
Construcción de árboles filogenéticos
Máxima probabilidad (árbol sin raíz)
Árbol sin raíz
Uno de los tres posibles árboles sin raíz
Construcción de árboles filogenéticosProbabilidad asociada a la posición 5
Transformación logarítmica
Probabilidad asociada al árbol
Máxima probabilidad (árbol sin raíz)
Construcción de árboles filogenéticos
Árbol con raíz Uno de los quince
posibles árboles con raíz
Dos de la 64 formas de colocar una base en cada nodo interno
Probabilidad asociada a la posición marcada
con asterisco
Máxima probabilidad (árbol con raíz)
Construcción de árboles filogenéticos
La máxima probabilidad depende del modelo evolutivo
Construcción de árboles filogenéticos
Ventajas e inconvenientes
Genera uno o más árboles con o sin raíz
Funciona bien cuando hay poca divergencia. Con mucha divergencia puede dar lugar a topologías incorrectas
Es muy eficaz con pocos taxa y utiliza toda la información contenida en el alineamiento.
Si hay muchos taxa hay que utilizar métodos heurísticos para encontrar el árbol (que puede no ser el mejor)
Como considera todos los árboles posibles, el proceso requiere muchos recursos computacionales y es lento.
El resultado depende mucho de las suposiciones que se hayan hecho sobre la velocidad de sustitución de nucleótidos.
Construcción de árboles filogenéticos
¿Qué método debo utilizar?
Construcción de árboles filogenéticos
Bootstrapping (1)
Construcción de árboles filogenéticos
Bootstrapping (2)
Construcción de árboles filogenéticos
Bootstrapping (3)
Construcción de árboles filogenéticos
Bootstrapping (3)
Construcción de árboles filogenéticos
http://evolution.genetics.washington.edu/phylip.html
PHYLIP
Construcción de árboles filogenéticos
PAUP
http://paup.csit.fsu.edu/