47
“INTRODUCCIÓN AL CONCEPTO Y METODOLOGÍAS DEL RELOJ MOLECULAR” Norberto Martínez Méndez Departamento de Zoología, Instituto de Biología, Universidad Autónoma de México, México, D. F. México 1. El Reloj Molecular a) Concepto de reloj molecular y la teoría Neutral El concepto de reloj molecular fue expuesto por primera vez en los trabajos de Zuckerland y Pauling (1962, 1965), quienes al comparar la secuencia de una misma proteína proveniente de distintas especies, sugirieron que las proteínas y los genes que las codifican pueden evolucionar a tasas constantes, lo que puede ser usado para medir la divergencia molecular y con estos datos calibrar un reloj molecular. Lo anterior significa que para cada proteína la cantidad de sustituciones de aminoácidos es constante a través del tiempo. Los datos de Zuckerland y Pauling, así como el descubrimiento de que muy probablemente la gran mayoría de los organismos en sus secuencias de ADN, sean heterocigotos para todos sus loci, fueron algunos de los hechos que llevaron a Motoo Kimura a crear la teoría Neutralista de la evolución Molecular (Kimura, 1968). En la teoría neutral, se expone que la mayoría de las mutaciones son selectivamente neutras y que es la deriva génica la que determina la probabilidad de que estas mutaciones se fijen o se pierdan. Asimismo, Kimura concluyó que la tasa de evolución en términos de sustituciones mutantes (k) es igual a la tasa de

Reloj Molecular(underdog) (2).pdf

Embed Size (px)

Citation preview

  • INTRODUCCIN AL CONCEPTO Y METODOLOGAS DEL RELOJ

    MOLECULAR

    Norberto Martnez Mndez

    Departamento de Zoologa, Instituto de Biologa, Universidad Autnoma de Mxico, Mxico, D. F. Mxico

    1. El Reloj Molecular

    a) Concepto de reloj molecular y la teora Neutral

    El concepto de reloj molecular fue expuesto por primera vez en los trabajos

    de Zuckerland y Pauling (1962, 1965), quienes al comparar la secuencia de una

    misma protena proveniente de distintas especies, sugirieron que las protenas y

    los genes que las codifican pueden evolucionar a tasas constantes, lo que puede

    ser usado para medir la divergencia molecular y con estos datos calibrar un reloj

    molecular. Lo anterior significa que para cada protena la cantidad de sustituciones

    de aminocidos es constante a travs del tiempo.

    Los datos de Zuckerland y Pauling, as como el descubrimiento de que muy

    probablemente la gran mayora de los organismos en sus secuencias de ADN, sean

    heterocigotos para todos sus loci, fueron algunos de los hechos que llevaron a

    Motoo Kimura a crear la teora Neutralista de la evolucin Molecular (Kimura,

    1968).

    En la teora neutral, se expone que la mayora de las mutaciones son

    selectivamente neutras y que es la deriva gnica la que determina la probabilidad

    de que estas mutaciones se fijen o se pierdan. Asimismo, Kimura concluy que la

    tasa de evolucin en trminos de sustituciones mutantes (k) es igual a la tasa de

  • 3

    mutacin por gameto y por unidad de tiempo (v), lo cual quiere decir que la tasa

    evolutiva en trminos de sustituciones mutantes en una poblacin es equivalente a

    la tasa de mutacin por gameto, sin importar cual es el tamao poblacional. Esta

    igualdad slo es vlida en alelos neutros, pues si el mutante tiene una ventaja

    selectiva (s), entonces la probabilidad de que este mutante logre fijarse en la

    poblacin (u) es aproximadamente igual a 2s y la ecuacin de la tasa evolutiva

    debe cambiar; entonces si (N) es el tamao efectivo de la poblacin y puesto que

    2Nv es el total de mutantes nuevos en cada generacin dado que cada individuo

    tiene dos juegos de cromosomas, la ecuacin se convierte en K=

    (2s)(2Nv)=4Nsv. Es decir, en genes con ventaja selectiva, la tasa evolutiva si

    depende del tamao de la poblacin.

    Segn la teora neutralista, los valores ms o menos constantes de las tasas

    evolutivas observadas en diferentes organismos se explican mejor por la relacin

    k=v que por la explicacin seleccionista K=4Nsv. La propuesta original de Kimura

    de que la mayora de los cambios en las secuencias aminoacdicas de la protenas

    se corresponden con mutaciones neutras, se hizo posteriormente extensivo al DNA

    que las codificaba.

    Lo anterior, no quiere decir que la mayora de las mutaciones sean neutras,

    pero aquellas mutaciones deletreas surgidas son rpidamente eliminadas por la

    seleccin purificadora. Asimismo, segn esta teora las mutaciones ventajosas son

    una proporcin casi despreciable de los cambios moleculares, lo cual explica la

    constancia observada en las tasas de sustitucin, esto debido a que las protenas

  • 4

    tienen una limitacin funcional para variar, por lo que tienen baja tolerancia a los

    cambios aminoacdicos que pueden alterar su funcin.

    Adems, la teora neutralista nos dice que las variaciones que se agregan al

    acervo gentico lo hacen de una manera aleatoria, por lo que el proceso tiene un

    ritmo ms o menos constante, lo cual justifica la propuesta de un reloj molecular,

    en donde una determinada molcula proteica o de ADN, puede ser utilizada para

    estimar el tiempo de divergencia entre especies.

    Actualmente an existe un gran debate entre los neutralistas y los

    seleccionistas (los cuales piensan que las sustituciones se fijan porque confieren

    una ventaja selectiva y que las mutaciones neutras son raras). Los datos

    disponibles de secuencias proteicas en los aos sesenta produjeron el surgimiento

    de la teora neutral, pero en los setentas al estudiarse ms secuencias y reunirse

    ms evidencia comparativa, se acumularon evidencias de variacin de tasas

    evolutivas entre distintas especies y la constancia del reloj molecular fue puesta en

    juicio.

    Los defensores de la teora neutral han dado algunas explicaciones de la

    variacin en el reloj molecular y una de las maneras de incorporar la variacin de

    las tasas de sustitucin dentro de la estructura neutralista fue incorporando

    aquellas mutaciones con pequeos coeficientes de seleccin, as surgi la teora

    casi neutral de Tomoko Ohta (1992). Lo que es claro es que an faltan ms

    anlisis de secuencias en muchas especies y mejores mtodos estadsticos para

    aproximarse al problema (Page y Holmes, 2000).

  • 5

    b) El reloj molecular ideal

    El reloj molecular universal ha sido propuesto para muchos genes y regiones

    genmicas y en un amplio espectro de especies, es as que

    estudios entre varios linajes de vertebrados indican una tasa de mutacin de

    aproximadamente 2% en la divergencia de secuencias por milln de aos ( Brown

    et al., 1979). Pero aunque hoy existen datos que cuestionan estas afirmaciones,

    debemos preguntarnos si es posible la existencia de un reloj molecular ideal.

    En un reloj molecular ideal, se espera que el cambio molecular sea una

    funcin lineal del tiempo con sustituciones acumuladas siguiendo una distribucin

    de Poisson, pues la nica variacin esperada es de origen estocstico (Wilson et

    al.,1987). Para esta situacin se ha propuesto una distribucin de Poisson, pues

    este modelo considera un nmero X de eventos (x= 0,1,2,...) en este caso

    hablamos de sustituciones, cuando la probabilidad de ocurrencia de estos eventos

    es pequea, pero el nmero de oportunidades para la ocurrencia de estos es

    grande, dado el tamao del genoma. Asimismo, se espera que un reloj molecular

    ideal tenga una tasa de cambio equivalente a travs de todas las posiciones y de

    todos los linajes, que el rbol filogentico pueda ser reconstruido sin error y que

    cada rama pueda ser analizada independientemente, que el nmero de

    sustituciones a travs de cada linaje en el rbol pueda ser reconstruida sin error,

    que los datos de calibracin para todos los tiempos de divergencia usados para

    calcular la tasa del reloj molecular sean conocidos sin error y que la regresin del

    tiempo del nmero de substituciones pueda ser conducida sin error (Hillis, et al.

    1996).

  • 6

    An bajo los supuestos no realistas de un reloj molecular ideal, no se puede

    asignar con exactitud una edad determinada a un linaje, pues simplemente se est

    manejando un modelo estadstico el cual arroja los resultados con lmites de

    confianza asociados. Por lo que en algunas ocasiones no podramos decir si el

    nmero de sustituciones observadas entre dos linajes relacionados puedan tener la

    misma antigedad, debido precisamente a los lmites de confianza del reloj

    molecular. Es as que una de las fuentes importantes de error a la hora de emplear

    un reloj molecular es la misma variacin estocstica debida al modelo de

    sustitucin empleado.

    2. Consideraciones en el uso del reloj molecular

    Actualmente, muchos estudios han mostrado una considerable tasa de

    heterogeneidad del ADN mit dentro y entre varios grupos de animales, y

    recientemente hay trabajos que han sugerido la posibilidad de estimar edades sin

    asumir un reloj molecular global (Sanderson, 1998;Yoder y Yang, 2000). Adems,

    han surgido nuevos modelos de sustitucin nucleotdica, por lo que antes de

    evaluar los tiempos de divergencia entre linajes es necesario evaluar los distintos

    modelos de sustitucin nucleotdica existentes. Asimismo, actualmente existen

    mtodos para reconstruir tiempos y tasas de divergencia, los cuales requieren

    considerar si hay o no constancia en las tasas de sustitucin nucleotdica, por lo

    cual, hay una serie de pruebas que se deben realizar antes de hacer inferencias

    acerca de los tiempos de divergencia (Sanderson, 1998).

    Por otra parte, la estimacin de los tiempos de divergencia cuando se

    estudia un gene, es complicada, pero la cuestin de cmo extraer apropiadamente

  • 7

    informacin evolutiva de la combinacin de mltiples genes, es an ms difcil, y

    s debe tener en mente que las tasas evolutivas cambian a travs del tiempo y

    entre genes. En este sentido, existen pocos mtodos que trabajen con grupos de

    datos provenientes de varios genes (Thorne y Kishino, 2002).

    Otro aspecto que debemos considerar y que ya se ha tocado brevemente,

    es el concerniente al error asociado a los mtodos y algoritmos utilizados. Es as,

    que podemos distinguir dos tipos de errores, el error estocstico que es el que est

    asociado a un nmero de muestra muy pequeo, y el error sistemtico que es

    aquel que surge por utilizar un modelo o mtodo que describe inadecuadamente el

    proceso evolutivo subyacente. Por ejemplo, el criterio de optimizacin puede ser

    una causa importante de error cuando se usa Parsimonia y Mxima verosimilitud,

    pero adems para los mtodos que utilizan Mxima verosimilitud, el modelo de

    sustitucin elegido puede ser una causa de error sistemtico importante.

    3. Seleccin de modelos evolutivos

    Uno de los mayores problemas a los que se enfrentan quienes reconstruyen

    filogenias moleculares, y que afecta directamente el trabajo con el reloj molecular,

    es la saturacin en las secuencias (sustituciones mltiples en un solo sitio),

    problema que se ha tratado de solucionar buscando modelos ms adecuados de

    evolucin nucleotdica. Estos modelos bsicamente difieren entre ellos por el

    nmero y tipos de parmetros que son libres de variar. Los parmetros de los

    modelos deben incluir el nmero de tipos de sustituciones, las frecuencias de las

    cuatro bases nucleotdicas y la variacin en la tasa de sustitucin entre sitios

    nucleotdicos (Arbogast, et al.,2002).

  • 8

    Actualmente, existen cinco modelos bsicos de sustitucin nucleotdica: El

    modelo de Jukes-Cantor (JC, por sus siglas en ingls), que considera frecuencias

    de bases iguales con sustituciones equitativas; El modelo del parmetro 2 de

    Kimura (K2P), que considera frecuencia de bases iguales con transversiones y

    transiciones con diferentes tasas de sustitucin; El modelo de Felsenstein (F81)

    con frecuencias de bases no equitativas y con todas los tipos de sustituciones

    cambiando a la misma tasa; El modelo de Hasegawa (HKY85), permitiendo

    frecuencias distintas de bases y transversiones y transiciones con diferentes tasas

    de sustitucin, y por ltimo tenemos al modelo ms general el de Tiempo General

    Reversible (GTR), considerando frecuencias de bases no equitativas y que los seis

    pares de sustituciones pueden cambiar a diferentes tasas (Page y Holmes, 2000).

    Para cualquier serie de datos moleculares, se puede encontrar el modelo

    que mejor se ajuste a nustros datos, para lo cual se ha desarrollado la prueba de

    Razn de verosimilitud (likelihood ratio test, LRT), para decidir entre los modelos

    de sustitucin molecular. Esta prueba viene implementada en el programa

    Modeltest (Posada y Crandall, 1998) y que trabaja en conjunto con el paquete

    PAUP (Swoffor, 1998).

    No obstante, es obvio que los modelos de evolucin molecular ms simples

    no comprenden la complejidad en la evolucin de secuencias, pero al mismo

    tiempo es evidente que los modelos ms complejos introducen supuestos y

    aproximaciones que hacen que sus resultados sean inciertos cuando se aplican por

    ejemplo al estudio de ciertas familias de protenas (Brocchieri, 2001), ver figura 1.

  • 9

    Estos modelos, tampoco incluyen algn parmetro correspondiente a la

    variacin en la tasa de sustitucin entre distintos sitios nucleotdicos conocida

    como tasa de variacin entre sitios.

    Fig.1. Curvas tericas que estiman la relacin entre la distancia evolutiva y la similitud de secuencias, generadas por la aproximacin de Poisson (Zuckerland y Pauling, 1965), asumiendo que las tasas mutacionales son variables entre sitio y siguen una distribucin gamma (Ota y Nei, 1994), aplicando la correccin de Kimura a la aproximacin de Poisson (datos de Dayhoff et al. 1972, 1978) y las formulas derivadas de Grishin (1995) con tasas mutacionales dependientes de amino cidos, de sitios y ambas. Modificado de Brocchieri, (2000).

    La tasa de variacin entre sitios ha sido tomada en cuenta y considerada de

    mucho inters en la estimacin de longitud de ramas, tasas evolutivas y tiempos

    de divergencia (Arbogast y Slowinsky, 1998). Este parmetro ha sido incorporado

    a los modelos de sustitucin nucleotdica ya existentes, por medio de la

    distribucin gamma.

    La distribucin gamma, es un parmetro de forma () que es inversamente proporcional al aumento de la heterogeneidad de la tasa de variacin entre sitios,

    presente en los datos, por ejemplo cuando no hay variacin de tasas entre sitios,

  • 10

    se hace infinita, y si < 1 la tasa de variacin entre sitios es importante, esto ltimo quiere decir que en una secuencia dada, una pequea cantidad de sitios

    experimental la mayor cantidad de las sustituciones (Arbogast, et al.,2002). Lo

    anterior es muy importante, pues si no se tiene en cuenta el parmetro de forma

    (), puede haber una gran subestimacin de la longitud de las ramas y de la tasa de sustitucin nucleotdica (Buckley et al.2001).

    Generalmente, al usar secuencias de ADN mit. en trabajos a nivel

    subespecfico, es comn la utilizacin de otro modelo, el de sitios infinitos. Este

    modelo, provee una buena aproximacin en el caso de tiempos de divergencia

    muy recientes o en secuencias de ADN con baja tasa de mutacin, pues asume

    que cada mutacin ocurre en un sitio diferente en la secuencia ya que la tasa de

    mutacin por sitio nucleotdico, es tan pequea que la posibilidad de mutaciones

    mltiples en sitios individuales puede ser ignorada (Kimura, 1969).

    4. Pruebas para evaluar la constancia de las tasas de sustitucin

    Uno de los primeros pasos para estimar la edad de divergencia, es evaluar si

    existe una variacin o no de las tasas de sustitucin entre los linajes en estudio,

    para lo cual se han implementado una serie de pruebas. Pero antes de hablar

    sobre las pruebas existentes par evaluar la constancia de tasas de sustitucin entre

    linajes, se debe sealar que la probabilidad de refutar la hiptesis nula (constancia

    de tasas), es baja para genes de evolucin lenta y genes pequeos, as como para

    protenas, por lo que alguna variacin en las tasas de sustitucin pudiera ser

    indetectable (error tipo II), resultando en una inadecuada estimacin de los

    tiempos de divergencia (Hedges y Kumar, 2003).

  • 11

    a) Pruebas de tasas relativas

    Este mtodo prueba la constancia de tasas de sustitucin (hiptesis nula)

    comparando el aumento total del cambio de las secuencias (nmero de

    sustituciones) en dos o ms linajes, que comparten un ancestro comn. Se le

    llama prueba de tasas relativas pues no es necesario ningn conocimiento previo

    de los tiempos de divergencia (Hedges y Kumar, 2003).

    Esta prueba se basa en el supuesto de que la distancia relativa entre el grupo

    externo y cada terminal debe ser la misma bajo una constancia de tasas de

    sustitucin. Es as que como se observa en el cladograma de la figura 2 , los

    cambios acumulados desde el ancestro comn de A y B se espera que sean los

    mismos, considerando un pequeo error debido al muestreo. Los mismo se espera

    del grupo externo hacia A y hacia B. La prueba de tasas relativas tiene un

    estadstico, , que es la diferencia en algn tipo de medida o cuantificacin, de la

    distancia entre el grupo externo y cado uno del los grupos internos (D), la cual se

    espera sea cero cuando hay constancia de tasas (Sanderson, 1998).

    Figura 2. Cladograma que muestra las comparaciones que se hacen en la prueba de tasas relativas. Modificado de Sanderson (1998).

  • 12

    El mtodo ms utilizado para cuantificar la distancia D, es el de Wu y Li (1985),

    el cual utiliza el modelo evolutivo del parmetro 2 de Kimura para estimar las

    distancias pareadas entre los taxones utilizados. Esta prueba utiliza el supuesto de

    la constancia de tasas para calcular la varianza de . Entonces, dado que se

    puede considerar equivalente a un valor de desviacin desde la media, de una

    serie de datos en este caso de distancias ( es equivalente a x-, donde es la

    media de los datos) se puede conocer la desviacin estndar de las distancias que

    es var(), por lo que es posible conocer la forma de la distribucin de la media

    muestral, como un estadstico Z. Es as, que una prueba de Z a dos colas se puede

    realizar, esperando que los valores estn normalmente distribuidos con una media

    de cero y una varianza de 1. Por lo que, un valor extremo que caiga en las

    regiones crticas de la curva normal ser rechazado y se considera que no presenta

    una tasa constante. As, se puede construir una tabla de valores Z. Tambin se

    puede utilizar una estrategia de bootstraping para remuestrear la secuencia

    original y construir una tabla de Z no paramtrica.

    Existe otra variante al mtodo, propuesta por Tajima (1993), la cual se basa en

    una prueba de chi-cuadrada con un grado de libertad, en donde las distancias se

    calculan a partir de los nucletidos compartidos por sitio, entre el grupo externo y

    los grupos internos. Sin embargo, la aproximacin de Wu y Li, as como la de

    Tajima arrojan resultados muy similares. No obstante, un problema con este tipo

    de pruebas, es que son locales, pues slo abarcan una regin en la filogenia

    cubierta por el rbol. Estos mtodos no prueban tasas de constancia de una rama

    temprana a otra lejana en el tiempo, ya que nada ms prueban diferencias de

  • 13

    tasas entre linajes descendientes de un punto comn en el tiempo, por lo que se

    debe tener precaucin en hacer afirmaciones acerca del incremento o decremento

    de tasas, basados en una prueba de tasas relativas.

    Adems, los grupos de datos usados en estas pruebas, son usualmente

    filogenticamente no independientes porque muchas de las pruebas utilizan los

    mismos taxa, y la dependencia que surge por esto afecta el tamao de la regin

    crtica de maneras impredecibles (Sanderson, 1998). b) Prueba utilizando longitud de ramas

    Existen pruebas que son capaces de combinar la prueba de tasas relativas para

    tratar de saber si hay constancia de tasas en todo un rbol filogentico, los cuales

    se basan en mtodos linealizados. La primera de estas prueba, se conocen como

    la prueba de los dos grupos (two cluster test) que examina la hiptesis del reloj

    molecular para dos linajes surgidos de un nodo interior del rbol. Esta prueba

    consiste en tomar un grupo externo y formar diferencias de distancias para cada

    terminal de los nodos internos para construir un estadstico similar al de la prueba

    de tasas relativas, que es i , entonces sea V la matriz varianza/covarianza, tal que

    Vij=cov(i, j) , entonces el estadstico queda como: U= tV-1 , con una

    distribucin chi cuadrada con n-1 grados de libertad y en donde n representa el

    nmero de nodos muestreados. As, que las propiedades de U son que es

    dependiente de las diferencias de tasas relativas individuales de cada uno de los

    nodos, pero ponderada para la covarianza entre las longitudes de ramas, las cuales

    tienen una historia filogentica compartida (Takezaki et al.,1995).

  • 14

    La segunda prueba, es la de longitud de ramas, que prueba la desviacin que

    tienen de la longitud promedio de las ramas, aquellas ramas correspondientes a la

    raz del rbol y las terminales. Entonces, se obtiene un vector de distancias entre

    la raz y cada terminal a, el cual se compara con la distancia promedio ,

    entonces se construye un nuevo estadstico: U=(a- )TV-1(a- ), cuya desviacin

    de cero es la que se examina, esperando que tenga una distribucin chi cuadrada,

    con n-1 grados de libertad (Takezaki et al.,1995).

    Posteriormente, aquellas secuencias que presentan una mayor o menor tasa de

    cambios con respecto al promedio, son eliminadas. Entonces se puede construir un

    rbol linealizado con las secuencias restantes bajo el supuesto de una constancia

    de tasas (Takezaki et al.,1995).

    Por ultimo, mencionaremos un mtodo ms antiguo, el de Langley y Fitch

    (1974) el cual emplea un enfoque de mxima verosimilitud utilizando las

    longitudes de las ramas. En este mtodo se obtiene un rbol por ejemplo con

    parsimonia, en el cual se conocen las longitudes de las ramas, posteriormente la

    verosimilitud de estos datos es calculada, asumiendo un reloj molecular con un

    modelo de sustitucin de Poisson. Luego estos datos se maximizan y se calculan

    los parmetros desconocidos por medio de la mxima verosimilitud, para obtener

    una nueva longitud de ramas, a la cual se le llama longitud de remas esperadas,

    las cuales se comparan con las originales por medio de una prueba de chi

    cuadrada. Este modelo ha sido cuestionado, pues hay evidencias que muestran

    que generalmente las longitudes de ramas son subestimadas con parsimonia

    (Sanderson, 1998).

  • 15

    c) Prueba global en el rbol filogentico basada en caracteres

    Esta prueba propuesta por Felsenstein (1988) se basa en una proporcin de

    Mxima verosimilitud, en el cual un modelo de constancia de tasas es probado

    contra un modelo que calcula la probabilidad de observar un cambio en una base

    nucleotdica de una secuencia, despus de un periodo de tiempo determinado:

    P=exp(ckRTK) , en donde R es la matriz de las tasas instantneas de cambio

    entre los distintos nucleotidos, ck es una constante creada para permitir que las

    tasas de cambio varen en cada rama k , y T es el perodo de tiempo en que se

    dan los cambios. Entonces la verosimilitud de un rbol se calcula asumiendo un

    reloj molecular, luego es calculado sin asumir la constancia de tasas.

    Posteriormente los resultados de ambos procesos se comparan con pruebas de chi

    cuadrada. Los grados de libertad de esta prueba se calculan tomando en cuanta

    las diferencias de los parmetros libres de variar en las dos procesos de la prueba,

    lo cual queda de la siguiente manera: g.l= m-(k+1), en donde k es el nmero de

    ramas en el rbol (sin considerar a la raz) del modelo que asume constancia de

    tasas y m es el nmero de ramas del modelo que no asume el reloj molecular.

    5. Evaluacin de tiempos de divergencia

    Los mtodos existentes para la evaluacin de los tiempos de divergencia se

    pueden agrupar en mtodos de reloj global, si es que no hay diferencia

    significativa entre las tasas de sustitucin entre los taxa analizados y mtodos de

    reloj molecular local, si es que las tasas de sustitucin no son constantes.

    Hay otros autores que adems consideran dividir estos dos grupos bsicos,

    si es que se analizan ms de un gene. Es as que para estos autores existen cuatro

  • 16

    aproximaciones. Los mtodos de reloj molecular global que se pueden dividir en:

    mtodos de multigene global y de multigene local. Y los mtodos de reloj

    molecular local que se pueden dividir en: mtodos de supergene global y

    supergene local. Estas clasificaciones, difieren en que si los genes analizados son

    considerados por separado (multigene) o combinados (supergene). En los mtodos

    multigene los tiempos de divergencia son estimados para cada gene por

    separado, y el promedio de estos tiempos es estimado para calcular un tiempo de

    divergencia y su error asociado. La aproximacin del supergene, implica unir

    secuencias nucleotdicas o proteicas de genes relevantes (o segmentos de genes)

    de las especies en estudio, para formar un solo alineamiento para la estimacin de

    los tiempos de divergencia, y la tasa de variacin entre genes y entre sitios puede

    ser modelada (Hedges y Kumar, 2003).

    Los mtodos que se revisarn son los bsicos, ya que depende de cada autor,

    la utilizacin de ms de un gen y si los estudiara por separado o combinados.

    Adems, para cada aproximacin existen pasos bsicos comunes como la

    calibracin. Aunque se harn algunas indicaciones de trabajos con mltiples genes.

    a) Calibracin

    La comparacin entre protenas o secuencias de ADN, producen estimados del

    aumento de la evolucin molecular, pero en la comparacin de las secuencias

    moleculares, las tasas evolutivas se confunden con la estimacin de los tiempos de

    divergencia de los taxa en estudio (Thorne y Kishino, 2002). Por tanto, las tasas

    evolutivas encontradas tienen que ser acotadas temporalmente, procedimiento que

    se conoce como calibracin del reloj molecular. Esta calibracin puede ser por

  • 17

    medio de tiempos inferidos del registro fsil o de eventos biogeogrficos, tales

    como eventos vicariantes bien documentados.

    La calibracin de un reloj molecular, sigue la lgica siguiente. Supongamos

    que queremos saber cul es el tiempo en el que AB se separo de C, (lo

    llamaremos to, o tiempo objetivo, (Fig. 3). Luego asumimos, que el promedio de

    sustituciones nucleotdicas o bien de reemplazo aminoacdico por sitio entre A y B

    es KAB=1, y que C difiere de A o B por KAC=KBC=10. As que, si suponemos por

    el registro fsil que A y B se separaron de un ancestro comn 100 m.a. atrs (que

    llamaremos tc, o tiempo de calibracin). Entonces, la tasa absoluta de evolucin

    molecular entre A y B es igual a rAB=KAB/2tc=5 10-9 reemplazos por sitio y

    por ao. Si asumimos que rAB (que ahora llamaremos rR, o tasa de referencia) es

    igual a la tasa entre C y AB. La edad desconocida, se puede calcular como:

    to=[(KAC + KBC)/4]/rR= 1000 m.a. al pasado (Rodrguez-Trelles et al., 2002).

    Fig.3. rbol filogentico de los linajes A, B y C. En donde, tc indica tiempo de calibracin y to el tiempo objetivo.

  • 18

    El problema de asignar edades a un nodo por medio de evidencia fsil es

    que esta evidencia solamente puede circunscribir esos datos dentro de ciertos

    lmites. Esta evidencia fsil, solamente puede proveer una edad mnima para un

    nodo cercano, pero no una edad mxima. Esto ltimo slo es posible en aquellos

    casos muy raros, en que el registro fsil es completo.

    Un fsil puede ser utilizado para calibracin si es que se conoce lo suficiente

    de sus relaciones filogenticas. En este sentido debemos distinguir los conceptos

    de grupo troncal y grupo corona (Fig.4).

    El grupo corona, son los taxa descendientes de un evento de cladogeness

    mayor vivientes y extintos, reconocidos por poseer las sinapomorfas del clado. El

    grupo troncal, son todos aquellos taxa en un clado que precede a un evento de

    cladogensis mayor, y es el grupo ms extensivo que incluye tambin a

    organismos vivientes y extintos. Estos taxa a veces son difciles de reconocer, pues

    no presentan las sinapomorfias encontradas en el grupo corona. Debido a lo

    anterior, cuando se cuenta con un fsil se tiene que saber si es parte del grupo

    troncal o del grupo corona de nuestro inters, lo cual es importante para saber que

    nodo se tiene que calibrar.

  • 19

    Fig. 4 Grupo corona (A), Grupo troncal (B). Tomado de www.flmnh.ufl.edu/deeptime/datingdivergences.html pagina web de Deep Time Project:A Comprehensive Phylogenetic Tree of living and Fossil Angiosperms, responsable Dr.Doug Soltis, ultima modificacin, mayo de 2002.

    Un grupo extinto tiene dos edades, primero la edad a la cual su grupo

    troncal ramifica del linaje que conduce a su grupo hermano extinto, y la edad del

    grupo corona, la cual es la edad del ancestro comn ms reciente de los miembros

    vivientes. Lo anterior, puede tener un impacto muy grande en las consideraciones

    de la edad de divergencia, sin embargo las estimaciones de edad son muy

    frecuentemente dadas sin considerar este hecho (Sanderson y Doyle, 2001).

    Algunos autores, basados en lo antes dicho, plantean precaucin al analizar

    los datos de la calibracin, pues sealan que los fsiles siempre subestimarn los

    tiempos de divergencia estimados (Hedges y Kumar, 2003).

    Por otro lado, en el mundo real no es posible satisfacer todas las

    condiciones de un reloj molecular ideal, y muchos investigadores han optado por

    no usar linajes independientes de un rbol filogentico, para calibrar el reloj, sino

    todos los pares de divergencia entre taxa dentro de un grupo dado. Pero como

  • 20

    estos valores no son independientes uno del otro, porque muchos estn basados

    en partes compartidas del rbol filogentico, en este caso se puede sobre estimar

    la percepcin de la relacin entre divergencia y tiempo (Lynch y Jarrell, 1993).

    Otro aspecto que tambin puede sobre estimar los tiempos de divergencia, es que

    conforme la longitud de la secuencia analizada decrece y la tasa de evolucin de

    esta tambin decrece, la sobre estimacin de los tiempos de divergencia se

    incrementa (Rodrguez-Trelles et al., 2002).

    b) Mtodos de evaluacin de divergencias bajo tasas de sustitucin

    constantes (mtodos de reloj molecular global)

    El mtodo, que se describir, es bsicamente una variacin al mtodo general

    descrito en la seccin anterior (Li y Graur, 1991;Li y Bousquet, 1992), en el cual se

    asume una misma tasa de sustitucin en dos linajes que descienden de un mismo

    ancestro comn.

    Supongamos que hay dos especies que comparten un ancestro comn de edad

    t, con una tasa de sustitucin por sitio y por unidad de tiempo K, con un nmero

    promedio de sustituciones por sitio D, y ya que estas sustituciones se acumulan a

    lo largo de los dos linajes, tenemos que D= 2Kt, por lo que el estimador de las

    tasas de sustitucin es =D/2t . Como se asume que K es una constante,

    entonces D y t estn relacionados de manera lineal. Ahora, si se tiene un punto

    de calibracin para poder estimar K, se puede utilizar algn otro valor de D para

    inferir la edad de algn otro punto en el tiempo. Asimismo, si se obtienen distintos

    puntos de calibracin es posible hacer una regresin de D en t para lograr una

    estimacin de K, que pueda ser usada par predecir otros tiempos de divergencia.

  • 21

    Un variante a este mtodo (tambin asumiendo constancia de tasas) consiste

    en sumar las longitudes de las ramas, no importando por que mtodo se hayan

    calculado, para usar este resultado como el estimador de distancia.

    c) Mtodos de evaluacin de divergencias bajo heterogeneidad de

    tasas de sustitucin (mtodos de reloj molecular local)

    Algunos de los mtodos que han sido utilizados para determinar si existe o no

    constancia en las tasas evolutivas van ligados desde su creacin a un mtodo

    para evaluar los tiempos de divergencia, por lo que podemos hablar de un slo

    mtodo con dos partes. Este es el caso del mtodo de los dos grupos (two cluster

    test) o tambin conocido como mtodo del rbol linealizado del cual ya se ha

    hablado anteriormente, y cuyo propsito es encontrar si hay linajes que

    evolucionen ms rpido o ms lento que la tasa promedio, los cuales son

    eliminados para producir un rbol linealizado que slo incluye aquellos taxa que

    tienen tasa de evolucin molecular estadsticamente similares.

    Entonces los tiempos de divergencia, de estos taxa pueden ser estimados

    usando mtodos ultramtricos de construccin de rboles, tales como UPGMA

    (Takezaki et al.,1995;Arbogast, et al.,2002).

    Existe otro mtodo que tambin elimina a aquellos linajes que no se

    comportan conforme a un reloj molecular, este el llamado mtodo del cuarteto

    propuesto por Cooper y Penny (1997). En este mtodo primero se identifican

    aquellos pares de taxa que cuentan con un buen registro fsil para poder hacer

    calibraciones de las tasas absolutas de evolucin molecular entre ellos. Luego los

    pares escogidos son acomodados en cuartetos consistentes de dos pares de taxa,

  • 22

    cada uno de los cuales cuenta con una edad de divergencia inferida de un fsil. A

    continuacin, se obtiene una tasa de divergencia promedio entre estos pares, la

    cual se utiliza para determinar la edad de divergencia del ancestro comn de ellos.

    Asimismo, la varianza de esta fecha se puede obtener de combinar la informacin

    de distintos cuartetos que deriven de un mismo nodo ancestral (Steel, et al.,1996;

    Arbogast, et al.,2002).

    Los anteriores mtodos, no toman en cuenta a aquellos linajes que no se

    comportan como un reloj molecular. Por lo anterior, y para lidiar con la violacin

    del reloj molecular, han surgido modelos de reloj locales, que implementan

    mxima verosimilitud, para permitir distintas tasas evolutivas para algunos linajes,

    mientras que para otros asumen una constancia de tasas (Yoder y Yang, 2000).

    Sin embargo, estos modelos fuerzan a los brazos dentro de una porcin particular

    de la filogenia a evolucionar a la misma tasa (Kishino, et al., 2001).

    Es as que Sanderson (1997,2002), propone dos mtodos no paramtricos

    que estrictamente no asumen tasas locales o una tasa global de evolucin

    molecular, y que consideran que las tasas evolucionan a travs del tiempo. Estos

    mtodos ponen restricciones a la manera en que la evolucin molecular puede

    variar entre linajes.

    El primero de esos mtodos es el de tasa de suavizacin no paramtrica

    (NPRS, por sus siglas en ingles), en donde la restriccin es una autocorrelacin

    temporal de las tasa de evolucin molecular entre los linajes relacionados a travs

    del rbol. El NPRS, estima una tasa local de evolucin para cada nodo en el rbol

    (k), y entonces minimiza la diferencia de estas tasas a travs del rbol. Por

  • 23

    ejemplo, supngase que la tasa de la rama a (Fig. 5) es: a= = La/Ta, en donde

    La es la longitud de la rama y Ta es el tiempo de duracin de esa rama. Entonces,

    la medida de la tasa de suavizacin del nodo k es: Rk=(a-b1)2 + (a-b2)2 y si

    se ajusta el tiempo para minimizar las diferencias para todos los nodos internos del

    rbol, tenemos que: K=1K=n-1 =Rk. La minimizacin de la funcin Rk, sobre estos tiempos desconocidos, provee una estimacin de los tiempos de divergencia

    (Sanderson, 1997). Luego, por medio de mnimos cuadrados, se determina un

    nivel ptimo de suavizacin, en donde las tasas de cambio drsticas a lo largo del

    rbol, son penalizadas. Este mtodo, al usar solamente las longitudes de las

    ramas, es un mtodo relativamente rpido y fcil de aplicar.

    Fig.5. rbol en donde se muestran las ramas y los nodos para ilustrar el mtodo de NPRS. (Ver texto para detalles).

    El otro mtodo propuesto por Sanderson, es el de verosimilitud

    penalizada, que como el mtodo anterior, trata de determinar un nivel optimo de

    autocorrelacin o suavizacin, para un determinado grupo de datos en un rbol

    (Sanderson, 2002). Este mtodo utiliza los datos crudos para obtener una

  • 24

    verosimilitud de los datos con un determinado modelo de evolucin molecular,

    pero acoplando la verosimilitud de la funcin Rk, pesando por un parmetro

    suavizado (). La verosimilitud penalizada, busca el nivel optimo del parmetro de

    autocorrelacin, usando la rugosidad, parmetro suavizado (), el cual incrementa como variacin de las tasas a medida que el rbol incrementa. En otras

    palabras, el modelo admite que cada rama tenga su propia tasa de sustitucin,

    solamente que con la penalizacin se evita una disparidad demasiado grande entre

    estas tasas.

    A diferencia del NPRS, la verosimilitud penalizada si utiliza datos crudos y

    quiz es ms precisa, pero es de ms difcil implementacin y manejo. En general

    estos mtodos, una vez suavizados los datos proceden a determinar las edades de

    divergencia de manera muy parecida a la que ya se ha expuesto.

    Tambin hay otros mtodos, que determinan las tasas ptimas a travs de

    rboles con linajes que presentan tasas de evolucin distintas. Estos son los

    mtodos de lognormal (Thorne et al.,1998) y de la distribucin de Poisson

    compuesta (Huelsenbeck et al.,2000). Estos mtodos asignan determinadas tasas

    a distintas partes de un rbol de acuerdo con una predeterminada distribucin y

    son capaces de probar la variacin bajo una variedad de parmetros como la

    composicin de bases, la proporcin de ts/tv etc., adems de la tasa de evolucin

    molecular. Con mxima verosimilitud es posible estimar la magnitud de las tasas

    ms lentas o ms rpidas de evolucin molecular y calcular otros parmetros

    adems de auxiliar en determinar los tiempos de divergencia.

  • 25

    Actualmente, se han desarrollado otros mtodos basados en la

    reconstruccin filogentica Bayesiana, para probar la existencia del reloj molecular

    y estimar los tiempos de divergencia (Suchard et al., 2001). En esta aproximacin,

    la inferencia filogentica se basa en las probabilidades posteriores de los rboles

    filogenticos (Huelsenbeck et al., 2001).

    El mtodo Bayesiano se basa en el teorema de Bayes, que en el caso de

    datos moleculares puede representarse como:

    p( x,M)= f(X,M)q( M) m(XM)

    Esto representa la probabilidad del parmetro de espacio (que en trminos del teorema de Bayes, tambin representa una hiptesis), dado un determinado

    modelo estadstico M con datos X. Por lo que la posterior distribucin de es proporcional a la densidad de muestreo de los datos dado , que se refiere como la verosimilitud del modelo f(X,M) multiplicado por la probabilidad o distribucin posterior de , representado por q( M). Donde la constante reciproca proporcional m(XM)= f(X,M) q( M)d es la verosimilitud marginal de los datos X dado el modelo M (Suchard et al.,2003).

    Dado lo anterior, tenemos que utilizando la metodologa Bayesiana en la

    reconstruccin filogentica, la probabilidad posterior de una hiptesis o rbol

    puede interpretarse como la probabilidad de que el rbol sea correcto. Esta

    probabilidad aunque es sencilla de plantear, implica la sumatoria sobre todos los

  • 26

    rboles, y para cada rbol la integracin de todas las posibles combinaciones de

    longitudes de rama y modelos de sustitucin, y debido a que hacer esto es

    analticamente muy difcil, se utiliza un anlisis de Cadenas de Markov acoplado a

    esta metodologa para analizar de manera eficiente los rboles posibles (ver ms

    adelante) (Huelsenbeck et al., 2001).

    El mtodo Bayesiano, utiliza los mismos modelos de evolucin nucleotdica

    utilizados con Mxima verosimilitud, adems si se tiene informacin molecular a

    priori de algn tipo se puede tambin incorporar al anlisis. Este mtodo muestrea

    rboles segn sus probabilidades posteriores en lugar de buscar un rbol optimo.

    Una vez que se tienen una serie de rboles elegidos, estos se utilizan para

    construir un rbol de consenso con las probabilidades posteriores colocadas en

    cada nodo. El resultado es similar a una bsqueda de mxima verosimilitud con

    bootstrapping, adems de que se dan los parmetros de la longitud de ramas.

    Esta metodologa ha sido propuesta como una alternativa, principalmente

    porque con ella se pueden realizar anlisis de una gran cantidad de datos

    relativamente rpido y sin tener los problemas computacionales que se presentan

    por ejemplo, con la mxima verosimilitud cuando se tienen muchos taxa.

    La aproximacin bayesiana ms sencilla, en el clculo de tiempos de

    divergencia es aquella en donde se relaja el reloj molecular, asignando una

    distribucin previa (prior) p (R,T) para tasas de evolucin R y tiempos de

    divergencia T. A continuacin, el teorema de Bayes es usado para derivar la

    probabilidad posterior de los tiempos de divergencia y las tasas evolutivas ( Aris-

    Brosou y Yang, 2002):

  • 27

    p(R, T l X)= p(Xl R, T)p(R,T)

    p(X)

    En donde, p(Xl R, T) representa es la verosimilitud y su clculo requiere

    de un modelo de sustitucin nucleotdica.

    Otros autores como Thorne et al. (1998), han utilizado la aproximacin

    bayesiana para estimar tiempos de divergencia. Este modelo, estima la

    distribucin previa de los tiempos de divergencia, asumiendo de que la tasa de

    nacimiento de nuevas ramas siguen un proceso de Yule o proceso de divisin

    binario. La estimacin de la distribucin previa de las tasas de evolucin, asume

    que las tasas de evolucin molecular son constantes a travs de las ramas de un

    rbol, pero que pueden diferir entre ramas.

    El modelo plantea, que hay una autocorrelacin de las tasas de evolucin de

    las ramas ancestrales y las derivadas, que depende de la diferencia de tiempo

    entre los puntos intermedios de las ramas ancestrales y las derivadas. Se asume

    que el logaritmo de la tasa de la rama derivada tiene una distribucin normal con

    una media igual al logaritmo de la tasa de la rama ancestral y con una varianza

    igual al tiempo de diferencia multiplicado por una constante llamada v. Si el valor

    de v es alto existe una autocorrelacin baja y si el valor es bajo existe una fuerte

    autocorrelacin. En este caso el valor v determina la distribucin posterior de las

    tasas de evolucin molecular en diferentes ramas dado el tiempo de un nodo

    interno. Este es un modelo jerrquico en donde dos ramas de un rbol que

    emanan de una misma raz tienen que ser incluidas en el modelo.

  • 28

    Se considera a R como la tasa de evolucin molecular en k + 1 ramas del

    rbol enraizado y T es el vector de los nodos internos incluyendo la raz. Cabe

    aclarar que se utilizan unidades de relativas de tiempo (r.t.u. por sus siglas en

    ingls) que son el valor esperado de tiempo para el reemplazo de un amino cido

    en cien sitios, dada una tasa constante de cambio por ao. Una vez que los

    tiempos T y la constante v son determinados la distribucin condicional p(R l T,v)

    de las tasas de evolucin molecular son determinadas. Para un dado nmero de

    secuencias representadas en los terminales de un rbol, la tasa de nacimientos o

    bifurcaciones (asumiendo un proceso Yule) puede ser utilizada para calcular el

    valor esperado de -To en donde To es el tiempo a la secuencia ancestral. Por

    tanto, el valor de la tasa de bifurcaciones puede determinarse a partir del valor

    esperado de -To, y el valor de T es condicional en la tasa de nacimiento. Y

    nuevamente utilizando la aproximacin bayesiana con los datos X, se puede

    calcular la distribucin o probabilidad posteriores de T, por lo que tenemos:

    p(T,R, v l X)= p(X l T, R) p(R l T, v) p(T) p(v)

    p(X)

    El proceso del clculo de las distribuciones por ser muy complejo, se acopla a un

    proceso de clculo de Cadenas de Markov (ver ms adelante).

    Existen otras variantes dentro de estos modelos, como la de Aris-Brosou y

    Yang (2002), que en lugar de utilizar el proceso de Yule como Thorne et al.

    (1998), para calcular las distribuciones previas de los tiempos de divergencia,

    utilizan un modelo ms flexible y que puede acomodar ms formas de los rboles

    filogenticos.

  • 29

    Este modelo, est basado en un proceso de cladognesis, el proceso

    generalizado de nacimientos y muertes (BDP, por sus siglas en ingls) y que

    asume una tasas constantes de especiacin y de extincin por linaje. Los

    tiempos de los nodos se condicionan arbitrariamente al tiempo de la raz, que se

    sita en 1. El muestreo de especies es modelado como un evento de extincin en

    masa, que ocurre en el momento del muestreo con una probabilidad . Este

    modelo es comparable al modelo generalizado de la distribucin Dirichlet, utilizada

    por Kishino et al. (2001).

    Adems, las bandas de tiempo por arriba y debajo de los tiempos de los

    nodos pueden ser marcadas con ayuda del registro fsil. En esta variante, la

    distribucin previa de las tasas de evolucin, son modeladas para probar diferentes

    distribuciones. La forma de modelar estas distribuciones es con un estimador 2

    (hiperparmetro) que da una medida de cuanto se incrementa la varianza de las

    tasas evolutivas como funcin del tiempo. Es as, que valores pequeos de 2

    indican que el modelo tiende a un reloj molecular y valores grandes de 2 indican

    altos valores de variacin de tasas.

    En cuanto a la utilizacin de informacin proveniente de varios genes,

    Thorne y Kishino (2002) han propuesto un mtodo Bayesiano para estimar los

    tiempos de divergencia. Dicha tcnica permite detectar cambios correlacionados de

    tasas evolutivas entre genes, y asume que las tasas evolutivas en distintos tiempos

    y genes pueden estar correlacionadas, especialmente en los linajes ms cercanos.

  • 30

    El modelo, asume tambin que la tasa promedio de una rama en un rbol

    filogentico es el promedio de la tasa del nodo y la tasa del final de la rama. A

    continuacin, los datos son modelados para obtener una distribucin normal de las

    tasas de las ramas, en donde el promedio de esta distribucin es tal que se espera

    que la tasas al principio y al final de las ramas tengan un valor que no sea

    estadsticamente distinto.

    La varianza de esta distribucin es igual al producto del tiempo de duracin

    de la rama y un parmetro v que determina el aumento de la autocorrelacin de

    las tasas de a travs del tiempo, es as que si v es cero existe una constancia de

    tasas y si es mayor, la diferencia de las tasas al comienzo y al final de las ramas se

    incrementa en una razn proporcional a v. Entonces, los datos de mltiples genes

    pueden incorporarse bajo estas condiciones y se modelan a su vez bajo una

    distribucin gamma. Esta distribucin gamma, se interpreta como la suma de la

    variabilidad de la tendencia de las tasas a cambiar en el tiempo a travs de los

    genes en el genoma.

    Adems esta metodologa requiere de datos del registro fsil, que se

    incorporan para constreir las edades de los nodos. Al final se obtienen

    distribuciones posteriores de los tiempos de divergencia, en donde una distribucin

    gamma describe el tiempo de separacin de las races de los grupos internos y los

    terminales. Con esta distribucin se pueden calcular de manera ms o menos

    directa los tiempos relativos de los nodos.

  • 31

    Otro aspecto, que hace interesante la utilizacin de los modelos bayesianos,

    es que los modelos de relojes locales basados en verosimilitud como el de Yoder y

    Yang (2000), slo son tiles si se cuenta con informacin previa sobre que linajes

    pueden tener diferentes tasas de evolucin molecular y por tanto son utilizados

    para probar si ciertos grupos de especies tienen distintas tasas de evolucin o no,

    pero cuando esta informacin no est disponible es mejor utilizar modelos

    Bayesianos de tasas de cambio aleatorio (Aris-Brosou y Yang, 2002).

    Las aproximaciones bayesianas para estimar los tiempos de divergencia, son

    relativamente recientes y existen pocos trabajos que comprueben su eficacia.

    Entre estos podemos citar a Kishino, et al (2001), quienes estudian el efecto de

    los parmetros previos sobre los posteriores, evaluando la robustez del modelo

    utilizando simulaciones y la consistencia de los tiempos de divergencia estimados

    con informacin externa al anlisis.

    El mtodo Bayesiano, tambin ha sido utilizado para probar la hiptesis de reloj

    molecular, utilizando el factor de Bayes, que es una medida del cambio del soporte

    de un modelo contra otro modelo dado un grupo de datos, lo que constituye el

    anlogo Bayesiano de la prueba de razn de verosimilitud (LRT) (Suchard et

    al.,2003).

    d) Clculo de tiempos de divergencia de poblaciones y especies muy

    cercanas

    Mencin especial merecen aquellos casos en que se pretende estimar la edad

    de divergencia a nivel infraespecfico o de especies de muy reciente separacin. Ya

    que en estos casos los problemas de saturacin pueden no ser tan importantes, al

  • 32

    considerar problemas como conservacin de un polimorfismo gentico ancestral o

    de una completa separacin de los linajes (Avise,2000). Incluso los modelos de

    sustitucin empleados en estos casos suelen ser otros, como el modelo de sitios

    infinitos, del que ya se ha hablado.

    Asimismo, se tiene que tomar en cuenta que existe una discordancia entre los

    tiempos de divergencia poblacional y divergencia gnica. Generalmente se tiende a

    sobreestimar el tiempo de divergencia gnica al compararlo con el tiempo de

    divergencia poblacional (Knowles y Maddison, 2002), aunque esta discrepancia se

    va haciendo cada vez menos importante a medida que el tiempo pasa y el evento

    de divergencia se sita en un pasado distante (Fig 6).

    Fig.6. El tiempo de la divergencia gnica generalmente est sobreestimado al compararlo con el tiempo de divergencia poblacional. a. La discrepancia en tiempos de divergencia poblacional y gentica es menor para eventos en el pasado distante. b. La discrepancia entre tiempos de divergencia poblacional y gentica es mayor en divergencias recientes. Modificado de Knowles y Maddison, 2002.

  • 33

    Algunos de los mtodos ms importantes, para tratar de estimar edades de

    divergencia a nivel infraespecfico tienen como base la teora de la coalescencia, la

    cual provee un marco terico para lidiar con aspectos de gentica de

    poblacionales.

    La teora de la coalescencia, nos dice bsicamente que, conforme

    retrocedemos en el tiempo, los genes coalescen, es decir, que todos los genes

    tienen un ancestro comn.

    Esta teora, supone idealmente que no existe recombinacin de los genes

    (genes mitocondriales y de cloroplasto), por lo que todas las secuencias de un

    determinado gen en estudio, estn conectadas por un rbol filogentico. La teora,

    tambin supone poblaciones diploides y panmcticas que se comportan segn la

    teora neutral, en donde no interviene la seleccin natural y las mutaciones neutras

    no afectan la estructura de una determinada genealoga.

    Para ejemplificar el concepto de coalescencia (Fig.7 ), supongamos que de

    una poblacin se toman al azar dos copias de un mismo gen, por lo que tendremos

    N=2, Cul ser la probabilidad que estos dos genes tengan el mismo ancestro

    en una generacin previa?, esto se puede expresar as: 1/2N, pero como tambin

    hay la posibilidad de los genes no compartan un ancestro comn, tenemos:1-

    1/2N. Por lo que la probabilidad completa se expresa como: 1/2N (1- 1/2N).

    Pero si queremos calcular la probabilidad para x generaciones en el pasado la

    expresin queda as: 1/2N (1 - 1/2N) x.

  • 34

    Tericamente, se puede calcular hace cuantas generaciones derivaron del

    gen ancestral todas las copias que se encuentran actualmente en una poblacin.

    Pero si consideramos que los progenitores pueden tener ms de un individuo de

    descendencia, nuestra expresin puede cambiar a 2/(N-1), en donde 2 es la

    varianza de la distribucin del nmero de descendencia producido por un

    progenitor en una generacin, y por convencin se suele referir la escala de

    tiempo en unidades de N/2 (Markovtsova et al., 2000).

    Asimismo, la estimacin de la edad al ancestro comn ms reciente (MRCA,

    por sus siglas en ingls), se puede expresar tambin como E(TMRCA)=4Ne(1-

    1/n), en donde n es el nmero de secuencias muestreadas y Ne es el tamao

    efectivo de la poblacin (Sanderson, 1998).

    Debemos apuntar, que las predicciones de esta teora se pueden ver

    afectadas significativamente si es que la seleccin natural se encuentra actuando,

    y tambin por cambios en el tamao poblacional en el pasado, por ejemplo cuellos

    de botella (Avise, 2000). Adems, como se ha mostrado en recientes trabajos

    (Markovtsova et al., 2000), la inferencia de tiempos de divergencia bajo la teora

    de la coalescencia, se puede ver afectada si la tasa de variacin nucleotdica es

    ignorada.

  • 35

    Fig.7. El principio bsico de la coalescencia. a. Genealoga completa para una poblacin de diez individuos haploides (poblaciones diploides de N individuos son estudiadas usando un modelo haploide con 2N individuos). Las lneas ms oscuras trazan la ancestria de tres linajes a un solo ancestro comn. b. Subgenealoga para los tres linajes muestreados. Modificado de Rosenberg y Nordborg, 2002.

    Existen una serie de mtodos para inferir edades de divergencia en tiempos

    muy recientes llamados mtodos de momento. Estos mtodos buscan valores de

    parmetros que igualen a los valores observados y esperados de las mediciones

    del polimorfismo de las secuencias de ADN o de su divergencia. El nmero

    promedio de diferencias pareadas dentro y entre las especies son ejemplos de

    tales mediciones.

    Los parmetros buscados son los parmetros del modelo de aislamiento, el

    cual supone una especie panmctica ancestral con un tamao poblacional efectivo

    que se dividi en dos especies derivadas en algn punto en el pasado. Tambin

    asume, que despus de la divisin no existe flujo gnico entre las especies nuevas

    y que su tamao poblacional se ha mantenido constante (la teora de la

    coalescencia es compatible con este modelo).

  • 36

    Este modelo tiene cuatro parmetros, suponiendo que cada una de las tres

    especies (la ancestral y las derivadas) tienen tamao poblacional propio y la tasa

    de mutacin permanece constante a travs del tiempo, los parmetros que

    describen al modelo son 1=4N1u, 2=4N2u, A=4NAu, y =2ut, donde t es el tiempo de divergencia de las especies y u es la tasa neutral de mutacin (Wakeley

    y Hey, 1997). Los valores de los parmetros que se busca obtener por estos

    mtodos son aquellos que dan el mejor ajuste entre las observaciones y los valores

    esperados.

    La manera en que estos mtodos funcionan, es estimando el nmero de

    diferencias entre un par de secuencias de ADN, una de cada especie, y entonces

    se igualan estas con el valor de 2ut, de donde se puede estimar posteriormente t

    que es el tiempo de divergencia de las especies estudiadas.

    Como ya lo hemos tratado antes, en este modelo existe un problema, la

    divergencia gentica ocurre antes que la divergencia de especies. Por lo que, se

    propuso una correccin (Arbogast et al., 2002) para la parte ancestral de la

    divergencia observada usando un estimado de las especies descendientes. Este

    estimado es la red de diferencias nucleotdicas d=dxy-(dx+dy)/2, que permite

    sustraer el promedio de las diferencias pareadas intraespecficas de los valores

    interespecficos observados. Por ejemplo, si todas las especies tienen un mismo

    tamao (N1= N2= NA), entonces el valor esperado para d es igual a 2ut y el

    mtodo no est sesgado.

  • 37

    El mtodo tampoco estar sesgado en sus resultados si es que ha pasado

    suficiente tiempo como para que exista una monofilia reciproca y si el tamao

    poblacional promedio de las especies descendientes es similar al de la especie

    ancestral.

    El anterior mtodo de momento, asume tambin no recombinacin, pero

    hay otros mtodos de momento que no requieren asumir nada acerca de la tasa

    de recombinacin. Uno de esos mtodos es el de sitios segregantes (Wakeley y

    Hey, 1997), en el cual cada sitio segregante de muchas copias de secuencias

    genes de dos especies comparadas, se categorizar de cuatro maneras mutuamente

    excluyentes que son: compartido, fijado y exclusivo de especie 1 y exclusivo de

    especie 2. Luego los resultados son igualados a las expectativas tericas que

    dependen de 1, 2, A, y =2ut; posteriormente los lmites de confianza pueden ser calculados por medio de simulaciones si es que un estimado de la tasa de

    recombinacin de cada locus est disponible.

    Otra serie de mtodos para la inferencia de edades de divergencia

    poblacional estn basados en la aproximacin de la mxima verosimilitud.

    Bsicamente, transforman el promedio y la varianza de los muestreos de muchos

    loci de genes de dos especies en un mtodo analtico de mxima verosimilitud, que

    se basa en usar las probabilidades generadas de una funcin del nmero de

    diferencias pareadas bajo el modelo de aislamiento y asumiendo que no existe

    recombinacin intralocus.

  • 38

    Tambin hay variaciones ha estos mtodos que usan modelos de sitios

    finitos en lugar del de sitios infinitos. (Takahata y Satta, 1997; Arbogast, et

    al.,2002).

    Finalmente, hablaremos de los mtodos basados en los mtodos de

    Cadenas de Markov Monte Carlo (MCMC, por sus siglas en ingls), los cuales no

    asumen recombinacin intralocus y que requieren utilizar datos de varias

    secuencias de dos especies. Lo que hace esta metodologa es calcular la

    distribucin de los parmetros de inters o sea la probabilidad de observar los

    valores de los parmetros segn el modelo Markov Monte Carlo.

    El modelo de las cadenas de Markov, es un modelo probabilstico que ha

    sido utilizado en muchos tipos de anlisis de secuencias y en bsqueda de

    homologas, y como hemos visto antes, esta metodologa puede ser acoplada en la

    inferencia filogentica por medio de anlisis Bayesianos. Las cadenas de Markov,

    tambin puede ser utilizado para inferir distintas tasas de evolucin en distintos

    sitios.

    El mtodo de las cadenas de Markov, consistente de una serie de pasos

    interconectados o caminatas aleatorias, en donde en cada instante la cadena visita

    uno de un cierto nmero de estados posibles del sistema, asumiendo que la

    probabilidad de un estado futuro slo est determinada por el estado presente y

    no por los anteriores. Estos modelos se componen de los pasos o conjunto de

    nodos, de la probabilidad inicial para entrar al sistema y de la probabilidad de

    transicin de un estado al otro.

  • 39

    En biologa molecular, este tipo de modelos describen comnmente a

    procesos discretos que cambian en el espacio, como las secuencias nucleotdicas o

    que varan en el tiempo (generaciones). Por ejemplo, cada paso de la cadena

    implica un cambio o transicin del sistema, en el cual se da una modificacin al

    azar de parmetros como la tasa a la cual se presentan las sustituciones o la

    longitud de las ramas en un rbol, as como su topologa, por lo cual se pueden

    explorar una gran posibilidad de topologas y parmetros asociados, dentro del

    espacio de topologas ms probables (Felsenstein y Churchill, 1996).

    Con la metodologa de las cadenas de Markov, se pueden explorar muchas

    topologas, procediendo a obtener la verosimilitud de las genealogas posibles

    segn las probabilidades bajo el modelo. Finalmente, la genealoga con la

    verosimilitud ms adecuada, es de la cual se obtienen los parmetros para estimar

    los tiempos de divergencia (Nielsen y Wakeley, 2001).

    6. Causas biolgicas y fuentes de error que pueden afectar al reloj

    molecular

    Existen una gran cantidad de factores que pueden afectar o intervenir en las

    expectativas del reloj molecular. Estos factores quiz los podemos agrupar de una

    manera ms o menos arbitraria en factores poblacionales, factores moleculares,

    factores metablicos y por ltimo tenemos a la seleccin natural.

    a) Factores poblacionales

    1.- Tamao poblacional. Este factor afecta principalmente el tiempo en que una

    nueva mutacin se fija en la poblacin, por lo que un tamao poblacional grande

    puede hacer que reloj molecular sea ms lento. Por lo que cambios de tamao

  • 40

    poblacional en el pasado de las poblaciones podran afectar los clculos de los

    tiempos de divergencia (Kimura, 1983).

    2.- Tiempo de generacin. Tiempos de generacin largos pueden incrementar

    los tiempos en que la fijacin de una determinada mutacin ocurre y viceversa. Por

    ejemplo se ha notado que la tasa de evolucin molecular es ms rpida en

    pequeos mamferos como roedores que en grandes herbvoros o incluso el

    hombre (Gu y Li, 1992).

    3.- Flujo gnico y recombinacin. Como ya se ha mencionado, para el caso de

    estimaciones de tiempos de divergencia de poblaciones o de especies cercanas, los

    fenmenos de flujo de gnico o hibridacin pueden afectar los tiempos de

    divergencia considerablemente.

    b) Factores moleculares

    1.- Replicacin del ADN. Existen caractersticas especie-especficas en las

    polimerasas o en otras propiedades biolgicas, que afectan la fidelidad de la

    replicacin del ADN y por tanto la incidencia de mutaciones sean neutrales o no

    (Ayala, 1999).

    2.- Cambios en la funcin de protenas. En el caso de duplicacin de genes,

    cuando una o ambas duplicaciones evolucionan en nuevas funciones, puede ser

    esperada una aceleracin en la tasa de evolucin (Ayala, 1999).

    c) Factores metablicos

    1.- Tasa metablica. Algunos trabajos han sugerido que quiz la tasa metablica

    de los organismos, es un factor que afecta la tasa de evolucin molecular, debido

  • 41

    a que los desechos del metabolismo como algunos radicales del oxgeno son

    conocidos mutgenos (Martn, 1995).

    Debido a lo anterior se ha propuesto que el tamao corporal puede

    influenciar las tasas de evolucin molecular, pues se considera que el tamao

    corporal esta ligado a la tasa metablica del organismo, por lo que se plantea una

    relacin inversa entre el tamao corporal y la tasa de evolucin molecular.

    En algunos trabajos con vertebrados se ha podido encontrar esta relacin inversa

    entre el tamao corporal y la tasa de evolucin molecular (Martin y Palumbi,

    1993;Bromham, 2002), sin embargo tambin se ha sugerido que quiz en aquellos

    organismo con tasa metablicas muy altas (como colibres o musaraas ) tambin

    tienen tiempos generacionales cortos, que tal vez, sea un factor ms importante

    para la evolucin molecular.

    d) Seleccin natural

    Se ha sealado anteriormente, que la seleccin natural es uno de los factores

    que pueden estar interviniendo y afectando la neutralidad de las mutaciones en

    muchos taxa, lo cual es uno de los sustentos tericos del reloj molecular. Por

    ejemplo, distintos genes pudieran estar evolucionando a tasas diferentes, debido a

    algn fenmeno de seleccin en su funcin (Hedges y Kumar, 2003). Aunque

    actualmente, no existe un consenso entre los cientficos que apoyan a la teora

    neutral y los seleccionistas, la seleccin natural se debe tener en mente como

    fuente de algunas de las desviaciones al reloj molecular.

  • 42

    7. Conclusin

    El fundamento terico en el que se enmarca el concepto del reloj molecular,

    la teora neutral, probablemente, llegue a ser insostenible, adems muchos

    trabajos han demostrado que slo algunas protenas y genes funcionan como un

    reloj molecular. No obstante, pienso que no se debe de rechazar por completo las

    tentativas de tratar de inferir tiempos de divergencias con ayuda de informacin

    molecular. Quiz, es alentador el surgimiento de pruebas y metodologas que

    proponen relojes moleculares locales y que tratan de lidiar con la falta de

    constancia entre tasas de sustitucin en taxa relacionados. En este sentido,

    metodologas como el anlisis Bayesiano que permiten analizar grandes cantidades

    de informacin en tiempos computacionales ms o menos cortos, permitirn hacer

    inferencias tomando en cuenta muchos genes y as poder obtener tiempos

    promedio de divergencia, que tal vez sean ms cercanos a la realidad.

    No debemos olvidar que en el caso de poblaciones y subespecies, an

    existen muchos problemas y asuntos por resolver, directamente aquellos

    relacionados con la dinmica de las poblaciones. Ya que actualmente, sabemos

    poco de como la demografa puede afectar exactamente a los patrones

    recuperados de las secuencias de ADN, por ejemplo en el caso de estudios con

    ADN mit, la subdivisin poblacional puede afectar de maneras poco predecibles la

    forma de los rboles de genes. En este sentido, creo que en el futuro se

    desarrollaran nuevos modelos estadsticos aplicados al estudio de datos

    moleculares, que podrn acoplarse igualmente con nuevos modelos demogrficos

  • 43

    y de coalescencia, lo que permitir que la estimacin de tiempos de divergencia,

    aunque ms complicada sea ms adecuada.

  • 44

    8. Literatura citada Arbogast, B.S., S.V. Edwards, J. Wakeley, P. Beerli y J.B. Slowinski. 2002.

    Estimating Divergence Times From Molecular Data on Phylogenetic and Population Genetic Timescales. Annu. Rev. Ecol.Syst. 33: 707-40.

    Arbogast, B.S. y J.B. Slowinski. 1998. Pleistocene speciation and the mitochondrial

    DNA clock. Science 282: 1995. Aris-Brosou, S. y Z. Yang. 2002. Effects of models of rate evolution on estimation

    of divergence dates with special reference to the metazoan 18S Ribosomal RNA Phylogeny. Syst. Biol. 51:703-714.

    Avise, J.C.,2000. Phylogeography. The history and formation of species. Harvard

    University Press. Londres. Ayala, F.J. 1999. Molecular clock mirages. BioEssays 21:71-75. Brocchieri, L. 2000. Phylogenetic Influences from Molecular sequences: Review

    and Critique. Theor. Pop. Biol. 59: 27-40. Bromham, L. 2002. Molecular Clocks in Reptiles: Life History Influences Rate of

    Molecular Evolution. Mol. Biol. Evol. 19: 302-309. Brown, W.M., M. George y A.C. Wilson. 1979. Rapid evolution of animal

    mitochondrial DNA. Proceedings of the National Academy of Sciences, USA. 76: 1967-1971.

    Buckley, T., C. Simon y G. Chamb. 2001. Exploring among-site rate variation

    models in a maximum likelihood framework using empirical data: effects of model assumptions on estimates of topology, branch lengths and bootstrap support. Syst. Biol. 50: 67-86.

    Cooper, A. y D. Penny. 1997. Mass survival of birds across the Cretaceous-Tertiary

    boundary: molecular evidence. Science 275: 1109-1113.

    Felsenstein, J. 1998. Phylogenies and quantitative characters. Ann. Rev. Ecol. Syst. 19: 445-4471.

    Felsenstein, J. y G. Churchill. 1996. A hidden Markov model approach to variation a mong sites in rate of evolution. Mol. Biol. Evol. 13: 93-104.

    Gu, X. y W.H. Li.1992. Higer rates of amino acid substitution in rodents than in humans. Mol. Phylogenet. Evol. 1: 211-214.

  • 45

    Hedges, S.B. y S. Kumar. 2003. Genomic clocks and evolutionary timescales. Trends in Genetics 19: 200-206.

    Hillis, D.M., K.M. Mable y C. Moritz. 1996. Applications of molecular Systemtics:

    The State of the Field and a look to the future, pp.531-540. En: Hillis, D.M., C. Moritz y K.M. Mable (eds.), Molecular Systematics Second edition. Sinauer Associates, Inc. USA.

    Huelsenbeck, J.P., B. Larget, D. Swofford. 2000. A compound Poisson process for

    relaxing the molecular clock. Genetics 154: 1879-1892. Huelsenbeck, J.P., F. Ronquist, R. Nielsen y P. Bollback. 2001. Bayesian inference

    of phylogeny and its impact on evolutionary biology. Science 294: 2310-2314.

    Kimura, M. 1968. Evolutionary rate at the molecular level. Nature 217: 624-626.

    Kimura, M. 1969. The number of heterogeneus nucleotide sites maintained in a finite population due to steady flux of mutation. Genetics 61: 893-903.

    Kimura, M. 1983. The neutral theory of molecular evolution. Cambridge University Press, Cambridge, UK.

    Kishino, H., J. L. Thorne y W.J. Bruno. 2001. Performance of a divergence time estimation method under a probabilistic model of rate evolution.

    Knowles, L.L. y W. P. Maddison. 2002. Statistical phylogeography. Mol. Ecol. 1:

    2623-2635. Langley, C.H. y W.M. Fitch. 1974. An examination of the constancy of the rate of

    molecular evolution. J. Mol. Evol. 3: 161-177. Li, P y J. Bousquet. 1992. Relative-rate test for nucleotide substitutions between

    two lineages. Mol. Biol. Evol. 9: 1185-1189. Li, P.y D.Graur. 1991. Fundamentals of molecular evolution. Sinauer, Sunderland,

    Mass.

    Lynch, M. y Jarrell. 1993. A method for calibrating molecular clocks and its application to animal mitochondrial DNA. Genetics 135: 1197-1208.

    Markovtsova, L., P. Marjoram y S. Tavar. 2000. The effects of rate variation on ancestral inference in the Coalescent. Genetics 156: 1427-1436.

  • 46

    Martin, A.P. 1995. Metabolic rate and directional nucleotide substitution in animal motochondrial DNA. Mol.Biol. Evol. 16: 996-1002.

    Martin, A.P. y S. R. Palumbi. 1993. Body size, metabolic generation time and the molecular clock. Proc. Natl. Acad. Sci., USA 90: 4087-4091.

    Nei, M. 1987. Molecular Evolutionary Genetics. Columbia University Press, New York. Nielsen, R. y J. Wakeley. 2001. Distinguishing migration from isolation: a Markov

    Chain Monte Carlo approach. Genetics 158: 885-896.

    Otha, T. 1992.The nearly neutral theory of molecular evolution. Ann.Rev. Ecol. Syst. 23: 263-286.

    Page, R.D.M. y E.C. Holmes, 2000. Molecular Evolution. A phylogenetic approach.

    Blackwell science, Cambridge, UK.

    Posada, D. y K.A. Crandall. 1998. MODELTEST: testing the model of DNA substitution. Bioinformatics 14: 817-818.

    Rodrguez-Trellez, F., R. Tarrio y F.J. Ayala. 2002. A methodological bias toward overestimation of molecular evolutionary time scales. Proc. Nat. Acad. Sci., USA 99: 8112-8115.

    Sanderson, M.J. 1997. A nonparametric approch to estimating divergence times in

    the absence of rate constancy. Mol. Biol. Evol. 14: 1218-1232. Sanderson, M.J. 1998. Estimating Rate and Time in molecular Phylogenies: Beyond

    the Molecular Clock?, pp. 242-264. In: D.E. Soltis, P.S. Soltis y J.J. Doyle (eds.), Molecular Systematics of plants. Kluwer Acad. Publ.

    Sanderson, M.J. 2002. Estimating absolute rates of molecular evolution and

    divergence times: a penalized likelihood approach. Mol. Biol. Evol. 19: 101-109.

    Sanderson, M.J. y Doyle. 2001. Sources of error and confidence intervals in

    estimating the age of angiosperms from rbcL and 18S rDNA data. Am. J. Bot. 88: 1499-1516.

    Steel, M.A., A.C. Cooper, D. Penny. 1996. Is there an inverse relationship between body size and rate of molecular evolution. Syst. Biol. 48: 396-399.

    Suchard, M., R. Weiss y J. Sinsheimer. 2001. Bayesian selection of continuous-time Markov chain evolutionary models. Mol. Biol. Evol. 18: 1001- 1013.

  • 47

    Suchard, M., R. Weiss y J. Sinsheimer. 2003. Testing a Molecular Clock without an outgroup: Derivations of induced Priors on Branch-Length Restrictions in a Bayesian Framework. Syst. Biol. 52: 48-54.

    Swofford, D. (1998). PAUP: Phylogenetic Analysis Using Parsimony (And other

    Methods), version 4. Sinauer, Sunderland, MA.

    Tajima, F. 1993. Unbiased estimation of evolutionary distances between nucleotide

    sequences. Mol Biol Evol. 10: 677-688.

    Takahata, N. y Satta, Y. 1997. Evolution of the primate lineage leading to modern

    humans: phylogenetic and demographic inferences from DNA sequences.

    Proc. Natl. Acad. Sci. USA. 94: 4811-4815.

    Takezaki, N. A. Rzhetsky y M. Nei. 1995. Phylogenetic test of the molecular clock and linearized trees. Mol Biol Evol.12: 823-33.

    Thorne, J., H. Kishino y I. Painter. 1998. Estimating the rate of evolution of the

    rate of molecular evolution. Mol. Biol. Evol. 15: 1647-1657. Thorne, J. y H. Kishino . 2002. Divergence time and evolutionary rate estimation

    with multilocus data. Syst. Biol. 51: 689-702

    Wakeley, J. y J. Hey. 1997. Estimating ancestral population parameters. Genetics 145: 847-855.

    Wilson, A.C., H. Ochman y E.M. Prager. 1987. Molecular time scale for evolution. Trends in Genetics 3: 241-247.

    Wu, C.I. y W.H. Li. 1985. Evidence for higher rates of nucleotide substitution in

    rodents than in man. Proc. Nat. Acad. Sci., USA 82:1741-1745. www.flmnh.ufl.edu/deeptime/datingdivergences.html pagina web de Deep Time

    Project:A Comprehensive Phylogenetic Tree of living and Fossil Angiosperms, responsable Dr.Doug Soltis, ultima modificacin, mayo de 2002.

  • 48

    Yoder, A.D. y Z. Yang. 2000. Estimation of Primate Speciation Dates using local molecular clocks. Mol. Biol. Evol. 17: 1081-1090.

    Zuckerkandl, E. y L.Pauling. 1962. Molecular disease, evolution and genic heterogeneity, pp. 189-225. En: M. Kasha y B. Pullman (eds.), Horizons in Biochemistry. Academic Press, New York.

    Zuckerkandl, E. y L.Pauling. 1965. Evolutionary divergence and convergence in proteins, pp. 97-166. En: V.Bryson and H.J. Vogel (eds.), Evolving Genes and Proteins. Academic Press, New York.