LECCIÓN 4. Evaluación e interpretación de resultados en …fernando.gonzalez.unileon.es/presentaciones_teoria/... · 2018-07-16 · • Cuantificación de las relaciones entre

Lección 4 1

LECCIÓN 4. Evaluación e interpretación de resultados en caracterización molecular.

Lección 4 2

• Determinación de la diversidad genética y su distribución entre y dentro de las poblaciones de una determinada especie.

• Cuantificación de las relaciones entre UBC y representación geométrica de dichas UBC.La cuantificación de las relaciones se puede hacer desde dos puntos

de vista:- Basado en las distancias geométricas (las llamaremos distancias

fenotípicas, también llamadas fenéticas).No considera los procesos evolutivos, por lo que la distancia permanece constante con tiempoLos dendrogramas obtenidos son fenogramas que no pueden interpretarse como árboles filogenéticos

- Basado en las distancias genéticas.Considera los procesos evolutivos

Posibles enfoques del trabajo

Lección 4 3

• Interpretación genética

Frecuencias de cada uno de los alelos posibles en cada

locus

Posible interpretación de los resultados

Lección 4 4

• Interpretación fenotípica

Presencia/Ausencia de bandas por lo que se considera que

cada banda es un locus con 2 alelos

1:presente0: ausente

Posible interpretación de los resultados (2)

Lección 4 5

• Interpretación molecularEn casos de secuenciación


Lección 4 6

Tipo de marcador Interpretación

PRINCIPAL SECUNDARIA

Codominante Genética Fenotípica

Dominante Fenotípica

Genética (con restricciones):– En especies autógamas para locus que solo

presenten 2 alelos presencia/ausencia de una banda

Es necesario examinar 2 generaciones de la misma población para medir la segregación de los loci


Lección 4 7

• Frecuencias alélicas (pi)• Número medio de alelos por locus (A)• Número medio de alelos por locus polimórfico (Ap)Es aquel en que la frecuencia del alelo más común es igual o inferior a

0.99 (0.95).• Índice de polimorfismoRelación entre el número de loci polimórficos frente a totales (%)

• Número de alelos únicos.Se encuentran solo en esa población

• Número efectivo de alelos en un locus (Effective Number of Allele: ENA) (Kimura and Crow, 1964).

Hace referencia a los alelos con capacidad de pasar a la siguiente generación

2

1

ipENA pi: frecuencia del alelo i

Diversidad genética: Interpretación genética

Lección 4 8

• Heterocigosidad esperada (heterocigosisdad media o diversidad genética media) (He) (Nei 1973)

• Hj: Heterocigosidad esperada en un locus j• pij: frecuencia del alelo i del locus j• m: número de alelos en el locus j• n: número de loci considerados

n

p

n

HjHavHe

n

j

m

iij

n

j

1 1

2

11

Expresa la heterocigosidad esperada en el locus medio si el apareamiento fuese al azar

Valor máximo (=diversidad máxima) Hj=0,5Valor minimo (=diversidad mínima) Hj=0

Este índice puede estimar la diversidad genética:• Promedio de la diversidad genética intrapoblacional (HS)• Diversidad genética total (en la población total = de todas las poblaciones) (HT)• Diversidad genética interpoblacional: DST = HT - HS

• Coeficiente de diferenciación genética entre poblaciones GST= (DST/HT)*100

Div. genética: Interpretación genética (2)

Lección 4 9

• Heterocigosidad observada (Ho)

analizadosindividuosdetotalnúmerotosheterocigoindividuosH o

• Probabilidad de alelos nulos para un determinado locus

e

oe

HHHr

1

Si es negativa o muy baja puede considerarse que la presencia de una sola banda de MM-ADN, corresponde con un homocigoto, y no con un heterocigoto con un alelo nulo.


Lección 4 10

– FIS: Coeficiente de endogamia. Mide la reducción en la heterocigosidad individual debido a las desviaciones de los cruzamientos al azar

– FST: Índice de fijación. Reducción de la heterocigosidad en una subpoblación debido a los cruzamientos NO al azar, con respecto a la población total

S

lSIS H

HHF

• Hl Promedio de la heterocigosidad observada en todas las poblaciones

• HS Heterocigosidad esperada en cada subpoblación

T

STST H

HHF

ITSTIS FFF 111–

• “Estadísticos F” (Wright)

HT Heterocigosidad esperada en la población total (= de todas las poblaciones)


Lección 4 11

– Interpretación de valores FST.El rango de FST es:

• “Estadísticos F” (Wright) (2)

no existe diferenciación genética entre subpoblaciones

fijación para alelos alternos en diferentes subpoblaciones

0 1

Valor de F Diferenciación•De 0 a 0.05 pequeña•De 0.05 a 0.15 moderada•De 0.15 a 0.25 grande•>0.25 muy grande


Lección 4 12

– Sirve para estudiar la variación molecular dentro de una especie– Se basa en un modelo jerárquico y anidado– Diferencias con el ANOVA:

• Puede contener diferentes suposiciones evolutivas sin modificar la estructura básica del análisis:

• La hipóteis utiliza métodos de permutación que no requieren la suposición de una distribución normal

Niveles jerárquicos de la diversidad genética estudiada por medio del AMOVA:• Continentes que contengan niveles jerárquicos menores• Regiones geográficas dentro de un continente• Zonas dentro de una región, en un continente• Poblaciones dentro de una zona de un región, en un continente.• Individuos dentro de una población en una zona de una región en un

continente

• Análisis de varianza molecular (AMOVA)


Lección 4 13

• Análisis de varianza molecular (AMOVA) (2)– Se aplica a haplotipos, que pueden obtenerse de:

• Datos de RFLP• Datos de RAPD • Secuencias de ADN

– Ejemplo del modelo para un caso de medición de la diversidad génica entre poblaciones en áreas de una región en un continente:

Yki(j)=Y+ak+bk(i)+wki(j)

• ak: Efecto de la k-ésima población con varianza 2a

• bk(i): Efecto del i-ésimo individuo dentro de la k-ésima población, con varianza 2b

• wki(j) Efecto del j-ésimo locus del i-ésimo individuo de la k-ésima población, con varianza 2w


Lección 4 14

• Contenido de información de un polimorfismo (“Polymorphism Information Content”:PIC) (Botstein et al. 1980)

222 ··21 jii pppPIC

Medida de la informatividad de un marcador genético, que depende del número de alelos para ese locus y de sus frecuencias relativas.

Informatividad: Para un marcador genético, la probabilidad de que un descendiente de una pareja sea informativo, es decir, que se pueda deducir el origen parental de cada uno de los alelos de ese locus.

PIC junto con ENA sirven para evaluar la utilidad de un determinado locus de un marcador molecular para distinguir entre las UBC analizadas


Lección 4 15

• Poder discriminante de un locus marcador (D) (Jones, 1972; Lamoby and Alpha, 1998) Es una estimación de la probabilidad de que dos accesiones

muestreadas al azar puedan ser distinguidas por sus perfiles STMS en un determinado locus.

CD 1• C: Probabilidad de coincidencia o probabilidad de que dos accesiones

coincidan por azar en un locus.

2iPC Pi: Frecuencia de los diferentes

genotipos observados en el locus en cuestión

Poder discriminante combinado para todos los loci

TT CD 1 CCT


Lección 4 16

• Índice de uniformidad de una población (Weising et al. 1995)

m

iUj

1ijp

m1 • pij: frecuencia del carácter i (banda i) en la

población j• m: número de caracteres (bandas) analizado• uniformidad máxima U = 1 ó U = 0; mínima U =

0.5

• Índice de Shannon de diversidad de una población j (Hj) (Shannon & Weaver 1949)

• m: número de caracteres (bandas) considerado

• Su valor mínimo es cero y se hace mayor al aumentar la diversidad

ij

m

ipHj lnp

1ij

Diversidad genética: Interpretación fenotípica

Lección 4 17

• Polimorfismo de la población media (Hpop)

m

iijij

n

jHpop

11plnpHj

n1

n: número de poblaciones

pi: frecuencia del carácter i (banda i) en la especie

m

iiiHsp

1plnp

• Polimorfismo de la especie (Hsp)

Div. genética: Interpretación fenotípica (2)

Lección 4 18

• Condiciones ideales de los caracteres a utilizar:– Ser independientes dentro de cada individuo examinado.– Ser homólogos entre diferentes individuos.– Ser suficientemente numerosos.

Visualización de las relaciones entre UBC: formación de grupos.

Lección 4 19

¿Misma banda, mismo fragmento?

¿Una banda, un fragmento?

Williams et al. (1993); Rieseberg (1996)

Problemas de interpretación que pueden plantearse: alta homología

Visualización de las relaciones entre UBC: formación de grupos (2)

Lección 4 20

Formación de gruposFormación de grupos

Construcción de la Matriz Básica de Datos

Estimación del parecido entre UBC: Similitud o distanciaSi interpretación genética “distancia genética”

Construcción de la matriz de similitud


Lección 4 21

• Casos:– Interpretación genética: Determinación de frecuencias de todos

los alelos de cada locus– Interpretación fenotípica: Determinación de presencia/ausencia de

bandas.


Lección 4 22

– Tabla con los genotipos de cada UBC– Matriz de 0/1/2 para las diferentes

alternativas alélicas de cada locus

Software calcula

frecuencias alélicas

– Como alternativa, se pueden introducir directamente frecuencias alélicas.

• Matriz de datosRelaciones entre UBC: Distancia genética

Lección 4 23

• Cálculo matriz de distancia o similitud genética entre poblaciones.– Distancia de Rogers. (Rogers 1972)

m

x

q

kkjkiij xx

md

1 1

2

21

m: número de lociq: número de alelos para el locus xxki: frecuencia del alelo k en la población ixkj: frecuencia del alelo k en la población j

gg

Relaciones entre UBC: Distancia genética (2)

Lección 4 24

• Cálculo matriz de distancia o similitud genética entre poblaciones(2).– Distancia de Nei o distancia genética estándar (Nei 1972)Considera cambios en las frecuencias alélicas derivados tanto de

mutaciones como de efectos de deriva genética (adecuada para estudios filogenéticos).

q

kkjki

q

kkjki

xx

xxDij

1

22

1ln

gg

– Distancia de Nei (Nei UB o 1978)

12

2

12

2

ln

1

2

1

2

1

22

1

j

q

kkjj

i

q

kkii

q

kkjki

q

kkjki

n

mxn

n

mxn

xx

xx

Dij


Lección 4 25

• Cálculo matriz de distancia o similitud genética entre individuos.– Índice de Mannen (GS) (Mannen et al. 1993)

p: número de loci en los que ambos individuos comparten genotipo

q: número de loci en los que un individuo es homocigota y el otro heterocigota

m: número total de loci analizados

mqpGS

22

gg


Lección 4 26

• Matriz de datos– Matriz presencia - ausencia.

Relaciones entre UBC: Distancia fenética

Lección 4 27

• Cálculo matriz de distancia o similitud fenética entre individuos*.– Coeficiente de Dice (SD) (Dice 1945) o de Nei-Li (1979).

cba

acaba

aD

S

2

2

2

)()(

a: número de bandas presentes en ambos individuosb: número bandas presentes en el primer individuo, pero no en el segundoc: número de bandas presentes en el segundo individuo pero no en el primero

Expresa probabilidad de que una banda en un individuo esté también en otro. Es el índice que se ve menos afectado por las bandas erráticas cuando la

similitud entre muestras se debe más a dobles presencias que a dobles ausencias

ff

*o conjunto de individuos de los que se haya obtenido un único patrón de bandas

Relaciones entre UBC: Distancia fenética (2)

Lección 4 28

• Cálculo matriz de distancia o similitud fenética entre individuos(2).– Simple Matching Coefficient (SSM) (Sokal & Michener 1958).

d: número de marcadores en los cuales la banda está simultáneamente ausente en ambos individuosdcba

daSSM

Este coeficiente presenta la particularidad de considerar como factor de similitud las dobles ausencias.

Su utilización conduce a errores si detrás de las dobles ausencias no hay una identidad (comparaciones interespecíficas mediante RAPDs).

No obstante, cuando se hacen comparaciones intraespecíficas, las dobles ausencias se pueden considerar como identidades.

ff


Lección 4 29

• Cálculo matriz de distancia o similitud fenética entre individuos(3).– Coeficiente de Jaccard (SJ) (Jaccard 1908; Sneath & Sokal 1973)

cbaasJ

ff


Lección 4 30

Tratamiento de los resultados de secuenciación

• PASO 1: Ensamblar las secuencias de ADN obtenidas de la secuenciación

• PASO 2: Comparar la secuencia problema con las depositadas en las bases de datos (alineamiento).

• PASO 3. Alineamientos múltiples.• PASO 4. Construcción de árboles filogenéticos.

Lección 4 31

• Consiste en ensamblar fragmentos para obtener un “contig”• Software para realizar el ensamblaje: DNASTAR o VectorNTI poseen módulos

específicos para realizar el ensamblaje

Ej: SeqMan es una aplicación del DNAStar que permite:– Comparar secuencias de DNA entre sí.– Hacer anillamientos de varias secuencias para obtener un consenso final

que sería la suma de todas las secuencias parciales. – Comparación con bases de datos mediante “alineamiento” de nuestra

secuencia con todas las depositadas en las bases de datos.

PASO 1: Ensamblar las secuencias de ADN obtenidas de la secuenciación

Lección 4 32

FINALIDAD: Se trata de comparar nuestra secuencia ("query sequence") con cada una de las secuencias presentes en la base de datos ("subject sequence"), determinando la puntuación de cada alineamiento generado.

PASO 2: Comparar la secuencia problema con las depositadas en las bases de datos (alineamiento).

OBJETIVO DEL ALINEAMIENTO DE DOS SECUENCIAS: Determinar si poseen suficiente similitud como para poder justificar la existencia de homología entre ellas. La similitud es un concepto cuantificable, que puede medirse y expresarse

como un porcentaje de identidad entre dos secuencias. La homología se refiere a una conclusión obtenida de esos datos, e indica si

dos secuencias están relacionadas o comparten una historia evolutiva común. Los genes son o no son homólogos, pero no existen grados de homología.

DEFINICIÓN DE ALINEAMIENTO DE DOS SECUENCIAS: Alinear dos secuencias es un método para determinar si un conjunto de caracteres se encuentran en el mismo orden en dos secuencias

Lección 4 33

EL CONCEPTO DE “GAP”Son los huecos (“gaps” en inglés) que es necesario introducir en el alineamiento para compensar las deleciones/ inserciones que ocurren a lo largo de la evolución. Si permitimos la inserción de numerosos huecos en el alineamiento, en

teoría podríamos alinear dos secuencias completamente divergentes, … el resultado sería una sucesión improbable de huecos y letras. • Para evitar que esto ocurra, los programas de alineamiento introducen:

– Una penalización en la puntuación del alineamiento por cada hueco que se abre (G o "gap opening penalty")

– Otra adicional en función de la longitud del hueco (L o "gap extension penalty").

Alineamiento de nuestra secuencia con las depositadas en las bases de datos

Lección 4 34

• GenBank (http://www.ncbi.nlm.nih.gov/genbank/) que depende del NCBI (National Center for Biotechnology Information) (USA) y que utiliza el software BLAST (Basic Local Alignment Search Tool) para el alineamiento

• ENA European Nucleotide Archive database (European Molecular Biology Laboratory) (http://www.ebi.ac.uk/ena/) que depende del EBI (European Bioinformatics Institute) (Reino Unido) y que utiliza el software FASTA para el alineamiento.

• DDBJ (DNA Data Bank of Japan)• Específicas como EZTAXON (http://eztaxon-e.ezbiocloud.net/) muy usada para

procariotas que alberga la secuencia del gen 16S rDNA de más de 35.000 accesiones.

Cuando comparamos una secuencia desconocida con las bases de datos, normalmente se comienza utilizando BLAST al ser más rápido. Posteriormente, puede repetirse el análisis usando FASTA para comprobar si alguna homología significativa ha sido omitida por el primer programa.

BASES DE DATOS UTILIZABLES CON SOFTWARE “ONLINE” PARA HACER LA BÚSQUEDA

Alineamiento de nuestra secuencia con las depositadas en las bases de datos (2)

Lección 4 35

De nuestra secuencia con las más similares encontradas en las bases de datos, o con las que constituyen el grupo de UBC que estamos caracterizando, más otro material de referencia en su caso.

Se usan programas como MEGA o CLUSTAL OMEGA

PASO 3. Alineamientos múltiples

Lección 4 36

PROPOSITO DE LOS ALINEAMIENTOS MÚLTIPLES: colocar los residuos (aminoácidos o bases) que derivan de un ancestro común en columnas. Esto se logra introduciendo “gaps” que representan inserciones o deleciones ocurridas durante el proceso evolutivo. Por tanto, el alineamiento resultante tras el proceso de alineamiento múltiple

de secuencias es un modelo hipotético para explicar las mutaciones (sustituciones, inserciones o deleciones) ocurridas durante la evolución. Es decir, un alineamiento se puede considerar una hipótesis de homología posicional entre residuos.

DEFINICIÓN DE ALINEAMIENTOS MÚLTIPLES: Es el resultado del alineamiento de 3 o más secuencias unas respecto a otras para lograr alcanzar la máxima similitud entre ellas.

Seq. 1Seq. 2Seq. 3Seq. 4Seq. 5

Alineamientos múltiples de nuestra secuencia con la de otras UBC

Lección 4 37

• Si el alineamiento de varias secuencias se considera muy bueno, es muy posible que las secuencias sean similares por razones filogenéticas, siendo en ese caso útiles para:― Construir árboles filogenéticos.― Indagar sobre la historia biomolecular― Especular sobre los factores que han impulsado la evolución (presión

selectiva).

• Como norma general:― >50% identidad para interesarse por ellas― >75% identidad para estudios filogenéticos

APLICACIONES DE LOS ALINEAMIENTOS MÚLTIPLES:

Alineamientos múltiples de nuestra secuencia con la de otras UBC (2)

Lección 4 38

1. Buscar secuencias similares a la secuencia de interés.– Realizar la búsqueda en las bases de datos e identificar las

potencialmente homólogas a ésta. – Utilizar las secuencias de la UBC en estudio y de otros organismos que

a priori se sepa que están relacionados filogenéticamente.2. Recopilar las secuencias de interés en único documento de texto.

El formato del documento dependerá del programa a utilizar3. Realizar el alineamiento múltiple con el programa que queramos 4. Analizar y editar el alineamiento.

PASOS A DAR PARA REALIZAR ALINEAMIENTOS MÚLTIPLES:


Lección 4 39

• Hay varios programas para realizar alineamientos múltiples.• Casi todos utilizan algoritmos heurísticos para realizan alineamientos

múltiples progresivos. • Por el contrario, el programa PROBCONS se basa en un nuevo parámetro,

denominado consistencia probabilística, que permite al programa predecir la probabilidad con la que el alineamiento realizado se ajusta a la realidad.

• Los programas mas utilizados son CLUSTAL OMEGA y MUSCLE.

SOFTWARE PARA PRODUCIR ALINEAMIENTOS MÚLTIPLES:


Lección 4 40

• Basado en el método “Alineamiento Múltiple Global progresivo” por métodos heurísticos.

• Lógica del programa: Realiza en primer lugar una serie de alineamientos por pares, comparando cada secuencia con todas las demás para construir una matriz de distancias.

• Tanto CLUSTAL OMEGA como MUSCLE funcionan en la nube• Información que debe introducirse:

– Todas las secuencias que deseamos usar en el análisis utilizando cualquier editor de textos grabando en formato ASCII.

– La forma de expresar las secuencias puede ser el formato de FASTA, EMBL, Swiss-Prot, …

CLUSTAL


Lección 4 41

Para la construcción de un árbol filogenético es frecuente utilizar el método de agrupamiento denominado Neighbor Joining (NJ) (Saitou and Nei, 1987) con remuestreo, aunque es necesario varios métodos (por ejemplo Maximum Likelihood) y luego comparar los resultados e indicar los nodos que son estables.

NTSYS puede elaborar este tipo de árboles (la opción está dentro del subprograma “Cluster”)

Se suele utilizar MEGATambién se puede utiliza PHYLIP

PASO 4. Construcción de árboles filogenéticos.

Lección 4 42

Documents

LECCIÓN 4. Evaluación e interpretación de resultados en …fernando.gonzalez.unileon.es/presentaciones_teoria/... · 2018-07-16 · • Cuantificación de las relaciones entre