Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Lección 4 1
LECCIÓN 4. Evaluación e interpretación de resultados en caracterización molecular.
Lección 4 2
• Determinación de la diversidad genética y su distribución entre y dentro de las poblaciones de una determinada especie.
• Cuantificación de las relaciones entre UBC y representación geométrica de dichas UBC.La cuantificación de las relaciones se puede hacer desde dos puntos
de vista:- Basado en las distancias geométricas (las llamaremos distancias
fenotípicas, también llamadas fenéticas).No considera los procesos evolutivos, por lo que la distancia permanece constante con tiempoLos dendrogramas obtenidos son fenogramas que no pueden interpretarse como árboles filogenéticos
- Basado en las distancias genéticas.Considera los procesos evolutivos
Posibles enfoques del trabajo
Lección 4 3
• Interpretación genética
Frecuencias de cada uno de los alelos posibles en cada
locus
Posible interpretación de los resultados
Lección 4 4
• Interpretación fenotípica
Presencia/Ausencia de bandas por lo que se considera que
cada banda es un locus con 2 alelos
1:presente0: ausente
Posible interpretación de los resultados (2)
Lección 4 5
• Interpretación molecularEn casos de secuenciación
Posible interpretación de los resultados (3)
Lección 4 6
Tipo de marcador Interpretación
PRINCIPAL SECUNDARIA
Codominante Genética Fenotípica
Dominante Fenotípica
Genética (con restricciones):– En especies autógamas para locus que solo
presenten 2 alelos presencia/ausencia de una banda
Es necesario examinar 2 generaciones de la misma población para medir la segregación de los loci
Posible interpretación de los resultados (4)
Lección 4 7
• Frecuencias alélicas (pi)• Número medio de alelos por locus (A)• Número medio de alelos por locus polimórfico (Ap)Es aquel en que la frecuencia del alelo más común es igual o inferior a
0.99 (0.95).• Índice de polimorfismoRelación entre el número de loci polimórficos frente a totales (%)
• Número de alelos únicos.Se encuentran solo en esa población
• Número efectivo de alelos en un locus (Effective Number of Allele: ENA) (Kimura and Crow, 1964).
Hace referencia a los alelos con capacidad de pasar a la siguiente generación
2
1
ipENA pi: frecuencia del alelo i
Diversidad genética: Interpretación genética
Lección 4 8
• Heterocigosidad esperada (heterocigosisdad media o diversidad genética media) (He) (Nei 1973)
• Hj: Heterocigosidad esperada en un locus j• pij: frecuencia del alelo i del locus j• m: número de alelos en el locus j• n: número de loci considerados
n
p
n
HjHavHe
n
j
m
iij
n
j
1 1
2
11
Expresa la heterocigosidad esperada en el locus medio si el apareamiento fuese al azar
Valor máximo (=diversidad máxima) Hj=0,5Valor minimo (=diversidad mínima) Hj=0
Este índice puede estimar la diversidad genética:• Promedio de la diversidad genética intrapoblacional (HS)• Diversidad genética total (en la población total = de todas las poblaciones) (HT)• Diversidad genética interpoblacional: DST = HT - HS
• Coeficiente de diferenciación genética entre poblaciones GST= (DST/HT)*100
Div. genética: Interpretación genética (2)
Lección 4 9
• Heterocigosidad observada (Ho)
analizadosindividuosdetotalnúmerotosheterocigoindividuosH o
• Probabilidad de alelos nulos para un determinado locus
e
oe
HHHr
1
Si es negativa o muy baja puede considerarse que la presencia de una sola banda de MM-ADN, corresponde con un homocigoto, y no con un heterocigoto con un alelo nulo.
Div. genética: Interpretación genética (3)
Lección 4 10
– FIS: Coeficiente de endogamia. Mide la reducción en la heterocigosidad individual debido a las desviaciones de los cruzamientos al azar
– FST: Índice de fijación. Reducción de la heterocigosidad en una subpoblación debido a los cruzamientos NO al azar, con respecto a la población total
S
lSIS H
HHF
• Hl Promedio de la heterocigosidad observada en todas las poblaciones
• HS Heterocigosidad esperada en cada subpoblación
T
STST H
HHF
ITSTIS FFF 111–
• “Estadísticos F” (Wright)
HT Heterocigosidad esperada en la población total (= de todas las poblaciones)
Div. genética: Interpretación genética (4)
Lección 4 11
– Interpretación de valores FST.El rango de FST es:
• “Estadísticos F” (Wright) (2)
no existe diferenciación genética entre subpoblaciones
fijación para alelos alternos en diferentes subpoblaciones
0 1
Valor de F Diferenciación•De 0 a 0.05 pequeña•De 0.05 a 0.15 moderada•De 0.15 a 0.25 grande•>0.25 muy grande
Div. genética: Interpretación genética (5)
Lección 4 12
– Sirve para estudiar la variación molecular dentro de una especie– Se basa en un modelo jerárquico y anidado– Diferencias con el ANOVA:
• Puede contener diferentes suposiciones evolutivas sin modificar la estructura básica del análisis:
• La hipóteis utiliza métodos de permutación que no requieren la suposición de una distribución normal
Niveles jerárquicos de la diversidad genética estudiada por medio del AMOVA:• Continentes que contengan niveles jerárquicos menores• Regiones geográficas dentro de un continente• Zonas dentro de una región, en un continente• Poblaciones dentro de una zona de un región, en un continente.• Individuos dentro de una población en una zona de una región en un
continente
• Análisis de varianza molecular (AMOVA)
Div. genética: Interpretación genética (6)
Lección 4 13
• Análisis de varianza molecular (AMOVA) (2)– Se aplica a haplotipos, que pueden obtenerse de:
• Datos de RFLP• Datos de RAPD • Secuencias de ADN
– Ejemplo del modelo para un caso de medición de la diversidad génica entre poblaciones en áreas de una región en un continente:
Yki(j)=Y+ak+bk(i)+wki(j)
• ak: Efecto de la k-ésima población con varianza 2a
• bk(i): Efecto del i-ésimo individuo dentro de la k-ésima población, con varianza 2b
• wki(j) Efecto del j-ésimo locus del i-ésimo individuo de la k-ésima población, con varianza 2w
Div. genética: Interpretación genética (7)
Lección 4 14
• Contenido de información de un polimorfismo (“Polymorphism Information Content”:PIC) (Botstein et al. 1980)
222 ··21 jii pppPIC
Medida de la informatividad de un marcador genético, que depende del número de alelos para ese locus y de sus frecuencias relativas.
Informatividad: Para un marcador genético, la probabilidad de que un descendiente de una pareja sea informativo, es decir, que se pueda deducir el origen parental de cada uno de los alelos de ese locus.
PIC junto con ENA sirven para evaluar la utilidad de un determinado locus de un marcador molecular para distinguir entre las UBC analizadas
Div. genética: Interpretación genética (8)
Lección 4 15
• Poder discriminante de un locus marcador (D) (Jones, 1972; Lamoby and Alpha, 1998) Es una estimación de la probabilidad de que dos accesiones
muestreadas al azar puedan ser distinguidas por sus perfiles STMS en un determinado locus.
CD 1• C: Probabilidad de coincidencia o probabilidad de que dos accesiones
coincidan por azar en un locus.
2iPC Pi: Frecuencia de los diferentes
genotipos observados en el locus en cuestión
Poder discriminante combinado para todos los loci
TT CD 1 CCT
Div. genética: Interpretación genética (9)
Lección 4 16
• Índice de uniformidad de una población (Weising et al. 1995)
m
iUj
1ijp
m1 • pij: frecuencia del carácter i (banda i) en la
población j• m: número de caracteres (bandas) analizado• uniformidad máxima U = 1 ó U = 0; mínima U =
0.5
• Índice de Shannon de diversidad de una población j (Hj) (Shannon & Weaver 1949)
• m: número de caracteres (bandas) considerado
• Su valor mínimo es cero y se hace mayor al aumentar la diversidad
ij
m
ipHj lnp
1ij
Diversidad genética: Interpretación fenotípica
Lección 4 17
• Polimorfismo de la población media (Hpop)
m
iijij
n
jHpop
11plnpHj
n1
n: número de poblaciones
pi: frecuencia del carácter i (banda i) en la especie
m
iiiHsp
1plnp
• Polimorfismo de la especie (Hsp)
Div. genética: Interpretación fenotípica (2)
Lección 4 18
• Condiciones ideales de los caracteres a utilizar:– Ser independientes dentro de cada individuo examinado.– Ser homólogos entre diferentes individuos.– Ser suficientemente numerosos.
Visualización de las relaciones entre UBC: formación de grupos.
Lección 4 19
¿Misma banda, mismo fragmento?
¿Una banda, un fragmento?
Williams et al. (1993); Rieseberg (1996)
Problemas de interpretación que pueden plantearse: alta homología
Visualización de las relaciones entre UBC: formación de grupos (2)
Lección 4 20
Formación de gruposFormación de grupos
Construcción de la Matriz Básica de Datos
Estimación del parecido entre UBC: Similitud o distanciaSi interpretación genética “distancia genética”
Construcción de la matriz de similitud
Visualización de las relaciones entre UBC: formación de grupos (3)
Lección 4 21
• Casos:– Interpretación genética: Determinación de frecuencias de todos
los alelos de cada locus– Interpretación fenotípica: Determinación de presencia/ausencia de
bandas.
Visualización de las relaciones entre UBC: formación de grupos (4)
Lección 4 22
– Tabla con los genotipos de cada UBC– Matriz de 0/1/2 para las diferentes
alternativas alélicas de cada locus
Software calcula
frecuencias alélicas
– Como alternativa, se pueden introducir directamente frecuencias alélicas.
• Matriz de datosRelaciones entre UBC: Distancia genética
Lección 4 23
• Cálculo matriz de distancia o similitud genética entre poblaciones.– Distancia de Rogers. (Rogers 1972)
m
x
q
kkjkiij xx
md
1 1
2
21
m: número de lociq: número de alelos para el locus xxki: frecuencia del alelo k en la población ixkj: frecuencia del alelo k en la población j
gg
Relaciones entre UBC: Distancia genética (2)
Lección 4 24
• Cálculo matriz de distancia o similitud genética entre poblaciones(2).– Distancia de Nei o distancia genética estándar (Nei 1972)Considera cambios en las frecuencias alélicas derivados tanto de
mutaciones como de efectos de deriva genética (adecuada para estudios filogenéticos).
q
kkjki
q
kkjki
xx
xxDij
1
22
1ln
gg
– Distancia de Nei (Nei UB o 1978)
12
2
12
2
ln
1
2
1
2
1
22
1
j
q
kkjj
i
q
kkii
q
kkjki
q
kkjki
n
mxn
n
mxn
xx
xx
Dij
Relaciones entre UBC: Distancia genética (3)
Lección 4 25
• Cálculo matriz de distancia o similitud genética entre individuos.– Índice de Mannen (GS) (Mannen et al. 1993)
p: número de loci en los que ambos individuos comparten genotipo
q: número de loci en los que un individuo es homocigota y el otro heterocigota
m: número total de loci analizados
mqpGS
22
gg
Relaciones entre UBC: Distancia genética (4)
Lección 4 26
• Matriz de datos– Matriz presencia - ausencia.
Relaciones entre UBC: Distancia fenética
Lección 4 27
• Cálculo matriz de distancia o similitud fenética entre individuos*.– Coeficiente de Dice (SD) (Dice 1945) o de Nei-Li (1979).
cba
acaba
aD
S
2
2
2
)()(
a: número de bandas presentes en ambos individuosb: número bandas presentes en el primer individuo, pero no en el segundoc: número de bandas presentes en el segundo individuo pero no en el primero
Expresa probabilidad de que una banda en un individuo esté también en otro. Es el índice que se ve menos afectado por las bandas erráticas cuando la
similitud entre muestras se debe más a dobles presencias que a dobles ausencias
ff
*o conjunto de individuos de los que se haya obtenido un único patrón de bandas
Relaciones entre UBC: Distancia fenética (2)
Lección 4 28
• Cálculo matriz de distancia o similitud fenética entre individuos(2).– Simple Matching Coefficient (SSM) (Sokal & Michener 1958).
d: número de marcadores en los cuales la banda está simultáneamente ausente en ambos individuosdcba
daSSM
Este coeficiente presenta la particularidad de considerar como factor de similitud las dobles ausencias.
Su utilización conduce a errores si detrás de las dobles ausencias no hay una identidad (comparaciones interespecíficas mediante RAPDs).
No obstante, cuando se hacen comparaciones intraespecíficas, las dobles ausencias se pueden considerar como identidades.
ff
Relaciones entre UBC: Distancia fenética (3)
Lección 4 29
• Cálculo matriz de distancia o similitud fenética entre individuos(3).– Coeficiente de Jaccard (SJ) (Jaccard 1908; Sneath & Sokal 1973)
cbaasJ
ff
Relaciones entre UBC: Distancia fenética (4)
Lección 4 30
Tratamiento de los resultados de secuenciación
• PASO 1: Ensamblar las secuencias de ADN obtenidas de la secuenciación
• PASO 2: Comparar la secuencia problema con las depositadas en las bases de datos (alineamiento).
• PASO 3. Alineamientos múltiples.• PASO 4. Construcción de árboles filogenéticos.
Lección 4 31
• Consiste en ensamblar fragmentos para obtener un “contig”• Software para realizar el ensamblaje: DNASTAR o VectorNTI poseen módulos
específicos para realizar el ensamblaje
Ej: SeqMan es una aplicación del DNAStar que permite:– Comparar secuencias de DNA entre sí.– Hacer anillamientos de varias secuencias para obtener un consenso final
que sería la suma de todas las secuencias parciales. – Comparación con bases de datos mediante “alineamiento” de nuestra
secuencia con todas las depositadas en las bases de datos.
PASO 1: Ensamblar las secuencias de ADN obtenidas de la secuenciación
Lección 4 32
FINALIDAD: Se trata de comparar nuestra secuencia ("query sequence") con cada una de las secuencias presentes en la base de datos ("subject sequence"), determinando la puntuación de cada alineamiento generado.
PASO 2: Comparar la secuencia problema con las depositadas en las bases de datos (alineamiento).
OBJETIVO DEL ALINEAMIENTO DE DOS SECUENCIAS: Determinar si poseen suficiente similitud como para poder justificar la existencia de homología entre ellas. La similitud es un concepto cuantificable, que puede medirse y expresarse
como un porcentaje de identidad entre dos secuencias. La homología se refiere a una conclusión obtenida de esos datos, e indica si
dos secuencias están relacionadas o comparten una historia evolutiva común. Los genes son o no son homólogos, pero no existen grados de homología.
DEFINICIÓN DE ALINEAMIENTO DE DOS SECUENCIAS: Alinear dos secuencias es un método para determinar si un conjunto de caracteres se encuentran en el mismo orden en dos secuencias
Lección 4 33
EL CONCEPTO DE “GAP”Son los huecos (“gaps” en inglés) que es necesario introducir en el alineamiento para compensar las deleciones/ inserciones que ocurren a lo largo de la evolución. Si permitimos la inserción de numerosos huecos en el alineamiento, en
teoría podríamos alinear dos secuencias completamente divergentes, … el resultado sería una sucesión improbable de huecos y letras. • Para evitar que esto ocurra, los programas de alineamiento introducen:
– Una penalización en la puntuación del alineamiento por cada hueco que se abre (G o "gap opening penalty")
– Otra adicional en función de la longitud del hueco (L o "gap extension penalty").
Alineamiento de nuestra secuencia con las depositadas en las bases de datos
Lección 4 34
• GenBank (http://www.ncbi.nlm.nih.gov/genbank/) que depende del NCBI (National Center for Biotechnology Information) (USA) y que utiliza el software BLAST (Basic Local Alignment Search Tool) para el alineamiento
• ENA European Nucleotide Archive database (European Molecular Biology Laboratory) (http://www.ebi.ac.uk/ena/) que depende del EBI (European Bioinformatics Institute) (Reino Unido) y que utiliza el software FASTA para el alineamiento.
• DDBJ (DNA Data Bank of Japan)• Específicas como EZTAXON (http://eztaxon-e.ezbiocloud.net/) muy usada para
procariotas que alberga la secuencia del gen 16S rDNA de más de 35.000 accesiones.
Cuando comparamos una secuencia desconocida con las bases de datos, normalmente se comienza utilizando BLAST al ser más rápido. Posteriormente, puede repetirse el análisis usando FASTA para comprobar si alguna homología significativa ha sido omitida por el primer programa.
BASES DE DATOS UTILIZABLES CON SOFTWARE “ONLINE” PARA HACER LA BÚSQUEDA
Alineamiento de nuestra secuencia con las depositadas en las bases de datos (2)
Lección 4 35
De nuestra secuencia con las más similares encontradas en las bases de datos, o con las que constituyen el grupo de UBC que estamos caracterizando, más otro material de referencia en su caso.
Se usan programas como MEGA o CLUSTAL OMEGA
PASO 3. Alineamientos múltiples
Lección 4 36
PROPOSITO DE LOS ALINEAMIENTOS MÚLTIPLES: colocar los residuos (aminoácidos o bases) que derivan de un ancestro común en columnas. Esto se logra introduciendo “gaps” que representan inserciones o deleciones ocurridas durante el proceso evolutivo. Por tanto, el alineamiento resultante tras el proceso de alineamiento múltiple
de secuencias es un modelo hipotético para explicar las mutaciones (sustituciones, inserciones o deleciones) ocurridas durante la evolución. Es decir, un alineamiento se puede considerar una hipótesis de homología posicional entre residuos.
DEFINICIÓN DE ALINEAMIENTOS MÚLTIPLES: Es el resultado del alineamiento de 3 o más secuencias unas respecto a otras para lograr alcanzar la máxima similitud entre ellas.
Seq. 1Seq. 2Seq. 3Seq. 4Seq. 5
Alineamientos múltiples de nuestra secuencia con la de otras UBC
Lección 4 37
• Si el alineamiento de varias secuencias se considera muy bueno, es muy posible que las secuencias sean similares por razones filogenéticas, siendo en ese caso útiles para:― Construir árboles filogenéticos.― Indagar sobre la historia biomolecular― Especular sobre los factores que han impulsado la evolución (presión
selectiva).
• Como norma general:― >50% identidad para interesarse por ellas― >75% identidad para estudios filogenéticos
APLICACIONES DE LOS ALINEAMIENTOS MÚLTIPLES:
Alineamientos múltiples de nuestra secuencia con la de otras UBC (2)
Lección 4 38
1. Buscar secuencias similares a la secuencia de interés.– Realizar la búsqueda en las bases de datos e identificar las
potencialmente homólogas a ésta. – Utilizar las secuencias de la UBC en estudio y de otros organismos que
a priori se sepa que están relacionados filogenéticamente.2. Recopilar las secuencias de interés en único documento de texto.
El formato del documento dependerá del programa a utilizar3. Realizar el alineamiento múltiple con el programa que queramos 4. Analizar y editar el alineamiento.
PASOS A DAR PARA REALIZAR ALINEAMIENTOS MÚLTIPLES:
Alineamientos múltiples de nuestra secuencia con la de otras UBC (3)
Lección 4 39
• Hay varios programas para realizar alineamientos múltiples.• Casi todos utilizan algoritmos heurísticos para realizan alineamientos
múltiples progresivos. • Por el contrario, el programa PROBCONS se basa en un nuevo parámetro,
denominado consistencia probabilística, que permite al programa predecir la probabilidad con la que el alineamiento realizado se ajusta a la realidad.
• Los programas mas utilizados son CLUSTAL OMEGA y MUSCLE.
SOFTWARE PARA PRODUCIR ALINEAMIENTOS MÚLTIPLES:
Alineamientos múltiples de nuestra secuencia con la de otras UBC (4)
Lección 4 40
• Basado en el método “Alineamiento Múltiple Global progresivo” por métodos heurísticos.
• Lógica del programa: Realiza en primer lugar una serie de alineamientos por pares, comparando cada secuencia con todas las demás para construir una matriz de distancias.
• Tanto CLUSTAL OMEGA como MUSCLE funcionan en la nube• Información que debe introducirse:
– Todas las secuencias que deseamos usar en el análisis utilizando cualquier editor de textos grabando en formato ASCII.
– La forma de expresar las secuencias puede ser el formato de FASTA, EMBL, Swiss-Prot, …
CLUSTAL
Alineamientos múltiples de nuestra secuencia con la de otras UBC (5)
Lección 4 41
Para la construcción de un árbol filogenético es frecuente utilizar el método de agrupamiento denominado Neighbor Joining (NJ) (Saitou and Nei, 1987) con remuestreo, aunque es necesario varios métodos (por ejemplo Maximum Likelihood) y luego comparar los resultados e indicar los nodos que son estables.
NTSYS puede elaborar este tipo de árboles (la opción está dentro del subprograma “Cluster”)
Se suele utilizar MEGATambién se puede utiliza PHYLIP
PASO 4. Construcción de árboles filogenéticos.
Lección 4 42