52
Alineamiento de dos secuencias

Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Embed Size (px)

Citation preview

Page 1: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Page 2: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasPara alinear dos secuencias de longitud n y m, respectivamente, se

colocan una encima de la otra de manera que el número de símbolos coincidentes sea máximo. Si es necesario, se introducen huecos (gaps).

* Un sistema de puntuación

Alineamiento de dos secuencias

indel

Page 3: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Las tres posibilidades: match, mismatch, gap

En cada una de las posiciones de un alineamiento de secuencias se puede encontrar:

Un símbolo idéntico (match) que se ha conservado a lo largo de la evolución

Un símbolo distinto (mismatch) que ha sido sustituido (o que ha mutado) a lo largo de la evolución

Un hueco (gap), que es el resultado de la desaparicón (deletion) de un símbolo en una secuencia o de la inserción (insertion) de un símbolo en la otra. Como ambos casos son indistinguibles, también se les llama indels.

Page 4: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasUn alineamiento global se extiende por toda la longitud de la secuencia

Un alineamiento local se limita a una región concreta de la secuencia

1.- Alineamiento global

2.- Alineamiento local

3.- Alineamiento semiglobal

Un alineamiento semiglobal se produce entre el final de una secuencia y el inicio de otra

Tipos de alineamiento de dos secuencias

Page 5: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Alineamiento global

Es especialmente adecuado cuando:

• Se comparan genes o proteínas con una misma función• Las secuencias tienen aproximadamente la misma longitud• Las secuencias están estrechamente relacionadas• Los dominios conservados se encuentran en el mismo orden

Un alineamiento global intenta alinear cada residuo de una secuencia con un residuo (o un indel) de la otra.

Un alineamiento global permite (1) establecer relaciones de homología y (2) hacer un análisis filogenético.

Para hacer un alineamiento global se utiliza el algoritmo de Needleman y Wunsch

Page 6: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

En un alineamiento local, una o más regiones de una secuencia se alinean con una o más regiones de la

otra.

Es especialmente adecuado cuando:

• Se comparan secuencias muy divergentes (de igual longitud o no)• No se conoce el orden de los dominios conservados• Se compara ADNc (o ESTs) con el ADN genómico

Para hacer un alineamiento local se utiliza el algoritmo de Smith y Waterman

Alineamiento local

Un alineamiento local permite (1) detectar pequeñas regiones conservadas de similitud local (centros activos, dominios proteicos, exones), (2) distinguir entre exones e intrones y (3) ensamblar contigs a partir de fragmentos más pequeños

Page 7: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Alineamiento semiglobal

Es especialmente adecuado cuando:

• Se comparan secuencias de muy distinta longitud• El final de una secuencia se solapa con el inicio de la otra• Los dominios conservados se encuentran en el mismo orden

Para hacer un alineamiento semiglobal se utiliza una variante del algoritmo de Smith y Waterman que no aplica

penalizaciones ni al principio ni al final de la secuencia

Un alineamiento semiglobal permite (1) ensamblar contigs a partir de fragmentos más pequeños y (2) comparar ADNc (o

ESTs) con el ADN genómico para establecer la estructura del gen

Un alineamiento semiglobal se utiliza para alinear secuencias con una longitud muy distinta

Page 8: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Ejemplo de alineamientos semiglobales

Page 9: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Búsqueda de secuencias en BD

Page 10: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Estrategias para alinear dos secuencias

Existen diversos métodos para el alineamiento de dos secuencias:

1.- El algoritmo de fuerza bruta

2.- Matrices de puntos (dot-plots)

3.- El algoritmo de programación dinámica

4.- Métodos heurísticos (FASTA, BLAST)

Page 11: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

O (2n × 2m)

Page 12: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

A lo bestia: el algoritmo de fuerza bruta

Page 13: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasTrata de encontrar la secuencia común de mayor tamaño (LCS)

entre dos secuencias X e Y de longitudes m y n, respectivamente.

Se determinan todas las subsecuencias posibles de X (2m) y se comparan con todas las subsecuencias posibles de Y (2n)

En total, hay que hacer 4(m+n) comparaciones

En la práctica, resulta imposible, tanto por el tiempo que se necesita como por los recursos de memoria que le harían falta al ordenador

Con gaps, hay que repetir los cálculos 2N veces para examinar la presencia de gaps en todas las

posiciones posibles de las dos secuencias

Según Waterman (1989) comparar dos secuencias de 300 aminoácidos requiere examinar 1088 posibilidades, casi el mismo

número de partículas elementales que hay en el Universo.

Con alineamientos locales es aún peor

Page 14: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasO (m × n)

Page 15: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Dot-plot (Gibbs and McIntyre, 1970)

Page 16: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

2.- Se escribe la secuencia A en la fila superior y la secuencia B (longitud = n) en la columna de la izquierda.

El algoritmo

3.- Se construye una matriz con m columnas y n filas (m n).

4.- Se compara cada letra de la secuencia A con cada letra de la secuencia B. Si coinciden los caracteres se marca esa posición con un punto. Si no, se deja en blanco.

1.- Se necesitan dos secuencias: A (de longitud = m) y B (de longitud = n).

Page 17: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Construcción de la matriz

Page 18: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Rellenado de la matriz

Page 19: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Características del dot plot

Es un método visual que detecta todas las coincidencias posibles entre dos secuencias. Es tarea

del investigador determinar cuáles son relevantes.

No proporciona un alineamiento de las secuencias pero nos da una

idea de qué regiones deberían estar alineadas después de utilizar cualquiera de los otros métodos y nos puede ayudar a decidir cuál

es el alineamiento óptimo.

Detecta relaciones entre las secuencias, o dentro de una misma

secuencia que, de otra forma, serían muy difíciles de encontrar

Page 20: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasSecuencia horizontal: gen/proteína c2 del fago P22Secuencia vertical: gen/proteína cI del fago

Como sólo hay 4 nucleótidos, aparecen muchas coincidencias por mero azar que generan ruido

DNA

Como hay 20 aminoácidos, hay muchas menos coincidencias por

azar y presenta mucho menos ruido

Proteína

DNA vs. proteína

Page 21: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Filtrado de los datos

Se puede eliminar el ruido mediante un filtrado- Secuencia horizontal: gen c2 del fago P22- Secuencia vertical: gen cI del fago

Sin filtrar Tras aplicar un filtro

Page 22: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Reducción del ruido: filtrado mediante ventanas deslizantes

Se colocará un punto en la posición correspondiente al centro de la ventana cuando entre ambas

ventanas exista, como mínimo, el número de coincidencias indicado

por el parámetro r.

La ventana deslizante se define mediante dos parámetros:

- TAMAÑO (t): es el número de símbolos que abarca la ventana. Suele ser 15 en el caso del DNA y 2 ó 3 en el caso de proteínas.

- RIGOR (r): es el mínimo número de coincidencias que debe haber entre las

dos ventanas para colocar un punto en la matriz

(t = 11 y r = 7)

Ventanas deslizantes

Page 23: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Ejemplo de la reducción del ruido

Secuencia horizontal: gen c2 del fago P22

Secuencia vertical: gen cI del fago

(t = 1 y r = 1)

(sin filtrado)

(t = 11 y r = 7) (t = 23 y r = 15)

Page 24: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Valores apropiados para los parámetros de filtrado

En general, hay que utilizar una ventana del tamaño del elemento que quiero localizar

- Al comparar secuencias de ácidos nucleicos:

- Se utilizan ventanas largas y con rigor elevado (t = 15 y r = 10, por ejemplo)

- Al comparar secuencias de proteínas:

- Muchas veces no se filtra la matriz (t = 1 y r = 1).

- Si intento buscar dominios cortos con similitud parcial en secuencias largas usaré una ventana larga y un rigor medio (t = 20 y r = 5, por ejemplo)

- A la hora de filtrar se pueden utilizar matrices de puntuación o se puede tener en cuenta la similitud entre las cadenas laterales de los aminoácidos.

- Si se filtra, se utilizan ventanas cortas con un rigor muy pequeño: (t = 2 y r = 2), (t = 3 y r = 2)

Page 25: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasComparación de una secuencia

(DNA o proteína) consigo misma

Page 26: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

- Aparece una diagonal de lado a lado

- Hay simetría respecto a esa diagonal

- Las líneas paralelas a ambos lados de la diagonal corresponden a repeticiones de la secuencia.

- Las áreas con alta densidad de puntos son repeticiones cortas de un mismo nucleótido o aminoácido (regiones de poca complejidad)

- Se ve mejor con un filtrado

Comparación de una secuencia consigo misma (1)

- Las repeticiones invertidas o las secuencias palindrómicas aparecen como líneas perpendiculares a la diagonal principal

(Receptor LDL humano)

Page 27: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasRegión de poca

complejidad

Comparación de una secuencia consigo misma (2)

Receptor LDL humano

(sin filtrar)

(t = 1 y r =1) (t = 23 y r =7)

Factor de transcripción

humano

Receptor LDL humano (filtrado)

Regiones repetidas

Repeticiones invertidas

(t = 1 y r =1)

Page 28: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasProteína SLIT de Drosophila melanogaster

Secuencias repetidas

- En el extremo amino hay 4 regiones repetidas, ricas en leucina (A)

- Hay otro dominio que se repite unas 6 veces en un tramo pequeño y otra vez más cerca del extremo carboxilo (B). Es el dominio EGF.

Page 29: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Repetición en tándem

Repetición en tándem de un

fragmento de la secuencia

…ABCDEFGEFGHIJKLMNO…

Page 30: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

En las repeticiones invertidas (inverted repeats), dos segmentos distintos de la doble hélice se leen igual, pero en sentidos opuestos:

Repeticiones invertidas

5' AGAACAnnnTGTTCT 3'3' TCTTGTnnnACAAGA 5'

Page 31: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Repeticiones invertidas

- Secuencias implicadas en la unión de los factores de transcripción

- Estructuras secundarias (stem-loop) del RNA (horquillas de terminación de la transcripción)

- Transposones de plantas

Las repeticiones invertidas se pueden encontrar en:

- Genes de retrovirus insertados en el genoma del huésped

- Genes duplicados

Page 32: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasHorquilla de terminación en la secuencia del gen UTP-

glucosa-1-fosfato uridililtransferasa de Bacillus subtilis

- En las regiones con apareamientos locales (estructuras stem-loop) la secuencia directa coincide con la de la hebra complementaria escrita en sentido inverso

Repeticiones invertidas

Page 33: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Secuencias palindrómicas

En las secuencias palindrómicas, la secuencia de una hebra se lee igual que la de su hebra complementaria:

5' GGCC 3'3' CCGG 5'

Page 34: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Secuencias palindrómicas

- Secuencias reconocidas por enzimas de restricción:

Las secuencias palindrómicas se pueden encontrar en:

Page 35: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Regiones con poca complejidad

Receptor LDL humano

- Las regiones de baja complejidad aparecen como zonas con una elevada densidad de puntos

Page 36: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Regiones con poca complejidad

Proteína P21997 (UniProtKB/Swiss-Prot)

- En las regiones de poca complejidad hay un aminoácido que se repite mucho más de lo normal. En este caso es la prolina.

- En el dot plot, estas regiones aparecen como cuadrados con una elevada densidad de puntos.

Page 37: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Comparación de dos secuencias similares

(de DNA o de proteína), pero no idénticas

Page 38: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciasSe coloca la secuencia A en la parte superior y la secuencia

B en el costado izquierdo. Se coloca un punto allí donde ambas coordenadas contengan un mismo símbolo.

Es un método visual que detecta rápidamente todas las coincidencias

- Las regiones similares aparecen como diagonales (puede haber más de una)

- Los indel provocan desplazamientos de la diagonal (en sentido vertical u horizontal)

- Las transposiciones y las secuencias repetidas aparecen como diagonales paralelas a la principal

- Las repeticiones inversas y las secuencias palindrómicas aparecen como líneas perpendiculares a la diagonal principal

- Las regiones con poca complejidad aparecen como regiones con una elevada densidad de puntos

Lo que se puede detectar con un dot-plot

Page 39: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Dominios conservados

- La diagonal principal corresponde a las regiones similares que pueden alinearse

- Los huecos corresponden a las regiones que no son similares y que no podrían alinearse

Diagonal principal

Huecos- Con frecuencia, estas regiones corresponden a dominios proteicos conservados

Page 40: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Indels (insertion/deletions)

- Un indel provoca un desplazamiento de la diagonal

- El desplazamiento de la diagonal es paralelo a la secuencia que presenta la inserción

- Comparando cDNA con el DNA genómico, se pueden identificar los intrones y los exones

Región insertada

Page 41: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Secuencia repetida en tándem

Región repetida

Región repetida

Región repetida

- Una región repetida provoca un solapamiento en las diagonales

Page 42: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Repetición invertida o secuencia palindrómica

- Una repetición invertida o una secuencia palindrómica provoca una línea perpendicular a la diagonal

Page 43: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Comparación de una secuencia de proteína con su gen de ADN

Page 44: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

Identificación de los intrones y exones

- Secuencia horizontal: gen J05545.1 - Secuencia vertical: proteína P60204 (una calmodulina)

- Al comparar un gen con su producto proteico se pueden diferenciar los exones y los intrones.

* En rojo: exones.

* En azul: intrones.

- También se pueden diferenciar intrones y exones al comparar un cDNA, una EST (expressed sequence tag) o un mRNA con el DNA genómico

Page 45: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

El programa Dotlet

http://myhits.isb-sib.ch/cgi-bin/dotlet

Page 46: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

El programa Dnadot

http://www.vivo.colostate.edu/molkit/dnadot/

Page 47: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

El programa Dotter

Descárgate el programa (varias plataformas)

http://sonnhammer.sbc.su.se/Dotter.html

Page 48: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

El programa Dottup

http://emboss.bioinformatics.nl/cgi-bin/emboss/dottup

Page 49: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciashttp://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dottup

El programa Dottup

Page 50: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciashttp://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dotmatcher

El programa Dotmatcher

Page 51: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuencias

El programa Dothelix

http://www.genebee.msu.su/services/dhm/advanced.html

Page 52: Alineamiento de dos secuencias. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número

Alineamiento de dos secuenciashttp://www.cbs.dtu.dk/services/MatrixPlot/

El programa MatrixPlot