39
Alineamiento múltiple de secuencias Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 11 de junio del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 1 / 39

Alineamiento múltiple de secuencias - CINVESTAVertello/bioinfo/sesion07.pdf · 2014-07-17 · Alineamiento múltiple de secuencias Introducción Introducción Una extensión natural

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Alineamiento múltiple de secuencias

Dr. Eduardo A. RODRÍGUEZ TELLO

CINVESTAV-Tamaulipas

11 de junio del 2013

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 1 / 39

1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 2 / 39

Alineamiento múltiple de secuencias Introducción

1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 3 / 39

Alineamiento múltiple de secuencias Introducción

Introducción

Una extensión natural del alineamiento de pares de secuenciases el alineamiento múltiple, el cual consiste en alinear diversassecuencias relacionadas para lograr la mejor coincidencia entrelas secuencias

Como vimos la clase pasada la búsqueda de similitud en BDpuede devolver como resultado un grupo de secuenciasrelacionadas con la secuencia consulta (en pares)

A menudo es necesario convertir esos númerosos alineamientosde pares en un solo alineamiento (múltiple), el cual permiteidentificar posiciones evolutivas equivalentes en todas lassecuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 4 / 39

Alineamiento múltiple de secuencias Introducción

Introducción

La gran ventaja del alineamiento múltiple de secuencias (AMS) esque permite revelar mucha más información biológica que ungrupo de alineamientos de pares

El AMS es importante tiene aplicaciones importantes:

Análisis filogenético

Predicción de la estructura secundaria y terciaria de proteínas ...

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 5 / 39

Alineamiento múltiple de secuencias Introducción

Introducción

En teoría es posible usar la programación dinámica para alinearcualquier número de secuencias, sin embargo el tiempo decálculo y la memoria requerida aumenta exponencialmente

En la práctica los enfoques heurísticos son los más utilizados

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 6 / 39

Alineamiento múltiple de secuencias Función de puntuación

1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 7 / 39

Alineamiento múltiple de secuencias Función de puntuación

Función de puntuación

El AMS consiste en acomodar las secuencias de forma tal que elmáximo número de residuos de cada secuencia coincidan deacuerdo a una función de puntuación (scoring function) particular

La función de puntuación para el AMS está basada en elconcepto de suma de pares (SP)

Como su nombre lo indica, es la suma de la puntuación de todoslos posibles pares de secuencias en un AMS utilizando una matrizde puntuación particular

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 8 / 39

Alineamiento múltiple de secuencias Función de puntuación

Función de puntuación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 9 / 39

Alineamiento múltiple de secuencias Algoritmos exhaustivos

1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 10 / 39

Alineamiento múltiple de secuencias Algoritmos exhaustivos

Algoritmos exhaustivos

Estas técnicas implican el alineamiento de todos los posiblesalineamientos de manera simultánea y similar a como se realizaen la programación dinámica

Por lo tanto, implican la construcción de una matrizmultidimensional, e.g. para alinear tres secuencias (k = 3) serequiere de construir una matriz tridimensional

Finalmente se debe llevar a cabo un seguimiento a lo largo de lask dimensiones para encontrar el camino que represente el mejoralineamiento posible

Suelen limitarse a pequeños conjuntos de secuencias (k < 10)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 11 / 39

Alineamiento múltiple de secuencias Algoritmos exhaustivos

Algoritmos exhaustivos

La complejidad computacional es O(Nk ) (k , núm. de secuencias)

0

1e+14

2e+14

3e+14

4e+14

5e+14

6e+14

7e+14

8e+14

9e+14

1e+15

0 100 200 300 400 500 600 700 800 900 1000

N5

N

Complejidad

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 12 / 39

Alineamiento múltiple de secuencias Algoritmos exhaustivos

Algoritmos exhaustivos

Para N = 1000 y k = 5 la complejidad es 1.0E+15

Usando una computadora que ejecute 1 millón de operacionescada segundo tardaría 277777.78 horas (11574.07 días, 31.71años)

La alternativa es usar métodos heurísticos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 13 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 14 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos

Existen tres tipos de algoritmos heurísticos:Alineamiento progresivo

Alineamiento iterativo

Alineamiento basado en bloques

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 15 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo

Este método va ensamblando progresivamente alineamientos depares para formar un AMS

Primero se lleva a cabo un alineamiento global de pares desecuencias usando el algoritmo de Needleman-Wunsch

Con los resultados se crea una matriz de distancias, está permitever la relación evolutiva de la secuencia con las demás

Se realiza un análisis filogenético simple, dando como resultadola creación de un árbol filogenético (árbol guía)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 16 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo

Este árbol refleja la proximidad entre todas las secuencias y esempleado para realizar un reajuste de las secuencias

Las dos secuencias más relacionadas son realineadas usando elalgoritmo de Needleman-Wunsch convirtiéndose en un secuencia(consenso)

Este proceso se continúa hasta que todas las secuencias quedanalineadas

Clustal (http://www.ebi.ac.uk/Tools/msa/clustalw2) es unprograma que utiliza el método de alineamiento progresivo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 17 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo

Algorithm 1: Método de alineamiento progresivo

Data: N secuenciasResult: Alineamiento de las N secuencias

1 begin2 Construir la matriz de distancias

/* Árbol guía */3 Construir el árbol filogenético usando Neighbor-Joining4 while no estén alineadas todas las secuencias do5 Alinear las secuencias más relacionadas6 Reducir las secuencias alineadas7 end8 end

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 18 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo)

Se realizan todos los alineamientos de pares de secuencias y seconstruye la matriz de distancias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 19 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)

Se calcula un árbol guía con los pares más próximos: C,D y A,B

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 20 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)

Se alinean C,D y A,B por separado usando programacióndinámica

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 21 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)

Los alineamientos C,D y A,B se reducen a secuencias consensolas cuales se alinean entre ellas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 22 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)

Se crea un nuevo consenso para C,D,A,B el cual se alinea conE con lo que se completa el AMS

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 23 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)

Para este ejemplo con Clustal(http://www.ebi.ac.uk/Tools/msa/clustalw2) se utilizarán lassecuencias de proteínas siguientes:

NP_006735.2

BAB25881.1

NP_001638.1

MUP4_MOUSE

P0A901

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 24 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo, limitantes

El método de alineamiento progresivo presenta algunas limitantes:Este método no es adecuado para comparar secuencias dediferentes longitudes (global)

El resultado final proporcionado por éste también se ve muyinfluenciado por el orden de las secuencias

Debido a la naturaleza codiciosa (greedy) del método el resultadodepende del alineamiento inicial de pares de secuencias(propagación de errores)

Si las dos primeras secuencias son muy similares, el alineamientobase contendrá pocos errores

Si las dos secuencias son muy divergentes los errores y los huecosse irán propagando

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 25 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo, T-Coffee

T-Coffee (Tree-based Consistency Objective Function foralignment Evaluation, http://www.ebi.ac.uk/Tools/msa/tcoffee)realiza alineamiento progresivo al igual que Clustal

La principal diferencia radica en que T-Coffee realiza unalineamiento de pares tanto local como global

Para el alineamiento global usa Clustal mientras que para elalineamiento local usa Lalign(http://www.ch.embnet.org/software/LALIGN_form.html)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 26 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo, T-Coffee...

Los resultados de estas dos alineaciones son almacenadas paraformar una biblioteca

Para cada par de residuos en cada par de secuencias se calculauna puntuación de consistencia para los alineamientos globales ylocales

Cada alineamiento de pares se alinea con una tercera posiblesecuencia

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 27 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo, T-Coffee...

El resultado es usado para refinar el alineamiento de paresoriginal en un proceso llamado extensión de la biblioteca

Basado en el refinamiento de alineamiento de pares se construyeuna matriz de distancias para obtener un árbol guía

Finalmente se utiliza este árbol para realizar un AMS mediante elenfoque progresivo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 28 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo, T-Coffee...

Algorithm 2: Algoritmo T-Coffee

Data: N secuenciasResult: Alineamiento de las N secuencias

1 begin2 Alineamiento de pares de secuencias (Clustal y Lalign)3 Construcción de la librería4 Calcular la matriz de distancias5 Crear el árbol guía mediante mediante Neighbor-Joining6 Construir el alineamiento múltiple siguiendo el árbol7 end

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 29 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento progresivo, Ejemplo T-Coffee

Para este ejemplo usaremos las secuencias de proteínas siguientes yT-Coffee (http://www.ebi.ac.uk/Tools/msa/tcoffee):

NP_006735.2

BAB25881.1

NP_001638.1

MUP4_MOUSE

P0A901

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 30 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento iterativo

Este tipo de métodos se basan en la idea de que la soluciónóptima a un problema puede ser encontrada mediante lamodificación iterativa de soluciones subóptimas existentes

El proceso consiste en encontrar un alineamiento de “bajacalidad” y mejorarlo gradualmente hasta que ya no sea posible

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 31 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento iterativo, PRRN

PRRN (http://www.genome.jp/tools/prrn) es unalgoritmo para AMS que emplea una estrategia iterativa dobleanidada

Efectúa el AMS mediante dos conjuntos de iteraciones: la internay la externa

En la iteración externa, se genera un alineamiento inicial aleatorioque es usado para derivar un árbol UPGMA (Unweighted PairGroup Method with Arithmetic Mean, método de agrupamiento)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 32 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento iterativo, PRRN...

Los pesos son posteriormente aplicados para optimizar elalineamiento

En la iteración interna, las secuencias son aleatoriamentedivididas en 2 grupos

El alineamiento aleatorizado es usado para cada grupo en el cicloinicial, después de lo cual las posiciones del alineamiento en cadagrupo son fijadas

Los 2 grupos, cada uno tratado como una sola secuencia, sonentonces alineados entre ellos usando programación dinámicaglobal

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 33 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento iterativo, PRRN...

El proceso se repite de manera cíclica hasta que la puntuacióntotal SP (suma de pares) no se incremente

En este punto, el alineamiento resultante es usado para construirun nuevo árbol UPGMA

Los nuevos pesos son aplicados para optimizar las puntuacionesdel alineamiento

El alineamiento optimizado es sujeto a un realineamiento en laiteración interior

Este proceso es repetido durante varios ciclos hasta que no haymás mejora en las puntuaciones globales del alineamiento

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 34 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento iterativo, Ejemplo PRRN

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 35 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo de alineamiento iterativo, Ejemplo PRRN

Para este ejemplo usaremos las secuencias de proteínas siguientes yPRRN (http://www.genome.jp/tools/prrn):

NP_006735.2

BAB25881.1

NP_001638.1

MUP4_MOUSE

P0A901

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 36 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo basado en bloques

Las estrategias progresivas e iterativas se basan en gran medidaen alineamiento global

Por lo tanto surge la necesidad de generar estrategias paraencontrar similitudes locales

Las secuencias a alinear pueden compartir bloques más o menosconservados, separados por regiones largas bastante menosconservadas

Cada bloque está construido con alineamientos locales de variosfragmentos en cada secuencia

Una vez que se han fijado los bloques se utilizan otros métodosde alineamiento para alinear dichas regiones

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 37 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo basado en bloques, DIALIGN2

DIALIGN2 es un programa para encontrar similitudes locales

Este método rompe las secuencias en secuencias más pequeñasy realiza todos los alineamientos de pares posibles

Los segmentos con alta puntuación son denominados bloques

Entre las diferentes secuencias, estos bloques son compilados demanera progresiva

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 38 / 39

Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticosMétodo basado en bloques, Ejemplo DIALIGN2

Para este ejemplo usaremos las secuencias de proteínas siguientes yDIALIGN2 (http://mobyle.pasteur.fr):

NP_006735.2

BAB25881.1

NP_001638.1

MUP4_MOUSE

P0A901

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 39 / 39