71
© Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

Embed Size (px)

Citation preview

Page 1: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Alineamiento de secuencias:

Page 2: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Un alineamiento compara permitiendo:

• Identificar genes homólogos/similares• Asignar funciones biológicas (reales, posibles?)• Predecir estructura • Encontrar patrones • Reconstruir relaciones evolutivas• ……

• Identificar genes homólogos/similares• Asignar funciones biológicas (reales, posibles?)• Predecir estructura • Encontrar patrones • Reconstruir relaciones evolutivas• ……

Page 3: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Homólogo, similar, idéntico

• Homología – dos secuencias son homólogas sólo si derivan de

una ancestro común – implica una herencia compartida– cualitativo– se es homólogo o no se es

• Similitud – medida cuantitativa– se puede usar una medida de similitud para inferir

homología

Homología vs similitud

Page 4: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Secuencia 1: ATGCGACTGACG

Secuencia 2: ATGCGACTGACG ||||||||||||

Significado de un alineamientoEstadístico

Por azar (alineamiento de secuencias al azar pueden producir un 20% identidad)

BiológicoComparten un ancestro común. Implica una información funcional, estructural y evolutiva

AlineamientoComparar dos (alineación a pares) o más (alineación múltiple) secuencias para buscar una serie de caracteres o patrón de caracteres que están en el mismo orden en las secuencias

Alineamiento de secuencias

Page 5: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Búsqueda de una puntuación (mayor o menor, astringencia)

dentro de la ventana

Puntuación: valoración del aparejamiento (matrices)Astringencia: mínima coincidencia admitidaVentana: longitud del bloque a comparar

Alineamiento de secuencias

Alineamiento de secuencias

Page 6: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Un proceso de alineamiento debe efectuar una búsqueda activa del mejor alineamiento posible y debe considerar los cambios que sufren las secuencias:

• Sustituciones -> Desemparejamientos (mistmatches)• Deleciones e inserciones (indel) -> Huecos (Gaps)

Alineamiento de secuencias

Page 7: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Valoración (score) de un alineamiento

Máxima puntuación = Alineamiento óptimo

Puntuación =F (puntuación emparejamiento idéntico, puntuación emparejamiento similar, puntuación huecos –gap-)

Valoración de un alineamiento

Page 8: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Valoración de un alineamiento

Como valorar un alineamiento?

EjemploIdentidad = 1Missmatch = 0Gap = -1

Score = 10 - 4 = 6

EjemploIdentidad = 1Missmatch = 0Gap = -1

Score = 10 - 4 = 6

Page 9: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

A G C T

A +1 –3 –3 -3

G –3 +1 –3 -3

C –3 –3 +1 -3

T –3 –3 –3 +1

CAGGTAGCAAGCTTGCATGTCA

|| |||||||||||| ||||| raw score = 19-9 = 10

CACGTAGCAAGCTTG-GTGTCA

ScoreMatch: + 1 Mismatch: -10000

ScoreMatch: + 1 Mismatch: -10000

ScoreMatch: + 1 Mismatch: - 3

ScoreMatch: + 1 Mismatch: - 3

Matriz para DNA Valoración de un alineamiento

Page 10: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Modelos evolutivos DNA

Matriz de substitución para DNAMatriz de substitución para DNA

Transiciones / Transversionesp(transición) > p(transversión)Transiciones / Transversionesp(transición) > p(transversión)

Ejemplo:A,A = 1A,C = 0C,T = 0,5Gap = -1

Ejemplo:A,A = 1A,C = 0C,T = 0,5Gap = -1

Matriz para DNA Valoración de un alineamiento

Page 11: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Matrices de puntuación para proteínas

Secuencia A Tyr Cys Asp AlaSecuencia B Phe Met Glu Gly

3 -1 2 0

Matrices de susbtitución

Puntuación total del alineamiento: 3-1+2+0 = 4

Secuencia A Tyr Cys Asp Ala MetSecuencia B Phe Met Glu Gly Met

0 0 0 0 1

Puntuación total del alineamiento: 0+0+0+0+1 = 1

Matriz de identidad

Matriz para Proteínas Valoración de un alineamiento

Page 12: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Modelos evolutivos Proteínas

Matriz de substitución para proteínas•PAM 60, 120, 250 (Dayhoff)

Extrapolación desde PAM15•BLOSUM 80, 62, 40

Basadas en BLOKCS de secuencias

Matriz de substitución para proteínas•PAM 60, 120, 250 (Dayhoff)

Extrapolación desde PAM15•BLOSUM 80, 62, 40

Basadas en BLOKCS de secuencias

Mutaciones (código genético)Mutaciones (código genético)

Substituciones conservativasSubstituciones conservativas

Matriz para Proteínas Valoración de un alineamiento

Page 13: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Matrices PAM (Percent Accepted Mutation)

Evolutionary model• Derived from observation; small dataset of alignments• All calculated from PAM1• PAM250 widely used

Matrices BLOSUM (BLOck SUbstitution Matrices)• Derived from observation; large dataset of highly conserved blocks• Each matrix derived separately from blocks with a defined percent identity cutoff• BLOSUM45 is derived from sequence blocks clustered at the 45% identity level• BLOSUM62 - default matrix for BLAST

Valoración de un alineamiento

Page 14: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Matriz PAM 250

Valoración de un alineamiento

Page 15: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Blosum 62A 4R -1 5 N -2 0 6D -2 -2 1 6C 0 -3 -3 -3 9Q -1 1 0 0 -3 5E -1 0 0 2 -4 2 5G 0 -2 0 -1 -3 -2 -2 6H -2 0 1 -1 -3 0 0 -2 8I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 A R N D C Q E G H I L K M F P S T W Y V X

D

F

Negative for less likely substitutions

D

Y

FPositive for more likely substitutions

Valoración de un alineamiento

Page 16: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

PAM100 ==> Blosum90PAM120 ==> Blosum80PAM160 ==> Blosum60PAM200 ==> Blosum52PAM250 ==> Blosum45

PAM100 ==> Blosum90PAM120 ==> Blosum80PAM160 ==> Blosum60PAM200 ==> Blosum52PAM250 ==> Blosum45

Equivalencia PAM - BLOSUM

BLOSUM: “mejor” para la detección alineamientos localesBLOSUM 62, detección similitudes débilesBLOSUM 45, detección alineamientos largos y débiles

BLOSUM: “mejor” para la detección alineamientos localesBLOSUM 62, detección similitudes débilesBLOSUM 45, detección alineamientos largos y débiles

Valoración de un alineamiento

Page 17: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

PAM vs BLOSUM

• Modelo subyacente• PAM asume un modelo evolución markoviano• BLOSUM no supone ningún modelo evolutivo explícito

• Aminoácidos utilizados en las estimas de las puntuaciones• PAM considera todas las posiciones aminoacídicas• BLOSUM considera sólo los cambios en posiciones dentro de bloques conservados

Conclusión:

PAM es más adecuada para trazar el origen evolutivo de proteínasBLOSUM es más apropiada para hallar dominios conservados

Valoración de un alineamiento

Page 18: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

MNLSRDTA

M SRDTA| |||||

Penalización por hueco (Gap penalty)

Wx = g + rxW es la puntuaciónx la longitud del gapg la penalización de abrir un gapr la de la extensión de un gap

MNLSRDTA

M SSRDTA| ||||||

•Muchos programas de alineamiento sugieren los valores apropiados

• Penalización al final del alineamiento

• Sí en secuencias homólogas misma longitud

• No en secuencias desconocidas o longitud diferente

Valoración de un alineamiento: gaps

Page 19: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Programas de alineamiento de DNA

Programa Tipo de Match Mismatch Penalización Penalización alineamiento score score apertura gaps extensión gaps

FASTA local 5 - 4 -16 -4

Valores de penalización de gaps

Programas de alineamiento de Proteínas

Programa Tipo de Match y Mismatch Penalización Penalización alineamiento score apertura gaps extensión gaps

FASTA local Valores BLOSUM50 - 16 - 4 -12 -2

BLASP local Valores BLOSUM62 - 6 - 4 - 8 - 2

Valoración de un alineamiento: gaps

Page 20: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Efecto de la variación en la penalización de huecos (gap)(Vingron & Waterman 1994)

• Si se penaliza alto (relativamente) no aparecerán en el alineamiento• Si bajo, gaps serán ubicuos• Si la penalización gaps y desemparejamientos (mismatches) es alta habrá un alineamiento local con emparejamientos exactos• Si penalización desemparejamiento es alta (doble que la de emparejamiento), la penalización del gap es crucial en el alineamiento• Si la penalización desemparejamiento es menor que el doble de la de emparejamiento, hay un amplio espectro de posibles alineamientos dependientes de la puntuación de los gaps y desemparejamientos

El alineamiento de proteínas relacionadas muestran que gaps > 5 nunca ocurren

Valoración de un alineamiento: gaps

Page 21: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Matriz de puntos (Dot matrix, Gibbs & McIntyre 1970)Cualquier alineamiento se ve como una diagonal en la matriz

A|  X     . C|      . X           A T G C A  G|X   . X             | | | | T|  . X             G A T G C A|. X   +---------   G A T G C

C|      X G|    X            A T G C T|  X              | | | | A|X                A T G C +-------  A T G C

Alineamiento: matriz de puntos

Page 22: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Matriz de puntos (Dot matrix)

A|X     X     X  T|  X       X    G|        X    . T|  X       .          A T C A C T G T A C|    X   .            | | | |     | | | A|X     X              A T C A - - G T A C|    X  T|  X        X A|X      X  +-------------   A T C A G T A

Detección de indels: inserciones / deleciones

Alineamiento: matriz de puntos

Page 23: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

•Matriz de puntos de dos proteínas represoras en fagos, λ cI y P22 c2

Nucleótidos • Ventana = 11• Astringencia = 7

•11/7 ó 15/11

Aminoácidos • Ventana = 1• Astringencia = 1•1/1 excepto búsquedas pequeños dominios 15/5

Alineamiento: matriz de puntos

Page 24: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

•Matriz de puntos de la proteína receptora humana LDL con ella misma.

• Ventana = 1• Astringencia = 1

• Ventana = 23• Astringencia = 7

Alineamiento: matriz de puntos

Page 25: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Representación de un alineamiento: “camino” en la matriz

AT-ACTTGACATGAC--GAC

AA

Alineamiento: matriz de puntos

Page 26: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Métodos de alineamiento de dos secuencias

Algoritmos de programación dinámica• Smith-Waterman (local)• Needleman-Wunsch (global)

• Métodos heurísticos• BLAST (Basic Local Algorithm Search Tool)

Altschul et al., 1990; Gapped, Altschul et al., 1997 • FASTA

Lipman y Pearson, 1985

Métodos de alineamiento

Page 27: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Alineamiento local de Smith-Waterman (1981)

Alineamiento global de Needlman-Wunsh (1970)

Algoritmos de programación dinámica para el alineamiento de secuencias

Encuentran el alineamiento o serie de alineamientos óptimos evitando calcular todos los alineamientos (y puntuaciones) de dos secuencias (m x n)

Uso de un algoritmo recursivo que añade residuos en una posición sobre el alineamiento mejor hasta esa posición. Una ruta óptima que termina en un nodo debe pasar por uno de los tres nodos previos

n + mn

n= 7 y m= 10 -> 19448

Programación dinámica

Page 28: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Algoritmos de programación dinámica para el alineamiento de secuencias

S(i-1,j-1) + c(i,j)S(i,j) = max S(i-1,j) + c(i,-) S(i,j-1) + c(-,j)

Secuencia 1: ACGCTGA Secuencia 2: ACTGT

1: ACG

2: ACT ||·

1: AC-G

2: ACTG ||·|

1: ACGC

2: ACT- ||·

Puntuación (score, S):•Identidad (match) = 3•No idéntico(unmatched) = -1•Hueco (gap) = -5

Score, S = 3+3-1 = 5 3+3-5+3 = 4 3+3-1-5 = 0

1: ACGC

2: ACTG ||··

1: AC-GC

2: ACTG- ||·||

1: ACGC-

2: ACT-G ||·

Score = 5 -1 = 4 Score = 4 -5 = -1 Score = 0 -5 = -5

Programación dinámica

Page 29: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Preparación de una matriz n x m

Alineamiento global de

Needlman-Wunsh

secuencia 1 = MNALSDRT

secuencia 2 = MGSDRTTET

GAP = - 12- 4 (x - 1)

x = longitud hueco

Programación dinámica

Page 30: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Poner puntuación a cada par aminoacídico (basado en matriz PAM250)

En paréntesis se dan las puntuaciones de cuatros posibles emparejamientos (matches)

Programación dinámica

Page 31: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Cálculo de la puntuación

•Se ponen las puntuaciones máximas en cada celda. La flecha indica la celda previa de la matriz que se usó para obtener la puntuación•Cada fila y columna de la secuencia debe llenarse antes de avanzar una celda hacia la derecha y abajo

Programación dinámica

Page 32: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Matriz de puntuación completa

•Se completa la matriz

•La última fila y columna (alineamiento global) se examina y se selecciona la mayor puntuación. El valor es 5 si no consideramos gap final, sino es -5

Programación dinámica

Page 33: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Matriz hacia atrás (trace-back matrix)

• La matriz nos permite reconstruir el alineamiento a partir del último match T-T, que tiene la puntuación mayor.

•La matriz muestra los movimientos de una posición a la otra que han dado máxima puntuación

Programación dinámica

Page 34: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

sequence 1   M  -  N  A  L  S  D  R  Tsequence 2   M  G  S  D  R  T  T  E  Tscore        6 -12 1  0 -3  1  0 -1  3  =  -5

Alineamiento 1

Alineamiento 2

sequence 1   M  N  -  A  L  S  D  R  Tsequence 2   M  G  S  D  R  T  T  E  Tscore        6 -12 1  0 -3  1  0 -1  3  =  -5

Alineamiento 3 (no penalización de gap final)

sequence 1   M  N  A  L  S  D  R  T  -  -  -sequence 2   -  -  M  G  S  D  R  T  T  E  Tscore        0  0 -1 -4  2  4  6  3  0  0  0  =  10

Programación dinámica

Page 35: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Alineamiento local con el algoritmo de Smith-Waterman

   

  secuencia 1 S D R Tsecuencia 2 S D R T score 2 4 6 3 = 15

• Debe haber puntuación negativa para los desemparejamientos y si la puntuación de la matriz obtiene un valor negativo se pone 0

• Así el alineamiento puede empezar en cualquier punto y se acaba cuando la puntuación alcanza el valor de 0

Programación dinámica

Page 36: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Alineamiento global y local

Needleman & Wunsch (1970)

Las secuencias se alinean

esencialmente de un extremo a otro

Smith & Waterman (1981)

Las secuencias se alinean en regiones pequeñas y aisladas

Page 37: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Ejemplo on-linealineamiento global vs local

Preparación de una matriz n x m

Global vs local on-line

Page 38: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

ObjetivoComparar los resultados obtenidos al alinear dos secuencias problema con programes de alineamiento

•local Smith-Waterman (water) •global Needleman and Wunsch (needle)

Alineamientos•Iniciar una sesión en EMBOSS•Introducir las secuencias

• Sequence 1NGPSTKDFGKISESREFDNQNGPSTKDFGKISESREFDNQ

* Sequence 2

QNQLERSFGKINMRLEDALVQNQLERSFGKINMRLEDALV

•Comparar (water o needle), visualizar y comentar

Práctica alineamiento de pares de secuencias

Global vs local

Page 39: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTLFGWGYDDNPVPGGGGVYSMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDDVDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGWQANRHIGATLVNETGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNY

Búsquedas por similitud

¿Hay en la base de datos alguna secuencia similar

a mi secuencia problema?

ResultadosSimilar to …………Unknown but similar to sevral hypothetical proteins from…Putative hypothetical protein……..

Page 40: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Búsqueda de similares

Búsqueda de similares en una base de datos

Objetivo: comparar una secuencia frente a una base de datos, comprar dos base de

datos,.. •AlgoritmosExactos: Smith-Waterman (sssearch, lalign, ..)Heurísticos:

BLAST (búsqueda de “words” similares)

FASTA (búsqueda de “k-tuplos” idénticos)

Page 41: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

FASTA (Lipman y Pearson, 1985; Pearson y Lipman, 1988)

El algoritmo busca patrones cortos consecutivos (palabras o k-tuplos, k= 1-2 aa / 4-6 nt) entre la secuencia problema y las de la base de datos.

BLAST (Basic Local Alignment Search Tool)(Altschul, et al, 1990, J Mol Biol, 215:403-10)

Concentra la búsqueda en patrones cortos más significativos, (palabra, word size: 3 aa / 11 nt). Rápido, menos sensible?

Método heurístico: prueba y error Suele encontrar secuencias relacionadas pero nunca

hay garantía absoluta.

Ventaja: 50 veces más rápido que programa dinámicos

Usos: búsquedas sobre bases de datos de gran tamaño

Métodos heurísticos

Page 42: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Búsquedas con BlocksMotivos alineados sin gaps

(PSSM position-specific scoring matrix)

Búsquedas con secuencias de DNA o aa FASTA, BLAST

Búsquedas con perfilesArchivos con alineamientos

DAHQSNESHQSYEAHQSNEGVQSY

D-HQSNGAESHQ-YTMEAHQSN-LEGVQSYSL

>SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAGGGAGTCACCCCTCTTCGCGCTAGGATCGCTGAGCG

Búsquedas de patrones y motivos PROSITE, INTERPRO, PFAM, .. DAHQSN

Secuencias problema

Page 43: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Significación - Valoración de los alineamientos

1. Valoración mediante matrices

2. Penalización por disimilitud (aparición y extensión de gaps). Este valor es la Puntuación bruta (raw score, Sraw).

3. Puntuación de bits (Sbit). Permite comparar resultados obtenidos por diferentes sistemas. Se introducen parámetros utilizados por el programa de alineamiento.

4. E value alineamiento debido al azar. Los valores más cercanos a cero indican una mayor relevancia. Se puede considerar relevante cuando E < 0.05.

Page 44: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

SignificanciaExpect Value

E = numero de hits esperado por azar

Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar.

Valores mas bajos serán mas significativos

Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar.

Valores mas bajos serán mas significativos

Page 45: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

(Basic Local Alignment Search Tool)Altschul, et al, 1990, J Mol Biol, 215:403-10

Usosbúsquedas en las bases de datosalineamiento de pares de secuencias

Estrategia BLASTBúsqueda de proteínas mediante criterios de semejanza (no identidad).

Se utilizan matrices de semejanzaTrabaja con segmentos pequeños que permiten acelerar el proceso

(High-scoring segment pair)Extensión de los match hacia los ladosRápido y sensible

HeurísticoBLAST intenta encontrar muchos matches sacrificando la especificidad por la velocidad. Se pueden perder apareamientos.

Glossary

Page 46: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Esquema BLAST

Page 47: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

NucleótidosGTACTGGACATGGACCCTACAGGAAQuery:

GTACTGGACAT

TACTGGACATG

ACTGGACATGG

CTGGACATGGA

TGGACATGGAC

GGACATGGACC

GACATGGACCC

ACATGGACCCT

...........

Minimum word size = 7blastn default = 11megablast default = 28

Word Size = 11

Page 48: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Proteínas

Word Size = 3

GTQITVEDLFYNIATRRKALKNQuery:

SimilaresLTV, MTV, ISV, LSV, etc.

GTQ

TQI

QIT

ITV

TVE

VED

EDL

DLF

...

Page 49: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Page 50: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Seleccióndel

programa

BLAST Help

Page 51: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Page 52: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Page 53: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Page 54: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Opciones

Conserved Domain Database

Page 55: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Introducción de la Secuencia

FASTA FORMAT

Page 56: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Otras opciones

Expect: 10, máximo de 10 al azar. Valores inferiores son mas restrictivos.Word Size: medida de los fragmentos (k-tup FASTA)

Page 57: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Formatos

Page 58: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

PrácticaObjetivo generalBuscar secuencias similares a las secuencias problema.

BLAST DNA

Copiar la Secuencia PROBLEMA i someterla a BLAST de DNA

>SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAGGGAGTCACCCCTCTTCGCGCTAGGATCGCTGAGCGTCTGGAACAATCTGGACCTACAGTTAGCCAAACCGTTGCCCGTATGGAGCGCGATGGACTTGTCGTTGTCGCCTCAGACCGCAGTCTACAAATGACACCGACAGGCCGCACTTTAGCGACTGCAGTTATGCGTAAACATCGCTTAGCTGAGCGCCTTCTTACCGATATCATTGGTCTAGATATCAATAAAGTTCACGATGAAGCCTGCCGCTGGGAACACGTTATGAGTGACGAAGTTGAACGCAGGCTCGTGAAAGTATTGAAAGATGTCAGTCGGTCCCCCTTCGGAAACCCAATTCCAGGTCTCGACGAACTCGGCGTAGGCAATTCTGACGCGGCAGCCCCCGGAACTCGCGTTATTGACGCTGCCACCAGCATGCCCCGCAAAGTACGCATTGTTCAGATTAACGAAATCTTTCAAGTTGAAACGGATCAGTTTACACAGCTCCTCGATGCTGACATCCGTGTTGGATCAGAAGTCGAAATTGTAGATAGAGACGGCCACATCACGTTGAGCCACAATGGAAAAGATGTCGAACTCCTCGATGATCTGGCTCACACTATTCGTATCGAAGAACTCTAA

Iniciar una sesión BLAST NucleotideLimitar la búsqueda a Blast de Bacteria

Page 59: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

BLAST Proteína

Copiar la secuencia PROBLEMA i someterla a BLAST de Proteína

>SeqProt-Prob1.pep MENRIDRIKKQLHSSSYKLTPQREATVRVLLENEEDHLSAEDVYLLVKEKSPEIGLATVYRTLELLTELKVVDKINFGDGVSRYDLRKEGAAHFHHHLVCMEFGAVDEIEGDLLEDVEEIIERDWKFKIKDHRLTFHGICHRCNGKETE

Iniciar una sesión BLAST Protein

Limitar la búsqueda a Blast de Bacteria

Ejecutar Blast

Práctica

Page 60: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

ObjetivoPretendemos encontrar secuencias bacterianas en diferentes genomas de microorganismos. Realizar una búsqueda tBLASTn sobre genomas microbianos utilizando la secuencia:

>Proteína problemaMPKRSEYRQGTPNWVDLQTTDQSAAKKFYTSLFGWGYDDNPVPGGGGVYSMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDDVDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGLWQANRHIGATLVNETGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNYRVLKAGDAEVGGCMEPPMPGVPNHWHVYFAVDDADATAAKAAAAGGQVIAEPADIPSVGRFAVLSDPQGAIFSVLKPAPQQ

Prácticat nProteína x DNA traducido a Proteína

Page 61: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

ObjetivoDetectar similares a la secuencia problema y determinar si hay errores.

Realizar una búsqueda con BLASTx usando:

>DNA desconocidoATGCCCAAGAGAAGCGAATACAGGCAAGGCACGCCGAACTGGGTCGACCTTCAGACCACCGATCAGTCCGCCGCCAAAAAGTTCTACACATCGTTggtGTTCGGCTGGGGTTACGACGACCCGGTCCCCGGAGGCGGTGGGGTCTATTCCATGGCCACGCTGAACGGCGAAGCCGTGGCCGCCATCGCACCGATGCCCCCGGGTGCACCGGAGGGGATGCCGCCGATCTGGAACACCTATATCGCGGTGGACGACGTCGATGCGGTGGTGGACAAGGTGGTGCCCGGGGGCGGGCAGGTGATGATGCCGGCCTTCGACATCGGCGATGCCGGCCGGATGTCGTTCATCACCGATCCGACCGGCGCTGCCGTGGGCCTATGGCAGGCCAATCGGCACATCGGAGCGACGTTGGTCAACGAGACGGGCACGCTCATCTGGAACGAACTGCTCACGGAttgGCCGGATTTGGCGCTAGCGTTCTACGAGGCTGTGGTTGGCCTCACCCACTCGAGCATGGAGATAGCTGCGGGCCAGAACTATCGGGTGCTCAAGGCCGGCGACGCGGAAGTCGGCGGCTGTATGGAACCGCCGATGCCCGGCGTGCCGAATCATTGGCACGTCTACTTTGCGGTGGATGACGCCGACcccACGGCGGCCAAAGCCGCCGCAGCGGGCGGCCAGGTCATTGCGGAACCGGCTGACATTCCGTCGGTGGGCCGGTTCGCCGTGTTGTCCGATCCGCAGGGCGCGATCTTCAGTGTGTTGAAGCCCGCACCGCAGCAATAG

Práctica XDNA traducido a Proteína x Proteína

Page 62: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

1. Búsqueda de zonas comunes por identidad y sin gaps. Uso de k-tuplo.

2. Velocidad y sensibilidad determinadas por la longitud de la palabra usada. Las palabras cortas hacen la búsqueda más lenta y sensible.

3. Valoración de los match por similitud y unión de las regiones con gaps

4. Evaluación exhaustiva de los mejores alineamientos

Alineamientos localesFASTA utiliza una matriz de substitución sólo durante la fase de extensiónLa reducción del tiempo de búsqueda conlleva una pérdida de sensibilidad y selectividad

Estrategia

k-tupDNA: 6

Proteína: 2

FASTA

Page 63: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Programas FASTA

Programa Funcionesfasta3

tfasta3*

ssearch*

DNA, proteína frente bd DNA y bd Prot (fasta) y proteínas frente bd DNA traducido (tfasta), no admite frameshifts

DNA, proteína frente bd DNA y bd Prot mediante el algoritmo Smith-Waterman

Muy lento <10 fasta pero muy sensible.

fastx/y3 DNA (traducido 3 frames) frente bd proteínas. Admite gaps y frameshifts

Velocidad x > y

tfastx/y3 Proteína frente bd DNA traducido 6 frames

fasts3

tfasts3*

Mezcla de péptidos pequeños relacionados (mass-spec) frente bd proteína (fasts) o bd DNA (tfasts)*

fastf3

tfastf3*

Mezcla de péptidos (obtenida por Edman o CNBr) frente bd proteína (fastf) o bd DNA (tfastf)*

>mgstm1

MILG,

MLLEYTD,

MGDAP

>mgstm1

MGCEN,

MIDYP,

MLLAY,

MLLGY

Page 64: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

MATRIX Matriz de búsqueda

GAP PENALTIES GAPOPEN: Penalización por apertura gap (-12 para proteínas, -16 para DNA).GAPEXT: Penalización extensión del gap (-2 para proteínas, -4 para DNA). HISTOGRAM

Muestra el histograma con las frecuencias de las coincidencias por azar.SCORES

Puntuación de los alineamientos ALIGNMENTS

Número de alineamientos que se visualizaranKTUP

Proteínas: 2 DNA: 6STRAND

Cadena de DNAEXPECTATION VALUE

Límite superior para la presentación de un alineamiento. Valores por defecto son 10.0 para Prot/Prot; 5.0 para proteínas frente Prot/Prot de DNA y 2.0 para búsquedas DNA/DNA.

EXPECTATION VALUE THRESHOLD Límite inferior para la presentación de un alineamiento.

Opciones FASTA

Page 65: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Page 66: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Job FASTA

Page 67: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Resultados FASTA

Page 68: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Mview Results FASTA

Page 69: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Visual FASTA

Page 70: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006

Práctica FASTA

Búsqueda por similitud•Iniciar una sesión FASTA•Seleccionar el programa y fijar los parámetros de búsqueda en función de la naturaleza de la secuencia problema.•Introducir la secuencia problema•Someter la búsqueda•Visualizar y comentar los resultados•Diferencias frente a BLAST

Page 71: © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006