Upload
adrian-plaza-silva
View
226
Download
5
Embed Size (px)
Citation preview
© Copyright Ebiointel,SL 2006
Alineamiento de secuencias:
© Copyright Ebiointel,SL 2006
Un alineamiento compara permitiendo:
• Identificar genes homólogos/similares• Asignar funciones biológicas (reales, posibles?)• Predecir estructura • Encontrar patrones • Reconstruir relaciones evolutivas• ……
• Identificar genes homólogos/similares• Asignar funciones biológicas (reales, posibles?)• Predecir estructura • Encontrar patrones • Reconstruir relaciones evolutivas• ……
© Copyright Ebiointel,SL 2006
Homólogo, similar, idéntico
• Homología – dos secuencias son homólogas sólo si derivan de
una ancestro común – implica una herencia compartida– cualitativo– se es homólogo o no se es
• Similitud – medida cuantitativa– se puede usar una medida de similitud para inferir
homología
Homología vs similitud
© Copyright Ebiointel,SL 2006
Secuencia 1: ATGCGACTGACG
Secuencia 2: ATGCGACTGACG ||||||||||||
Significado de un alineamientoEstadístico
Por azar (alineamiento de secuencias al azar pueden producir un 20% identidad)
BiológicoComparten un ancestro común. Implica una información funcional, estructural y evolutiva
AlineamientoComparar dos (alineación a pares) o más (alineación múltiple) secuencias para buscar una serie de caracteres o patrón de caracteres que están en el mismo orden en las secuencias
Alineamiento de secuencias
© Copyright Ebiointel,SL 2006
Búsqueda de una puntuación (mayor o menor, astringencia)
dentro de la ventana
Puntuación: valoración del aparejamiento (matrices)Astringencia: mínima coincidencia admitidaVentana: longitud del bloque a comparar
Alineamiento de secuencias
Alineamiento de secuencias
© Copyright Ebiointel,SL 2006
Un proceso de alineamiento debe efectuar una búsqueda activa del mejor alineamiento posible y debe considerar los cambios que sufren las secuencias:
• Sustituciones -> Desemparejamientos (mistmatches)• Deleciones e inserciones (indel) -> Huecos (Gaps)
Alineamiento de secuencias
© Copyright Ebiointel,SL 2006
Valoración (score) de un alineamiento
Máxima puntuación = Alineamiento óptimo
Puntuación =F (puntuación emparejamiento idéntico, puntuación emparejamiento similar, puntuación huecos –gap-)
Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
Valoración de un alineamiento
Como valorar un alineamiento?
EjemploIdentidad = 1Missmatch = 0Gap = -1
Score = 10 - 4 = 6
EjemploIdentidad = 1Missmatch = 0Gap = -1
Score = 10 - 4 = 6
© Copyright Ebiointel,SL 2006
A G C T
A +1 –3 –3 -3
G –3 +1 –3 -3
C –3 –3 +1 -3
T –3 –3 –3 +1
CAGGTAGCAAGCTTGCATGTCA
|| |||||||||||| ||||| raw score = 19-9 = 10
CACGTAGCAAGCTTG-GTGTCA
ScoreMatch: + 1 Mismatch: -10000
ScoreMatch: + 1 Mismatch: -10000
ScoreMatch: + 1 Mismatch: - 3
ScoreMatch: + 1 Mismatch: - 3
Matriz para DNA Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
Modelos evolutivos DNA
Matriz de substitución para DNAMatriz de substitución para DNA
Transiciones / Transversionesp(transición) > p(transversión)Transiciones / Transversionesp(transición) > p(transversión)
Ejemplo:A,A = 1A,C = 0C,T = 0,5Gap = -1
Ejemplo:A,A = 1A,C = 0C,T = 0,5Gap = -1
Matriz para DNA Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
Matrices de puntuación para proteínas
Secuencia A Tyr Cys Asp AlaSecuencia B Phe Met Glu Gly
3 -1 2 0
Matrices de susbtitución
Puntuación total del alineamiento: 3-1+2+0 = 4
Secuencia A Tyr Cys Asp Ala MetSecuencia B Phe Met Glu Gly Met
0 0 0 0 1
Puntuación total del alineamiento: 0+0+0+0+1 = 1
Matriz de identidad
Matriz para Proteínas Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
Modelos evolutivos Proteínas
Matriz de substitución para proteínas•PAM 60, 120, 250 (Dayhoff)
Extrapolación desde PAM15•BLOSUM 80, 62, 40
Basadas en BLOKCS de secuencias
Matriz de substitución para proteínas•PAM 60, 120, 250 (Dayhoff)
Extrapolación desde PAM15•BLOSUM 80, 62, 40
Basadas en BLOKCS de secuencias
Mutaciones (código genético)Mutaciones (código genético)
Substituciones conservativasSubstituciones conservativas
Matriz para Proteínas Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
Matrices PAM (Percent Accepted Mutation)
Evolutionary model• Derived from observation; small dataset of alignments• All calculated from PAM1• PAM250 widely used
Matrices BLOSUM (BLOck SUbstitution Matrices)• Derived from observation; large dataset of highly conserved blocks• Each matrix derived separately from blocks with a defined percent identity cutoff• BLOSUM45 is derived from sequence blocks clustered at the 45% identity level• BLOSUM62 - default matrix for BLAST
Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
Matriz PAM 250
Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
Blosum 62A 4R -1 5 N -2 0 6D -2 -2 1 6C 0 -3 -3 -3 9Q -1 1 0 0 -3 5E -1 0 0 2 -4 2 5G 0 -2 0 -1 -3 -2 -2 6H -2 0 1 -1 -3 0 0 -2 8I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 A R N D C Q E G H I L K M F P S T W Y V X
D
F
Negative for less likely substitutions
D
Y
FPositive for more likely substitutions
Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
PAM100 ==> Blosum90PAM120 ==> Blosum80PAM160 ==> Blosum60PAM200 ==> Blosum52PAM250 ==> Blosum45
PAM100 ==> Blosum90PAM120 ==> Blosum80PAM160 ==> Blosum60PAM200 ==> Blosum52PAM250 ==> Blosum45
Equivalencia PAM - BLOSUM
BLOSUM: “mejor” para la detección alineamientos localesBLOSUM 62, detección similitudes débilesBLOSUM 45, detección alineamientos largos y débiles
BLOSUM: “mejor” para la detección alineamientos localesBLOSUM 62, detección similitudes débilesBLOSUM 45, detección alineamientos largos y débiles
Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
PAM vs BLOSUM
• Modelo subyacente• PAM asume un modelo evolución markoviano• BLOSUM no supone ningún modelo evolutivo explícito
• Aminoácidos utilizados en las estimas de las puntuaciones• PAM considera todas las posiciones aminoacídicas• BLOSUM considera sólo los cambios en posiciones dentro de bloques conservados
Conclusión:
PAM es más adecuada para trazar el origen evolutivo de proteínasBLOSUM es más apropiada para hallar dominios conservados
Valoración de un alineamiento
© Copyright Ebiointel,SL 2006
MNLSRDTA
M SRDTA| |||||
Penalización por hueco (Gap penalty)
Wx = g + rxW es la puntuaciónx la longitud del gapg la penalización de abrir un gapr la de la extensión de un gap
MNLSRDTA
M SSRDTA| ||||||
•Muchos programas de alineamiento sugieren los valores apropiados
• Penalización al final del alineamiento
• Sí en secuencias homólogas misma longitud
• No en secuencias desconocidas o longitud diferente
Valoración de un alineamiento: gaps
© Copyright Ebiointel,SL 2006
Programas de alineamiento de DNA
Programa Tipo de Match Mismatch Penalización Penalización alineamiento score score apertura gaps extensión gaps
FASTA local 5 - 4 -16 -4
Valores de penalización de gaps
Programas de alineamiento de Proteínas
Programa Tipo de Match y Mismatch Penalización Penalización alineamiento score apertura gaps extensión gaps
FASTA local Valores BLOSUM50 - 16 - 4 -12 -2
BLASP local Valores BLOSUM62 - 6 - 4 - 8 - 2
Valoración de un alineamiento: gaps
© Copyright Ebiointel,SL 2006
Efecto de la variación en la penalización de huecos (gap)(Vingron & Waterman 1994)
• Si se penaliza alto (relativamente) no aparecerán en el alineamiento• Si bajo, gaps serán ubicuos• Si la penalización gaps y desemparejamientos (mismatches) es alta habrá un alineamiento local con emparejamientos exactos• Si penalización desemparejamiento es alta (doble que la de emparejamiento), la penalización del gap es crucial en el alineamiento• Si la penalización desemparejamiento es menor que el doble de la de emparejamiento, hay un amplio espectro de posibles alineamientos dependientes de la puntuación de los gaps y desemparejamientos
El alineamiento de proteínas relacionadas muestran que gaps > 5 nunca ocurren
Valoración de un alineamiento: gaps
© Copyright Ebiointel,SL 2006
Matriz de puntos (Dot matrix, Gibbs & McIntyre 1970)Cualquier alineamiento se ve como una diagonal en la matriz
A| X . C| . X A T G C A G|X . X | | | | T| . X G A T G C A|. X +--------- G A T G C
C| X G| X A T G C T| X | | | | A|X A T G C +------- A T G C
Alineamiento: matriz de puntos
© Copyright Ebiointel,SL 2006
Matriz de puntos (Dot matrix)
A|X X X T| X X G| X . T| X . A T C A C T G T A C| X . | | | | | | | A|X X A T C A - - G T A C| X T| X X A|X X +------------- A T C A G T A
Detección de indels: inserciones / deleciones
Alineamiento: matriz de puntos
© Copyright Ebiointel,SL 2006
•Matriz de puntos de dos proteínas represoras en fagos, λ cI y P22 c2
Nucleótidos • Ventana = 11• Astringencia = 7
•11/7 ó 15/11
Aminoácidos • Ventana = 1• Astringencia = 1•1/1 excepto búsquedas pequeños dominios 15/5
Alineamiento: matriz de puntos
© Copyright Ebiointel,SL 2006
•Matriz de puntos de la proteína receptora humana LDL con ella misma.
• Ventana = 1• Astringencia = 1
• Ventana = 23• Astringencia = 7
Alineamiento: matriz de puntos
© Copyright Ebiointel,SL 2006
Representación de un alineamiento: “camino” en la matriz
AT-ACTTGACATGAC--GAC
AA
Alineamiento: matriz de puntos
© Copyright Ebiointel,SL 2006
Métodos de alineamiento de dos secuencias
Algoritmos de programación dinámica• Smith-Waterman (local)• Needleman-Wunsch (global)
• Métodos heurísticos• BLAST (Basic Local Algorithm Search Tool)
Altschul et al., 1990; Gapped, Altschul et al., 1997 • FASTA
Lipman y Pearson, 1985
Métodos de alineamiento
© Copyright Ebiointel,SL 2006
Alineamiento local de Smith-Waterman (1981)
Alineamiento global de Needlman-Wunsh (1970)
Algoritmos de programación dinámica para el alineamiento de secuencias
Encuentran el alineamiento o serie de alineamientos óptimos evitando calcular todos los alineamientos (y puntuaciones) de dos secuencias (m x n)
Uso de un algoritmo recursivo que añade residuos en una posición sobre el alineamiento mejor hasta esa posición. Una ruta óptima que termina en un nodo debe pasar por uno de los tres nodos previos
n + mn
n= 7 y m= 10 -> 19448
Programación dinámica
© Copyright Ebiointel,SL 2006
Algoritmos de programación dinámica para el alineamiento de secuencias
S(i-1,j-1) + c(i,j)S(i,j) = max S(i-1,j) + c(i,-) S(i,j-1) + c(-,j)
Secuencia 1: ACGCTGA Secuencia 2: ACTGT
1: ACG
2: ACT ||·
1: AC-G
2: ACTG ||·|
1: ACGC
2: ACT- ||·
Puntuación (score, S):•Identidad (match) = 3•No idéntico(unmatched) = -1•Hueco (gap) = -5
Score, S = 3+3-1 = 5 3+3-5+3 = 4 3+3-1-5 = 0
1: ACGC
2: ACTG ||··
1: AC-GC
2: ACTG- ||·||
1: ACGC-
2: ACT-G ||·
Score = 5 -1 = 4 Score = 4 -5 = -1 Score = 0 -5 = -5
Programación dinámica
© Copyright Ebiointel,SL 2006
Preparación de una matriz n x m
Alineamiento global de
Needlman-Wunsh
secuencia 1 = MNALSDRT
secuencia 2 = MGSDRTTET
GAP = - 12- 4 (x - 1)
x = longitud hueco
Programación dinámica
© Copyright Ebiointel,SL 2006
Poner puntuación a cada par aminoacídico (basado en matriz PAM250)
En paréntesis se dan las puntuaciones de cuatros posibles emparejamientos (matches)
Programación dinámica
© Copyright Ebiointel,SL 2006
Cálculo de la puntuación
•Se ponen las puntuaciones máximas en cada celda. La flecha indica la celda previa de la matriz que se usó para obtener la puntuación•Cada fila y columna de la secuencia debe llenarse antes de avanzar una celda hacia la derecha y abajo
Programación dinámica
© Copyright Ebiointel,SL 2006
Matriz de puntuación completa
•Se completa la matriz
•La última fila y columna (alineamiento global) se examina y se selecciona la mayor puntuación. El valor es 5 si no consideramos gap final, sino es -5
Programación dinámica
© Copyright Ebiointel,SL 2006
Matriz hacia atrás (trace-back matrix)
• La matriz nos permite reconstruir el alineamiento a partir del último match T-T, que tiene la puntuación mayor.
•La matriz muestra los movimientos de una posición a la otra que han dado máxima puntuación
Programación dinámica
© Copyright Ebiointel,SL 2006
sequence 1 M - N A L S D R Tsequence 2 M G S D R T T E Tscore 6 -12 1 0 -3 1 0 -1 3 = -5
Alineamiento 1
Alineamiento 2
sequence 1 M N - A L S D R Tsequence 2 M G S D R T T E Tscore 6 -12 1 0 -3 1 0 -1 3 = -5
Alineamiento 3 (no penalización de gap final)
sequence 1 M N A L S D R T - - -sequence 2 - - M G S D R T T E Tscore 0 0 -1 -4 2 4 6 3 0 0 0 = 10
Programación dinámica
© Copyright Ebiointel,SL 2006
Alineamiento local con el algoritmo de Smith-Waterman
secuencia 1 S D R Tsecuencia 2 S D R T score 2 4 6 3 = 15
• Debe haber puntuación negativa para los desemparejamientos y si la puntuación de la matriz obtiene un valor negativo se pone 0
• Así el alineamiento puede empezar en cualquier punto y se acaba cuando la puntuación alcanza el valor de 0
Programación dinámica
© Copyright Ebiointel,SL 2006
Alineamiento global y local
Needleman & Wunsch (1970)
Las secuencias se alinean
esencialmente de un extremo a otro
Smith & Waterman (1981)
Las secuencias se alinean en regiones pequeñas y aisladas
© Copyright Ebiointel,SL 2006
Ejemplo on-linealineamiento global vs local
Preparación de una matriz n x m
Global vs local on-line
© Copyright Ebiointel,SL 2006
ObjetivoComparar los resultados obtenidos al alinear dos secuencias problema con programes de alineamiento
•local Smith-Waterman (water) •global Needleman and Wunsch (needle)
Alineamientos•Iniciar una sesión en EMBOSS•Introducir las secuencias
• Sequence 1NGPSTKDFGKISESREFDNQNGPSTKDFGKISESREFDNQ
* Sequence 2
QNQLERSFGKINMRLEDALVQNQLERSFGKINMRLEDALV
•Comparar (water o needle), visualizar y comentar
Práctica alineamiento de pares de secuencias
Global vs local
© Copyright Ebiointel,SL 2006
MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTLFGWGYDDNPVPGGGGVYSMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDDVDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGWQANRHIGATLVNETGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNY
Búsquedas por similitud
¿Hay en la base de datos alguna secuencia similar
a mi secuencia problema?
ResultadosSimilar to …………Unknown but similar to sevral hypothetical proteins from…Putative hypothetical protein……..
© Copyright Ebiointel,SL 2006
Búsqueda de similares
Búsqueda de similares en una base de datos
Objetivo: comparar una secuencia frente a una base de datos, comprar dos base de
datos,.. •AlgoritmosExactos: Smith-Waterman (sssearch, lalign, ..)Heurísticos:
BLAST (búsqueda de “words” similares)
FASTA (búsqueda de “k-tuplos” idénticos)
© Copyright Ebiointel,SL 2006
FASTA (Lipman y Pearson, 1985; Pearson y Lipman, 1988)
El algoritmo busca patrones cortos consecutivos (palabras o k-tuplos, k= 1-2 aa / 4-6 nt) entre la secuencia problema y las de la base de datos.
BLAST (Basic Local Alignment Search Tool)(Altschul, et al, 1990, J Mol Biol, 215:403-10)
Concentra la búsqueda en patrones cortos más significativos, (palabra, word size: 3 aa / 11 nt). Rápido, menos sensible?
Método heurístico: prueba y error Suele encontrar secuencias relacionadas pero nunca
hay garantía absoluta.
Ventaja: 50 veces más rápido que programa dinámicos
Usos: búsquedas sobre bases de datos de gran tamaño
Métodos heurísticos
© Copyright Ebiointel,SL 2006
Búsquedas con BlocksMotivos alineados sin gaps
(PSSM position-specific scoring matrix)
Búsquedas con secuencias de DNA o aa FASTA, BLAST
Búsquedas con perfilesArchivos con alineamientos
DAHQSNESHQSYEAHQSNEGVQSY
D-HQSNGAESHQ-YTMEAHQSN-LEGVQSYSL
>SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAGGGAGTCACCCCTCTTCGCGCTAGGATCGCTGAGCG
Búsquedas de patrones y motivos PROSITE, INTERPRO, PFAM, .. DAHQSN
Secuencias problema
© Copyright Ebiointel,SL 2006
Significación - Valoración de los alineamientos
1. Valoración mediante matrices
2. Penalización por disimilitud (aparición y extensión de gaps). Este valor es la Puntuación bruta (raw score, Sraw).
3. Puntuación de bits (Sbit). Permite comparar resultados obtenidos por diferentes sistemas. Se introducen parámetros utilizados por el programa de alineamiento.
4. E value alineamiento debido al azar. Los valores más cercanos a cero indican una mayor relevancia. Se puede considerar relevante cuando E < 0.05.
© Copyright Ebiointel,SL 2006
SignificanciaExpect Value
E = numero de hits esperado por azar
Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar.
Valores mas bajos serán mas significativos
Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar.
Valores mas bajos serán mas significativos
© Copyright Ebiointel,SL 2006
(Basic Local Alignment Search Tool)Altschul, et al, 1990, J Mol Biol, 215:403-10
Usosbúsquedas en las bases de datosalineamiento de pares de secuencias
Estrategia BLASTBúsqueda de proteínas mediante criterios de semejanza (no identidad).
Se utilizan matrices de semejanzaTrabaja con segmentos pequeños que permiten acelerar el proceso
(High-scoring segment pair)Extensión de los match hacia los ladosRápido y sensible
HeurísticoBLAST intenta encontrar muchos matches sacrificando la especificidad por la velocidad. Se pueden perder apareamientos.
Glossary
© Copyright Ebiointel,SL 2006
Esquema BLAST
© Copyright Ebiointel,SL 2006
NucleótidosGTACTGGACATGGACCCTACAGGAAQuery:
GTACTGGACAT
TACTGGACATG
ACTGGACATGG
CTGGACATGGA
TGGACATGGAC
GGACATGGACC
GACATGGACCC
ACATGGACCCT
...........
Minimum word size = 7blastn default = 11megablast default = 28
Word Size = 11
© Copyright Ebiointel,SL 2006
Proteínas
Word Size = 3
GTQITVEDLFYNIATRRKALKNQuery:
SimilaresLTV, MTV, ISV, LSV, etc.
GTQ
TQI
QIT
ITV
TVE
VED
EDL
DLF
...
© Copyright Ebiointel,SL 2006
© Copyright Ebiointel,SL 2006
Seleccióndel
programa
BLAST Help
© Copyright Ebiointel,SL 2006
© Copyright Ebiointel,SL 2006
© Copyright Ebiointel,SL 2006
© Copyright Ebiointel,SL 2006
Opciones
Conserved Domain Database
© Copyright Ebiointel,SL 2006
Introducción de la Secuencia
FASTA FORMAT
© Copyright Ebiointel,SL 2006
Otras opciones
Expect: 10, máximo de 10 al azar. Valores inferiores son mas restrictivos.Word Size: medida de los fragmentos (k-tup FASTA)
© Copyright Ebiointel,SL 2006
Formatos
© Copyright Ebiointel,SL 2006
PrácticaObjetivo generalBuscar secuencias similares a las secuencias problema.
BLAST DNA
Copiar la Secuencia PROBLEMA i someterla a BLAST de DNA
>SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAGGGAGTCACCCCTCTTCGCGCTAGGATCGCTGAGCGTCTGGAACAATCTGGACCTACAGTTAGCCAAACCGTTGCCCGTATGGAGCGCGATGGACTTGTCGTTGTCGCCTCAGACCGCAGTCTACAAATGACACCGACAGGCCGCACTTTAGCGACTGCAGTTATGCGTAAACATCGCTTAGCTGAGCGCCTTCTTACCGATATCATTGGTCTAGATATCAATAAAGTTCACGATGAAGCCTGCCGCTGGGAACACGTTATGAGTGACGAAGTTGAACGCAGGCTCGTGAAAGTATTGAAAGATGTCAGTCGGTCCCCCTTCGGAAACCCAATTCCAGGTCTCGACGAACTCGGCGTAGGCAATTCTGACGCGGCAGCCCCCGGAACTCGCGTTATTGACGCTGCCACCAGCATGCCCCGCAAAGTACGCATTGTTCAGATTAACGAAATCTTTCAAGTTGAAACGGATCAGTTTACACAGCTCCTCGATGCTGACATCCGTGTTGGATCAGAAGTCGAAATTGTAGATAGAGACGGCCACATCACGTTGAGCCACAATGGAAAAGATGTCGAACTCCTCGATGATCTGGCTCACACTATTCGTATCGAAGAACTCTAA
Iniciar una sesión BLAST NucleotideLimitar la búsqueda a Blast de Bacteria
© Copyright Ebiointel,SL 2006
BLAST Proteína
Copiar la secuencia PROBLEMA i someterla a BLAST de Proteína
>SeqProt-Prob1.pep MENRIDRIKKQLHSSSYKLTPQREATVRVLLENEEDHLSAEDVYLLVKEKSPEIGLATVYRTLELLTELKVVDKINFGDGVSRYDLRKEGAAHFHHHLVCMEFGAVDEIEGDLLEDVEEIIERDWKFKIKDHRLTFHGICHRCNGKETE
Iniciar una sesión BLAST Protein
Limitar la búsqueda a Blast de Bacteria
Ejecutar Blast
Práctica
© Copyright Ebiointel,SL 2006
ObjetivoPretendemos encontrar secuencias bacterianas en diferentes genomas de microorganismos. Realizar una búsqueda tBLASTn sobre genomas microbianos utilizando la secuencia:
>Proteína problemaMPKRSEYRQGTPNWVDLQTTDQSAAKKFYTSLFGWGYDDNPVPGGGGVYSMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDDVDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGLWQANRHIGATLVNETGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNYRVLKAGDAEVGGCMEPPMPGVPNHWHVYFAVDDADATAAKAAAAGGQVIAEPADIPSVGRFAVLSDPQGAIFSVLKPAPQQ
Prácticat nProteína x DNA traducido a Proteína
© Copyright Ebiointel,SL 2006
ObjetivoDetectar similares a la secuencia problema y determinar si hay errores.
Realizar una búsqueda con BLASTx usando:
>DNA desconocidoATGCCCAAGAGAAGCGAATACAGGCAAGGCACGCCGAACTGGGTCGACCTTCAGACCACCGATCAGTCCGCCGCCAAAAAGTTCTACACATCGTTggtGTTCGGCTGGGGTTACGACGACCCGGTCCCCGGAGGCGGTGGGGTCTATTCCATGGCCACGCTGAACGGCGAAGCCGTGGCCGCCATCGCACCGATGCCCCCGGGTGCACCGGAGGGGATGCCGCCGATCTGGAACACCTATATCGCGGTGGACGACGTCGATGCGGTGGTGGACAAGGTGGTGCCCGGGGGCGGGCAGGTGATGATGCCGGCCTTCGACATCGGCGATGCCGGCCGGATGTCGTTCATCACCGATCCGACCGGCGCTGCCGTGGGCCTATGGCAGGCCAATCGGCACATCGGAGCGACGTTGGTCAACGAGACGGGCACGCTCATCTGGAACGAACTGCTCACGGAttgGCCGGATTTGGCGCTAGCGTTCTACGAGGCTGTGGTTGGCCTCACCCACTCGAGCATGGAGATAGCTGCGGGCCAGAACTATCGGGTGCTCAAGGCCGGCGACGCGGAAGTCGGCGGCTGTATGGAACCGCCGATGCCCGGCGTGCCGAATCATTGGCACGTCTACTTTGCGGTGGATGACGCCGACcccACGGCGGCCAAAGCCGCCGCAGCGGGCGGCCAGGTCATTGCGGAACCGGCTGACATTCCGTCGGTGGGCCGGTTCGCCGTGTTGTCCGATCCGCAGGGCGCGATCTTCAGTGTGTTGAAGCCCGCACCGCAGCAATAG
Práctica XDNA traducido a Proteína x Proteína
© Copyright Ebiointel,SL 2006
1. Búsqueda de zonas comunes por identidad y sin gaps. Uso de k-tuplo.
2. Velocidad y sensibilidad determinadas por la longitud de la palabra usada. Las palabras cortas hacen la búsqueda más lenta y sensible.
3. Valoración de los match por similitud y unión de las regiones con gaps
4. Evaluación exhaustiva de los mejores alineamientos
Alineamientos localesFASTA utiliza una matriz de substitución sólo durante la fase de extensiónLa reducción del tiempo de búsqueda conlleva una pérdida de sensibilidad y selectividad
Estrategia
k-tupDNA: 6
Proteína: 2
FASTA
© Copyright Ebiointel,SL 2006
Programas FASTA
Programa Funcionesfasta3
tfasta3*
ssearch*
DNA, proteína frente bd DNA y bd Prot (fasta) y proteínas frente bd DNA traducido (tfasta), no admite frameshifts
DNA, proteína frente bd DNA y bd Prot mediante el algoritmo Smith-Waterman
Muy lento <10 fasta pero muy sensible.
fastx/y3 DNA (traducido 3 frames) frente bd proteínas. Admite gaps y frameshifts
Velocidad x > y
tfastx/y3 Proteína frente bd DNA traducido 6 frames
fasts3
tfasts3*
Mezcla de péptidos pequeños relacionados (mass-spec) frente bd proteína (fasts) o bd DNA (tfasts)*
fastf3
tfastf3*
Mezcla de péptidos (obtenida por Edman o CNBr) frente bd proteína (fastf) o bd DNA (tfastf)*
>mgstm1
MILG,
MLLEYTD,
MGDAP
>mgstm1
MGCEN,
MIDYP,
MLLAY,
MLLGY
© Copyright Ebiointel,SL 2006
MATRIX Matriz de búsqueda
GAP PENALTIES GAPOPEN: Penalización por apertura gap (-12 para proteínas, -16 para DNA).GAPEXT: Penalización extensión del gap (-2 para proteínas, -4 para DNA). HISTOGRAM
Muestra el histograma con las frecuencias de las coincidencias por azar.SCORES
Puntuación de los alineamientos ALIGNMENTS
Número de alineamientos que se visualizaranKTUP
Proteínas: 2 DNA: 6STRAND
Cadena de DNAEXPECTATION VALUE
Límite superior para la presentación de un alineamiento. Valores por defecto son 10.0 para Prot/Prot; 5.0 para proteínas frente Prot/Prot de DNA y 2.0 para búsquedas DNA/DNA.
EXPECTATION VALUE THRESHOLD Límite inferior para la presentación de un alineamiento.
Opciones FASTA
© Copyright Ebiointel,SL 2006
© Copyright Ebiointel,SL 2006
Job FASTA
© Copyright Ebiointel,SL 2006
Resultados FASTA
© Copyright Ebiointel,SL 2006
Mview Results FASTA
© Copyright Ebiointel,SL 2006
Visual FASTA
© Copyright Ebiointel,SL 2006
Práctica FASTA
Búsqueda por similitud•Iniciar una sesión FASTA•Seleccionar el programa y fijar los parámetros de búsqueda en función de la naturaleza de la secuencia problema.•Introducir la secuencia problema•Someter la búsqueda•Visualizar y comentar los resultados•Diferencias frente a BLAST
© Copyright Ebiointel,SL 2006