Upload
carla-serrano-aguilera
View
217
Download
0
Embed Size (px)
Citation preview
1 Fernán Agüero
2007
Fernán AgüeroInstituto de Investigaciones BiotecnológicasUniversidad Nacional de General San Martín
Protein sequence analysisStructural Bioinformatics
2 Fernán Agüero
El flujo de información en biología
> DNAAATTCATGAAAATCGTATACTGGTCTGGTACCGGCAACACTGAGAAAATGGCAGAGCTCATCGCTAAAGGTATCATCGAATCTGGTAAAGACGTCAACACCATCAACGTGTCTGACGTTAACATCGATGAACTGCTGAACGAAGATATCCTGATCCTGGGTTGCTCTGCCATGGGCGATGAAGTTCTCGAGGAAAGCGAATTTGAACCGTTCATCGAAGAGATCTCTACCAAAATCTCTGGTAAGAAGGTTGCGCTGTTCGGTTCTTACGGTTGGGGCGACGGTAAGTGGATGCGTGACTTCGAAGAACGTATGAACGGCTACGGTTGCGTTGTTGTTGAGACCCCGCTGATCGTTCAGAACGAGCCGGACGAAGCTGAGCAGGACTGCATCGAATTTGGTAAGAAGATCGCGAACATCTAGTAGA
> ProteinaMKIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDVNIDELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGKKVALFGSYGWGDGKWMRDFEERMNGYGCVVVETPLIVQNEPDEAEQDCIEFGKKIANI
Gen Función
3 Fernán Agüero
Conformación proteica
• Christian AnfinsenEstudios sobre desnaturalización reversible: “la secuencia determina la conformación”
• Las chaperonas y las enzimas intercambiadoras de disulfuros están involucrados pero no controlan el estado final.
• A partir de una secuencia proteica recién determinada, que se puede decir acerca de su conformación? Se puede predecir la estructura por métodos computacionales?
• Respuesta: predicción ab initio (no muy confiable!!!)
4 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
• Ancestro común?• Función conservada?• Dominio o secuencia completa?
5 Fernán Agüero
BLAST
• Identifica high-scoring segment pairs (HSPs)– Un par de secuencias que pueden ser alineados sin
gaps– Cuando están alineadas tienen un score agregado
máximo (no puede ser mejorado por extensión o por recorte del alineamiento)
– El score debe estar por arriba de un determinado valor (threshold) S.
– gapped (2.0) o ungapped (1.4)
• Modos de uso (interfases disponibles)– WWW search form
http://www.ncbi.nlm.nih.gov/BLAST– Unix command line
blastall -p progname -d db -i query > outfile
6 Fernán Agüero
Algoritmos BLAST
Program Query Sequence Target Sequence
BLASTN Nucleotide Nucleotide
BLASTP Protein Protein
BLASTX Nucleotide, Proteinsix-frame translation
TBLASTN Protein Nucleotide,six-frame translation
TBLASTX Nucleotide, Nucleotide,six-frame translation six-frame translation
7 Fernán Agüero
Palabras cercanas (neighborhood words)
Query Word (Query Word (WW = 3) = 3)
Neighborhood Score Neighborhood Score ThresholdThreshold((TT = 13) = 13)
Query: GSQSLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEAFVED
PQG 18PEG 15PRG 14PKG 14PNG 13PDG 13PHG 13PMG 13PSG 13PQA 12PQN 12etc.
NeighborhoodNeighborhoodWordsWords
8 Fernán Agüero
High-scoring segment pairs (HSPs)
Query: 325 SLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEA 365 +LA++L TP G R++ +W+ P+ D + ER + ASbjct: 290 TLASVLDCTVTPMGSRMLKRWLHMPVRDTRVLLERQQTIGA 330
PQG 18PEG 15PRG 14PKG 14PNG 13PDG 13PHG 13PMG 13PSG 13PQA 12PQN 12etc.
9 Fernán Agüero
Requerimientos de una búsqueda de BLAST
• Una secuencia query, en formato FASTA.
• Qué programa de BLAST usar.
• Qué base de datos buscar.
• Parámetros de la búsqueda.
10 Fernán Agüero
Secuencia query
>N-terminal unknown proteinMSSAAAAAAGAAGGGALFQPQSVSTANSSSSNNNNSSTPAALATHSPTSNSPVSGASSASSLLTAAFGNLFGGSSAKMLNELFGRQMKQAQDATSGLPQSLDNAMLAAAMETATSAELLIGSLNSTSKLLQQQHNNN...
BLASTP / SWISSPROT / BLOSUM62
Un E bajo implica un HSP más significativo – pero siempre hay que mirar los alineamientos!!!
Score ESequences producing significant alignments: (bits) Value
sp|P29617|PRO_DROME PROTEIN PROSPERO 948 0.0sp|P34522|HM26_CAEEL HOMEOBOX PROTEIN CEH-26 242 4e-63sp|P48437|PRX1_MOUSE HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55sp|Q92786|PRX1_HUMAN HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55sp|Q91018|PRX1_CHICK HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 213 2e-54sp|P25440|RNG3_HUMAN RING3 PROTEIN (KIAA9001) 35 0.79sp|P31000|VIME_RAT VIMENTIN 34 1.4sp|P48670|VIME_CRIGR VIMENTIN 34 1.4
11 Fernán Agüero
Requerimientos BLAST
• Una secuencia query, en formato FASTA. • Qué programa de BLAST usar. • Qué base de datos buscar.• Parámetros de la búsqueda.
Extension
Cum
ulat
ive
Sco
re
T
S
X
E = kNe-S
Número de HSPs
hallados por puro
azar
HSP
Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico.
X
12 Fernán Agüero
Matrices de scoring
• Esquema empírico de ponderación (weighting) que intenta representar conocimiento biológico (estructural/funcional) – Cys : puentes disulfuro o unión a metales: estabilizan la
estructura. – Pro : relativamente voluminoso y sin grupo N-H para
cadenas laterales: ocurre en codos (turns). – Trp: cadena lateral voluminosa. – Lys/Arg: cadenas laterales cargadas positivamente.– Gly: no tiene cadena lateral. Permite rotar a la cadena
porlipeptídica: ocurre en codos (turns). – Ala: sinpropiedades particulaes. Cadena lateral pequeña:
ocurre frecuentemente en alpha-hélices. – Glu/Asp: frecuentes al comienzo de alpha-hélices.– Lys/Arg: frecuentes hacia el final de alpha-hélices.
13 Fernán Agüero
Matrices de scoring: importancia
•Es importante comprender las matrices de scoring
• Aparecen (y son la base) de todos los análisis que involucran
comparación de secuencias.
• Representan en forma implícita una teoría particular de la
evolución.
• La elección de la matriz puede influenciar fuertemente los
resultados que se obtengan.
14 Fernán Agüero
Estructura de una matriz
A R N D C Q E G H I L K M F P S T W Y V B Z X *A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
15 Fernán Agüero
Hay tantas matrices ...
• Triple-PAM (Altschul, 1991)– PAM 40 Alineamientos cortos, alta
similitud– PAM 120– PAM 250 Alineamientos largos, baja similitud
• BLOSUM 62 (Henikoff, 1993)– La más efectiva para detectar miembros de una
familia de proteínas. (BLAST default).
• No hay una matriz que sea la respuesta completa para todas las comparaciones!!!
16 Fernán Agüero
Matrices PAM
• Margaret Dayhoff, 1978
• Point Accepted Mutation (PAM)– Se observan los patrones de sustituciones en
proteínas relacionadas. – La nueva cadena lateral debe funcionar en forma
similar a la anterior (aceptación)– En promedio 1 PAM, corresponde al cambio de 1
amino ácido cada 100 residuos. – 1 PAM ~ 1% divergencia– Se extrapola para predecir patterns de mutación a
mayores distancias.
17 Fernán Agüero
Matrices PAM (cont.)
• Suposiciones– Una mutación es independiente de los residuos que la
rodean.– Las secuencias comparadas son de una composición
promedio.– Todos los sitios son igualmente reemplazables.
• Fuentes de error– Para derivar las matrices se utilizaron proteínas
pequeñas, globulares (desvío de la composición promedio).
– Los errores en PAM 1 son aumentados al extrapolar hasta PAM 250
– No considera, ni es flexible para considerar bloques conservados o dominios.
18 Fernán Agüero
Matrices BLOSUM
• Henikoff and Henikoff, 1992
• Blocks Substitution Matrix (BLOSUM)– Considera sólo diferencias en regiones conservadas,
libres de gaps, de una familia proteica.
– Más sensible a sustituciones estructurales o
funcionales.
– BLOSUM n
• Contribución de secuencias > n% idénticas pesan 1.
• Reduce la contribución de secuencias muy similares.
• Incrementar n ~ incrementar la distancia PAM.
19 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
• Ancestro común?• Función conservada?• Dominio o secuencia completa?
20 Fernán Agüero
Profiles
• Representación númerica de un alineamiento múltiple.
• Depende de patrones (patterns) o motivos (motifs)
que contengan residuos conservados.
• Representan las características comunes de una
familia de proteínas.
• Permite identificar similitud entre secuencias con
poca o ninguna identidad.
• Permite incorporar al análisis secuencias
relacionadas en forma distante.
21 Fernán Agüero
Construcción de profiles
Cons A B C D E F G H I K L M N P Q R S T V W Y Z G 17 18 0 19 14 -22 31 0 -9 12 -15 -5 15 10 9 6 18 14 1 -15 -22 11 P 18 0 13 0 0 -12 13 0 8 -3 -3 -1 -2 23 2 -2 12 11 17 -31 -8 1 H 5 24 -12 29 25 -20 8 32 -9 9 -10 -9 22 7 30 10 0 4 -8 -20 -7 27 I -1 -12 6 -13 -11 33 -12 -13 63 -11 40 29 -15 -9 -14 -15 -6 7 50 -17 8 -11 V 3 -11 1 -11 -9 22 -3 -11 46 -9 37 30 -13 -3 -9 -13 -6 6 50 -19 2 -8 V 5 -9 9 -9 -9 19 -1 -13 57 -9 35 26 -13 -2 -11 -13 -4 9 58 -29 0 -9 A 54 15 12 20 17 -24 44 -6 -4 -1 -11 -5 12 19 9 -13 21 19 9 -39 -20 10 T 40 20 20 20 20 -30 40 -10 20 20 -10 0 20 30 -10 -10 30 150 20 -60 -30 10 P 31 6 7 6 6 -41 19 11 -9 6 -16 -11 0 89 17 17 24 22 9 -50 -48 12 G 70 60 20 70 50 -60 150 -20 -30 -10 -50 -30 40 30 20 -30 60 40 20 -100 -70 30
APHIIVATPGGCEIVIATPGGVEICIATPGGVDILIGTTGRPHIIVATPGKPHIIIATPGKVQLIIATPGRPDIVIATPGAPHIIVGTPGAPHIIVGTPGGCHVVIATPGNQDIVVATTG
• Qué residuos aparecen en cada posición?• Cuál es la frecuencia de los residuos observados?• Qué posiciones están conservadas? • Dónde pueden introducirse gaps?
Position-Specific Scoring Table
22 Fernán Agüero
ProfileScan
• Compara una secuencia contra una colección de profiles.
• Bases de datos disponibles– PROSITE 17.39 1609 entries– Pfam 8.0 5193 entries
• http://expasy.org/prosite
23 Fernán Agüero
Query ProfileScan
Selecciono TODAS las bases de datosSólo matches significativos
E-value
>C-terminal endMALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDARTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGGGTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA...
normalized raw from - to Profile|Description219.3535 27400 pos. 21 - 600 PF00012|HSP70 Heat shock hsp70 proteins
NScore SwissProt 7.0 1.8000 8.0 0.1800 9.0 0.0180 10.0 0.0018
219.4 3e-211
[IV]-D-L-G-T-[ST]-x-[SC]
[LIVMF]-[LIVMFY]-[DN]-[LIVMFS]-G-[GSH]-[GS]-[AST]-x(3)-[ST]-[LIVM]-[LIVMFC]
[LIVM]-x-[LIVMF]-x-G-G-x-[ST]-x-[LIVM]-P-x-[LIVM]-x-[DEQKRSTA]
Signatures
24 Fernán Agüero
BLOCKS
• Steve Henikoff, Fred Hutchinson Cancer Research Center, Seattle
• Alineamientos múltiples de regiones conservadas en familias de proteínas. – 1 “block” = 1 alineamiento corto, sin gaps– Cada familia puede definirse por uno o más ‘blocks’– Las búsquedas permiten detectar uno o más blocks
representantes de una familia.
• Interfases disponibles– E-Mail [email protected]– Web http://blocks.fhcrc.org/
25 Fernán Agüero
Query BLOCKS
ID HSP70_1; BLOCKAC BL00297A; distance from previous block=(94,187)DE Heat shock hsp70 proteins family proteins.BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607
>C-terminal endMALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDARTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGGGTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA...
BL00297A HSCA_ECOLI 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA |||||||||||||||||||||||||||||||||||||||||||||||||||||||C-terminal 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA
Search blocks
Examine blocks
26 Fernán Agüero
BLOCKS entry
ID HSP70_1; BLOCKAC BL00297A; distance from previous block=(94,187)DE Heat shock hsp70 proteins family proteins.BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607HS70_CHLRE ( 129) KETAQASLGADREVKKAVVTVPAYFNDSQRQATKDAGMIAGLEVLRIINEPTAAA 19
HS7L_SBYV ( 132) ALISTASEAFKCQCTGVICSVPANYNCLQRSFTESCVNLSGYPCVYMVNEPSAAA 75
HS7R_HUMAN ( 124) KLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDATQIAGLNCLRLMNETTAVA 45
HS7T_MOUSE ( 126) TKMKETAEVFWAPMSQRVITVPAYFNDSQRQATKDAGVIAGLNVLRIINEPTAVA 28
YKH3_YEAST ( 160) SLLKDRDARTEDFVNKMSFTIPDFFDQHQRKALLDASSITTGIEETYLVSEGMSV 100
DNAK_BACSU ( 95) HLKSYAESYLGETVSKAVITVPAYFNDAERQATKDAGKIAGLEVERIINEPTAAA 7DNAK_BORBU ( 122) KMKETAEAYLGEKVTEAVITVPAYFNDAQRQATKDAGKIAGLEVKRIVNEPTAAA 3DNAK_BRUOV ( 122) KMKETAESYLGETVTQAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 3DNAK_BURCE ( 123) KMKKTAEDYLGEPVTEAVITVPAYFNDSQRQATKDAGRIAGLEVKRIINEPTAAA 3DNAK_CAUCR ( 122) KMKEAAEAHLGEPVTKAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 5DNAK_CHLPN ( 125) KMKETAEAYLGETVTEAVITVPAYFNDSQRASTKDAGRIAGLDVKRIIPEPTAAA 10DNAK_CLOPE ( 98) KLKADAEAYLGEKVTEAVITVPAYFNDAERQATKDAGRIAGLDVKTIINEPTAAS 8DNAK_CRYPH ( 122) KLVDDASKYLGESVKQAVITVPAYFNDSQRQATKDAGRIAGLEVLRIINEPTAAS 5DNAK_ECOLI ( 121) KMKKTAEDYLGEPVTEAVITVPAYFNDAQRQATKDAGRIAGLEVKRIINEPTAAA 3DNAK_ERYRH ( 96) YMKSYAEDYLGEKVTKAVITVPAYFNDAQRQATKDAGKIAGLEVERIINEPTAAA 5DNAK_HAEIN ( 120) KMKKTAEDFLGESVTEAVITVPAYFNDAQRQATIDAGKIAGLDVKRIINEPTAAA 6
.
.
.
27 Fernán Agüero
BLOCK Maker
>Histone chk-H5 family6 sequences are included in 2 blocks
HistoneA, width = 31 chk-H5 1 SHPTYSEMIAAAIRAEKSRGGSSRQSIQKYI hum-H1 1 SGPPVSELITKAVAASKERSGVSLAALKKAL pea-H1 1 SHPTYEEMIKDAIVSLKEKNGSSQYAIAKFI sce-H1.1 1 SSKSYRELIIEGLTALKERKGSSRPALKKFI sce-H1.2 1 SSLTYKEMILKSMPQLNDGKGSSRIVLKKYV xla-H1 1 SGPSASELIVKAVSSSKERSGVSLAALKKAL
HistoneB, width = 15 chk-H5 ( 21) 53 IRRLLAAGVLKQTKG hum-H1 ( 21) 53 LKSLVSKGTLVQTKG pea-H1 ( 21) 53 LKKNVASGKLIKVKG sce-H1.1 ( 21) 53 IKKGVEAGDFEQPKG sce-H1.2 ( 21) 53 IKKCVENGELVQPKG xla-H1 ( 21) 53 LKALVTKGTLTQVKG
MOTIF/GIBBS
>chk-H5SRRSASHPTYSEMIAAAIRAEKSRGGSSRQSIQKYIKSHYKVGHNADLQIKLSIRRLLAAGVLKQTKGVGASGSFRLAKS>hum-H1TPRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKK>pea-H1PRNPASHPTYEEMIKDAIVSLKEKNGSSQYAIAKFIEEKQKQLPANFKKLLLQNLKKNVASGKLIKVKGSFKLSAAAKKP
28 Fernán Agüero
CD-Search (RPS-BLAST)
• Compara una secuencia contra una colección de profiles (Reverse PSI-BLAST)
• Bases de datos disponibles– Pfam 2478 entries– Smart 488 entries– Oasis (combined pfam, smart and cdd) 3019 profiles.
• Buscar usando Blast
http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
• Buscar la base de datos CDD (Conserved Domains from 3D structures)– http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
29 Fernán Agüero
PSI-BLAST
• Position-Specific Iterated BLAST search
• Easy-to-use version of a profile-based search– Hace una búsqueda utilizando BLAST contra una base
de datos de proteínas. – Utiliza los resultados para derivar una matriz posición-
específica (position-specific scoring matrix, PSSM)– En la próximas rondas (iteraciones) se utiliza la PSSM
en lugar de la secuencia query original– Se puede iterar hasta que no aparezcan nuevos
alineamientos significativos. • Convergencia – todas las secuencias relacionadas fueron
encontradas. • Divergencia – el query es demasiado amplio, utilizar
criterios (cut-offs) más estringentes.
30 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
• estructura secundaria• módulos de señalización • estructura terciaria• plegamientos especializados
31 Fernán Agüero
Predicción de estructura secundaria
• Dada una secuencia primaria de una proteína
GHWIATRGQLIREAYEDYRHFSSECPFIP
• Predecir el contenido de estuctura secundaria (-hélice, -sheets, coils)
CEEEEECHHHHHHHHHHHCCCHHCCCCCC
32 Fernán Agüero
Predicción de estructura secundaria
• Predice la posición más probable de alfa-hélices y
hojas beta.
• Cuando la similitud con otras secuencias es baja,
confirma características estructurales o
funcionales compartidas entre dos secuencias.
• Guía la selección racional de mutantes específicas
para el estudio en el laboratorio.
• Es la base para futuros estudios estructurales.
36 Fernán Agüero
nnpredict
• Estrategia de predicción basada en una red neural (Kneller et al., 1990)
• Best-case accuracy > 65%
• Interfases– E-mail [email protected]– Web http://www.cmpharm.ucsf.edu/
~nomi/nnpredict.html
39 Fernán Agüero
nnpredict query
option: a/b>flavodoxin - Anacystis nidulansAKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Tertiary structure class: alpha/beta
Sequence:AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Secondary structure prediction (H = helix, E = strand, - = no prediction):----EEE------EEEHHHHHHH------EEEH---------------EEEE-----------------------HHHH---EEEE------------H--HHHHHHHH------E--E--E--------------HH--E----------------EHHHHH------
folding class
40 Fernán Agüero
SignalP
• Dos métodos de predicción• Red neural (SignalP-NN)• Modelos de Markov (SignalP-HMM) • Entrenamiento basado en filogenia.
–Gram-negative prokaryotic–Gram-positive prokaryotic–Eukaryotic
• Predice péptido señal (secreción, no los involucrados en transducción de señales intracelulares)
• http://www.cbs.dtu.dk/services/SignalP/
41 Fernán Agüero
SignalP query
************************* SignalP predictions *************************Using networks trained on euk data
>IGF-IB length = 195
# pos aa C S Y . . . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 . . . < Is the sequence a signal peptide?# Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES# Most likely cleavage site between pos. 48 and 49: ATA-GP
>sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSORMGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG
N-terminal end onlyEukaryotic set
42 Fernán Agüero
SignalP query
************************* SignalP predictions *************************Using networks trained on euk data
>IGF-IB length = 195
# pos aa C S Y . . . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 . . . < Is the sequence a signal peptide?# Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES# Most likely cleavage site between pos. 48 and 49: ATA-GP
>sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSORMGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG
N-terminal end onlyEukaryotic set
C = cleavage site scoreS = signal peptide scoreY = combined score
43 Fernán Agüero
PredictProtein
• Interfases– Web http://
predictprotein.org/
• Algoritmo predictivo en varios pasos. (Rost et al., 1994)– La secuencia de proteína se
compara contra SWISS-PROT
– Se utiliza MaxHom para generar alineamiento multiple baasado en profiles (iterativo) (Sander and Schneider, 1991)
– El alineamiento multiple se utiliza como input para una red neural (PHDsec)
• Precisión– Average >
70%– Best-case > 90%
44 Fernán Agüero
Predict protein query
Joe BuzzcutNational Human Genome Research Institute, [email protected]# flavodoxin - Anacystis nidulansAKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Estructura secundaria
....,....1....,....2....,....3....,....4....,....5....,....6AA |AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG|PHD sec | EEEEEEE HHHHHHHHHHHHH EEEEE HHH HHHH EEEEE |Rel sec |938999736982489999999999767982443213241278631241999861547765|Detail:prH sec |000000000014689999999999821000011112565388764321000001111111|prE sec |058998852000000000000000000003665542100000000014899874120002|prL sec |931000137985310000000000178985222344324511234554000114667776|
• SWISS-PROT hits• Multiple alignment• PDB homologues
45 Fernán Agüero
PHDtopology
• Estrategia similar a PredictProtein (PHDsec)
• Precisión total 94.7%– Predicción de hélices 92.0%– Predicción de loops 96.0%
• Incluye predicción de topología.
• Gratuito para uso académico. Licencia comercial disponible.
• Interfases disponibles– E-mail [email protected]– Web http://predictprotein.org
46 Fernán Agüero
PHDtopology query
Joe BuzzcutNational Human Genome Research Institute, [email protected] htm topology# pendrinMAAPGGRSEPPQLPEYSCSYMVSRPVYSELAFQQQHERRLQERKTLRESLAKCCSCSRKRAFGVLKTLVPILEWLPKYRVKEWLLSDVISGVSTGLVATLQGMAYALLAAVPVGYGLYSAFFPILTYFIFGTSRHISVGPFPVVSLMVGSVVLSMAP...
....,....37...,....38...,....39...,....40...,....41...,....42 AA |YSLKYDYPLDGNQELIALGLGNIVCGVFRGFAGSTALSRSAVQESTGGKTQIAGLIGAII| PHD htm | HHHHHHHHHHHHHH HHHHHHHHHH| Rel htm |368899999999999998641104667777655431257778887777621467788888| detail: | | prH htm |310000000000000000124457888888877765321110000111135788899999| prL htm |689999999999999999875542111111122234678889999888864211100000|
.
.
. PHDThtm |iiiiiiiiiiiiiiiiiiiTTTTTTTTTTTTTTTTTToooooooooooooooTTTTTTTT|
47 Fernán Agüero
Precisión de las predicciones
48 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
• estructura secundaria• módulos de señalización • estructura terciaria• plegamientos especializados
49 Fernán Agüero
Predicción de estructura terciaria
• La secuencia determina la conformación pero no viceversa.
• La estructura se conserva mucho más que la secuencia. – Númer limitado de plegamientos conocidos.
• Similitud entre proteínas no siempre detectada por métodos ‘tradicionales’.
50 Fernán Agüero
PDB Growth
51 Fernán Agüero
ab initio structure prediction
• Funciones de energía que describan la estructura 3D de una proteína
o bond energyo bond angle energyo dihedral angle energyo van der Waals energyo electrostatic energy
o Minimizar las funciones y obtener la estructura. En general poco práctico.o Computacionalmente costosoo Precisión pobre
o Funciona razonablemente para proteínas chicaso Péptidos (~ 20 aa)
52 Fernán Agüero
Contact order
• Orden de contacto– Medida que refleja las interacciones entre aminoácidos en una
proteína– Distancia promedio entre aminoácidos que interaccionan entre
sí• Suma de las distancias / Longitud de la proteína
– Está relacionada con el tiempo de plegamiento de una proteína
• Low contact order proteins = fast folding• High contact order proteinas = slow folding
• Las estructuras de proteínas con valores de contact order bajos son más fáciles de predecir ab initio
53 Fernán Agüero
Ab initio prediction: Rosetta
• Análisis de MSAs de proteínas de estructura conocida– Gran número de patrones de 3-15 aminoácidos, algunos de
los cuales están fuertemente asociados a ciertas estructuras locales
– Algunas de estas estructuras tienen energías predecibles (datos experimentales de NMR)
– I-Sites
• La estrategia recrea el proceso de folding • Análisis usando una ventana de 9 aminoacidos
– Identificación de I-Sites
• Muestreo de posibles estructuras minimizando energía (Monte Carlo)
54 Fernán Agüero
Rosetta online: Robetta
55 Fernán Agüero
Threading
• Predicción de estructura basado en el reconocimiento del fold nativo– thread (alinear o acomodar) una proteína query sobre una
estructura molde de alguna forma óptima. – Un alineamiento bueno provee un backbone aproximado
• Requerimientos– Una biblioteca de moldes– Una función de scoring– Un alineamiento– Evaluar confidencia
• Fuerza bruta– Threading de una secuencia contra todas las estructuras disponibles
(PDB)
56 Fernán Agüero
Threading: performance
Predicted model X-ray structure
57 Fernán Agüero
Threading: aplicaciones
• Predecir estructura
• Identificar homologías distantes
• Predecir función de proteínas con bajo grado de similitud con otras proteínas
58 Fernán Agüero
Threading: moldes
• Bases de datos representativas (no-redundantes)– Estructuras secundarias y formas de combinarlas– Idealmente de dominios, pero depende de que la
partición en dominios se haga correctamente
59 Fernán Agüero
Clases de plegamientos: all alpha
Cyt CGlobinsEF-hand
60 Fernán Agüero
Clases de plegamientos: all beta
• Plasminogen Activator
• Phospatidylinositol 3-kinase
• Beta-2-microglobulin
• Fibroblast Growth Factor
61 Fernán Agüero
Clases de plegamientos: alpha/beta
• PCNA
• Cytochrome P450
• Dehydrogenases (Rossman fold)
62 Fernán Agüero
Proteínas trans-membrana: clases
• Paquete de hélices (helix bundle)Largas extensiones de amino ácidos apolares.
• Plegamiento en -hélices trans-membrana. “Positive-inside rule”– Receptores de superficie– Canales iónicos– Transportadores activos y pasivos.
• Barriles Hojas anti-paralelas dispuestas en cilindro. – Membrana externa de Gram-negativas.– Porinas (difusión selectiva, pasiva).
63 Fernán Agüero
Bases de datos de clasificación de estructuras
• SCOP– Structural Classification of Proteins– http://scop.mrc-lmb.cam.ac.uk/scop– Basada en definición de similitud estructural a cargo
de expertos– Luego de clasificar por clase, SCOP clasifica
proteínas en una jerarquía que incluye: superfamilia, familia y fold
64 Fernán Agüero
Clasificación estructural de proteínas
• CATH– Classification by Class, Architecture, Topology and
Homology– http://www.biochem.ucl.ac.uk/bsm/cath– Clasifica por
• Clase (contenido de estructura 2daria)• Arquitectura (orientación gruesa de la estructura
secundaria)• Fold (topología fina)• Superfamilia (estructura y función similar)
– Utiliza SSAP (secondary structure alignment) para alinear estructuras
65 Fernán Agüero
CATH: catherine wheel
• C: Class level• A: Architecture level• T: Topology (fold-family)• H: Homologous superfamily• S: Sequence families
66 Fernán Agüero
Clasificación estructural de proteínas
• FSSP– Fold Classification based on Structure-Structure alignment of
Proteins– http://www.ebi.ac.uk/dali/fssp– Alineamiento estructural de todas las combinaciones posibles de
proteínas en la base de datos PDB• A nivel de dominios• Usa DALI (Distance alignment tool)
– Generación de un set no-redundante de folds– Cada fold está representado por un cluster de folds de estructura
similar– Valor estadístico Z, describe el grado en que los átomos comparten
posiciones estructurales similares• Z > 16 = muy buen alineamiento estructural• 8 < Z < 16 = buenos alineamientos• 2 < Z < 8 = pobres (2 es el límite de detección).
– 8320 PDB entries 947 estructuras representativas, 1484 dominios, 540 tipos de folds estructuralmente diferentes
67 Fernán Agüero
Alineamiento estructural: distance matrix
• Similar a dot-plots• Se hace un gráfico por proteína
– Cada posición en la grilla corresponde a la distancia entre los átomos C- correspondientes
– Las regiones con más alta densidad de átomos se resaltan dibujando un punto
• Se comparan las estructuras a través de estos gráficos– DALI (
68 Fernán Agüero
Alineamiento estructural: distance matrix
• Similar a dot-plots• Se hace un gráfico por proteína
– Cada posición en la grilla corresponde a la distancia entre los átomos C- correspondientes
– Las regiones con más alta densidad de átomos se resaltan dibujando un punto (< 12 Å)
• Se comparan las estructuras a través de estos gráficos– DALI (Distance Alignment Tool)
69 Fernán Agüero
DALI
• Ejemplo con 3 hélices
1. Identificación del patrón en la proteína A y búsqueda (scanning) del plot de la proteína B buscando similitudes
2. Las búsquedas se hacen en subplots (particiones del espacio de búsqueda)
3. Finalmente todas las similitudes se ensamblan (se remueven inserciones / deleciones y se reordenan las secuencias) para producir el alineamiento final
70 Fernán Agüero
DALI Server
• Comparacion de estructuras 3D– Query: coordenadas– Search against PDB
• http://www.ebi.ac.uk/dali
71 Fernán Agüero
Clasificación estructural de proteínas
• MMDB– Molecular Modelling Database– http://www.ncbi.nlm.nih.gov/Entrez– Proteínas en PDB agrupadas de acuerdo a similitud
estructural usando VAST (Vector Alignment Search Tool)
– Entrez provee ‘structural neighbors’ como links
72 Fernán Agüero
VAST
• Compara los tipos y ordenamientos de hélices y hojas entre y las maneras en que están conectadas.– Pocos tipos de elementos de
estructura secundaria
• La localización y dirección de estos elementos se describen con vectores
73 Fernán Agüero
Comparación de estructuras: VAST
Ricin Chain B
Step 1: Construct vectors for secondary structure elements
74 Fernán Agüero
Comparación de estructuras: VAST (cont.)
Paso 2: Obtener un alineamiento óptimo de los vectores estructurales.
1 2 3 4
5
1 2 3 4
1 2 3 4
1 2 3 4
2 3 4
5
1 2 3 4
1 3 4
5
1 2 3 41 2 3 4
1 2 3
5
1 2 3 4
Proteína 1 Proteína 2
Alineamiento 1 Alineamiento 2 Alineamiento 3 Alineamiento 4
75 Fernán Agüero
Comparación de estructuras: VAST (cont.)
Paso 3: refinar residuo por residuo el alineamiento
Ricin B (both domains)
Hisactophilin
76 Fernán Agüero
Double dynamic programming: SSAP
• Secuencias: cada caracter en la grilla es un aminoácido o una base
• Estructuras: cada caracter en la grilla es un vector– Describe el ambiente local de cada aminoácido
• Distancias interatómicas• Angulos de enlace• Cadenas laterales
• Se derivan vectores desde C-hacia otros aminoácidos– Vision geométrica desde un punto en la proteína
http://cathwww.biochem.ucl.ac.uk/cgi-in/cath/SsapServer.pl
77 Fernán Agüero
SSAP
• Se restan los vectores– Vector de F-E en proteína A– Menos– Vector de C-Q en proteína B
• Se hace dynamic programming (global) para todos los vectores
• Luego se itera:– Se cambia el centro al próximo aminoácido
(V), se generan los vectores, se calcula el mejor camino
• Finalmente se deriva una matriz de resultados– Los caminos compartidos suman sus
puntajes– Se hace dynamic programming sobre esta
matriz final para obtener el alineamiento
78 Fernán Agüero
SSAP
http://cathwww.biochem.ucl.ac.uk/cgi-in/cath/SsapServer.pl
79 Fernán Agüero
Alineamientos estructurales
• La estructura tridimensional de un dominio proteico se alinea en el espacio con la estructura 3D de un segundo dominio proteico
• Alineamiento de secuencias– descubrir similitud de secuencias (origen evolutivo común)
– Modela procesos evolutivos (mutación, inserción/deleción)
• Alineamiento de estructuras– descubrir similitud estructural
– Convergencia evolutiva
• Funcional (función idéntica o similar, estructuras diferentes)
• Estructural (estructura similar, función divergente)
• Alineamientos significativos entre estructuras no necesariamente indican origen evolutivo común.
80 Fernán Agüero
Alineamientos estructurales: loops
• La deleción de un loop ilustra la diferencia entre los dos tipos de alineamientos
PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS
PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS
PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS
ARG
GLU
ALA
CYS
81 Fernán Agüero
Predicción de estructura terciaria
• En Entrez todas las estructuras tienen una proteína asociada, lo cual facilita linkear una estructura a la base de datos de proteínas.
• En Entrez, si una proteína no tiene structure links, buscar los protein links relacionados. Luego buscar los structure links de todas estas secuencias relacionadas. Usando Cn3D (NCBI) se puede visualizar la estructura y el alineamiento de la secuencia inicial con la secuencia que tienen su estructura resuelta.
• Es también posible encontrar una estructura que pegue mejor a la proteína query.
82 Fernán Agüero
Proceso de predicción de estructura terciaria
Query Protein
Protein neighbours
Structure links
Structure neighbours of structures.
View in Cn3D
Ver en Cn3D, mejor match entre estructura y proteína query, dado que la similitud inicial era débil.
83 Fernán Agüero
SWISS-MODEL
• Servidor de modelado automatizado de proteínas automatizado.
• http://swissmodel.expasy.org/
Resultados por E-mail
Búsqueda BLAST para encontrar secuencias similares en PDB
Selecciona moldes con identidad > 25% y un modelo proyectado > 20 aa
Genera modelos
Minimiza energía
Genera archivo PDB para el nuevo modelo
84 Fernán Agüero
Gene 3D
• Base de datos de asignaciones estructurales pre-calculadas para proteínas en genomas completos
• http://www.biochem.ucl.ac.uk/bsm/cath/Gene3D/
85 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
Cuando todo lo demás no funciona! • Composición• Hidrofobicidad
86 Fernán Agüero
Panorama informativo
Nonpolar
Polar Neutral
Polar Basic
Polar Acidic
87 Fernán Agüero
Funciones comunes asociadas a distintos residuos
• C disulphide-rich, metallo-thionein,
zinc fingers• DE acidic proteins (unknown)• G collagens• H histidine-rich glycoprotein• KR nuclear proteins, nuclear
localisation• P collagen, filaments• SR RNA binding motifs• ST mucins
• Polar (C,D,E,H,K,N,Q,R,S,T) - active sites
• Aromatic (F,H,W,Y) - protein ligand-binding sites
• Zn+-coord (C,D,E,H,N,Q) - active site, zinc finger
• Ca2+-coord (D,E,N,Q) - ligand-binding site
• Mg/Mn-coord (D,E,N,S,R,T) - Mg2+ or Mn2+ catalysis, ligand binding
• Ph-bind (H,K,R,S,T) - phosphate and sulphate binding
88 Fernán Agüero
Parámetros físico-químicos
• Proteínas con los mismo parámetros físico-químicos, a menudo son aisladas juntas. – Gel Electrophoresis.– Iso-Electric focusing in pH Gradient.– 2D Gels– Mass Spectroscopy (o Time-of-flight spectroscopy, más precisa)
requiere masses of polypeptides• MALDI: espectroscopía de masa de péptidos trípticos.• Electrospray: producción de péptidos por ruptura física, seguida de
espectroscopía de masa. • Nano-electrospray: descompone peptidos en los aminoácidos
individuales. Requere composición de amino ácidos y peso molecular para identificar péptidos y proteínas.
• Parámetros clásicos.– pI teórico (punto isoeléctrico) – Peso molecular (Mass Spectroscopy. Con o sin modificaciones
post-traduccionales)– Composición aminoacídica. (Mass Spectroscopy)– Coeficiente de extinción
89 Fernán Agüero
Parámetros físico-químicos
• Proteinas con características físico-químicas similares pueden estar relacionadas. – motivos relacionados (contenido de aa similar)
• Distribución similar de amino ácidos polares o cargados. – Proteínas de trans-membrana. – Proteínas de membrana.– Proteínas de unión a DNA.– Hidrofóbicas o hidrofílicas.– Señales de localización.
90 Fernán Agüero
ProtParam
• Calcula parámetros físico-químicos. – Molecular weight– Theoretical pI (isoelectric point pH)– Amino acid composition– Extinction coefficient
• Query simple– SWISS-PROT accession number.– Secuencia ingresada por el usuario.
http://www.expasy.org/tools/protparam.html
91 Fernán Agüero
ProtParam query
MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKLKWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM...
Compute parameters
Number of amino acids: 727Molecular weight: 84936.8Theoretical pI: 5.44
Amino acid composition:
Ala (A) 35 4.8% Leu (L) 57 7.8%Arg (R) 39 5.4% Lys (K) 97 13.3%Asn (N) 28 3.9% Met (M) 25 3.4%Asp (D) 58 8.0% Phe (F) 18 2.5%Cys (C) 6 0.8% Pro (P) 39 5.4%Gln (Q) 36 5.0% Ser (S) 67 9.2%Glu (E) 98 13.5% Thr (T) 22 3.0%Gly (G) 26 3.6% Trp (W) 11 1.5%His (H) 11 1.5% Tyr (Y) 20 2.8%Ile (I) 18 2.5% Val (V) 16 2.2%
Asx (B) 0 0.0%Glx (Z) 0 0.0%Xaa (X) 0 0.0%
Total number of negatively charged residues (Asp + Glu): 156Total number of positively charged residues (Arg + Lys): 136
92 Fernán Agüero
PropSearch
• Utiliza la composición de amino ácidos para detectar relaciones entre proteínas.
• Puede ser utilizado para distinguir miembros de la misma familia de proteínas.
• 144 propiedades físicas se utilizan en el análisis (‘vector’)– Molecular weight– Bulky residue content– Average hydrophobicity and charge
• Búsquedas contra la ‘base de datos de vectores’(PIR and SWISS-PROT)http://www.infobiosud.univ-montp1.fr/SERVEUR/PROPSEARCH/propsearch.html
93 Fernán Agüero
PropSearch query
Rank ID DIST LEN2 POS1 POS2 pI DE_____________________________________________________________________________________________ 1 >p1;s18193 0.00 727 1 727 5.33 autoantigen NOR-90 - human 2 ubf1_human 1.36 764 1 764 5.62 NUCLEOLAR TRANSCRIPTION FACTOR 1 3 ubf1_mouse 1.40 765 1 765 5.55 NUCLEOLAR TRANSCRIPTION FACTOR 1 4 ubf1_rat 1.57 764 1 764 5.61 NUCLEOLAR TRANSCRIPTION FACTOR 1 5 ubf1_xenla 3.95 677 1 677 5.79 NUCLEOLAR TRANSCRIPTION FACTOR 1 6 ubf2_xenla 4.18 701 1 701 6.05 NUCLEOLAR TRANSCRIPTION FACTOR 2 7 >p1;s57552 7.72 606 1 606 6.63 hypothetical protein YPR018w - yeast 8 >p1;i50463 8.49 772 1 772 5.71 protein kinase - chicken 9 >p1;h54024 8.83 768 1 768 5.27 protein kinase (EC 2.7.1.37) cdc2-related 10 >p1;b54024 8.87 777 1 777 5.27 protein kinase (EC 2.7.1.37) cdc2-related 11 >p1;g54024 8.90 766 1 766 5.21 protein kinase (EC 2.7.1.37) cdc2-related 12 >p1;a55817 9.00 783 1 783 5.19 cyclin-dependent kinase p130-PITSLRE - mouse 13 >p1;f54024 9.11 777 1 777 5.30 protein kinase (EC 2.7.1.37) cdc2-related 14 >p1;e54024 9.11 779 1 779 5.42 protein kinase (EC 2.7.1.37) cdc2-related 15 yaa5_schpo 9.45 598 1 598 4.78 HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 16 >p1;s62449 9.45 598 1 598 4.78 hypothetical protein SPAC22G7.05 - fission 17 >f1;i58390 9.45 920 1 920 5.00 retinoblastoma binding protein 1 isoform I 18 >p1;s63193 9.58 590 1 590 6.15 hypothetical protein YNL227c - yeast 19 ynw7_yeast 9.58 590 1 590 6.15 HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 20 >p1;s49634 9.74 899 1 899 4.79 hypothetical protein YML093w - yeast 21 ymj3_yeast 9.74 899 1 899 4.79 HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 22 radi_human 9.76 583 1 583 6.33 RADIXIN. 23 radi_pig 9.81 583 1 583 6.21 RADIXIN (MOESIN B). 24 >f1;i78883 9.83 866 1 866 4.77 retinoblastoma binding protein 1 isoform II 25 >p1;b42997 9.87 754 1 754 5.17 retinoblastoma-associated protein 2 - human 26 >p1;a57467 9.91 647 1 647 5.74 RalBP1 - rat
>S18193 autoantigen NOR-90 - humanMNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKLKWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM...
Vector searchDIST Odds< 10 87.0%< 8.7 94.0%< 7.5 99.6%
94 Fernán Agüero
TGREASE
• Calcula la hidrofobicidad de una proteína – Distingue regiones putativas trans-membranas– Regiones putativas que formarían el core
hidrofóbico de una proteína globular– Parte del paquete FASTA (Pearson, U. Virginia)
95 Fernán Agüero
Protein sequence analysis
B LA ST
Gapped B LA ST
HomologySearches
Prof ileScan
B LOCK S
PSI-B LA ST
Prof ileA nalysis
Comparat ive M ethods
ProtParam
PropSearch
T GREA SE
PhysicalPropert ies
nnpredict
Pred ictProtein
SignalP
PHDtopology
V A ST
StructuralPropert ies
Predict ive M ethods
Protein Sequence
96 Fernán Agüero
Entender los resultados
Secuencia Resultados
Inspección