Motivi Funzionali
Identificare la funzione di una sequenza cercando motivi conservati
Motivi e proteineDomini proteici
Motivi funzionali
Sequenze segnale
ABCA2_HUMAN/1641-1652 C t C s a q g t G f s CABCA2_MOUSE/1641-1652 C t C s a q g t G f s CABCA2_RAT/1641-1652 C t C s a q g t G f s CADA11_HUMAN/698-709 C i C q p d w t G k d CADA11_MOUSE/702-713 C i C q p d w t G k d CADA11_XENLA/381-392 C i C h p e w t G k d CADA22_HUMAN/700-711 C v C n r h w i G s d CADA22_MOUSE/698-709 C v C n r h w t G a d CADA22_XENLA/701-712 C i C d r f w t G e d CADA23_HUMAN/757-768 C i C d f t w a G t d CADA23_MOUSE/754-765 C i C d f t w a G t d CADAM8_MOUSE/346-357 C y C p e p r e G g g CADP1_YEAST/79-90 C e C i e g f a G d d C
CONSENSUS C x C x x x x x G x x C
Consensus Allineamento multiplo domini EGF-like
Ricerca di un motivo
CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD
CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD
CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD
CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD
………………ACCKCFOWEGGPVCLDSFFEKVOD
ASCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC+=
CxCxxxxxGxxCACCKCFOWEGGPVCLDSFFEKVOD
Ricerche in banche daticon un motivo
UNIPROT CxCxxxxxGxxC
Ricerca
ID Organismo
Sequenza
RPD2_HUMAN
Human MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP
FFS_MOUSE Mouse MKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL
RHA_MOUSE Mouse ASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF
GCN4_YEAST Yeast LNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA
RAS_HUMAN Human LNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS
… … …
Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, …
Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN, …
Veri/Falsi Positivi/Negativi
Ha un dominio EGF ?
1 No
2 Si
3 No
4 Si
5 No
6 No
7 Si
8 No
9 No
Sequenza Consensus
FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYH
Negativo
KAKLAEQCECYDECWGACYYKMKGDYH Positivo
FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDF
Negativo
MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYH
Positivo
MKKVASMDVELTVENLLSVAYKDFLEKH Negativo
FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNF
Positivo
ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA
Negativo
LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUI
Negativo
FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNAS
Negativo
Risultato
Vero
Vero
Vero
Vero
Vero
Falso
Falso
Vero
Vero
Veri/Falsi Positivi/Negativi
Positivo Negativo
Vero Vero
Falso Falso
Raccolgo pomodori nell’ortoPrendendo tutto quello che èdi colore rosso.
Sensitività del motivoQuanti pomodori sono riuscito ad identificare?
---------+
13= ------ = 0.81 13 + 3
VP= --------- VP + FN
Selettività del motivoQuanti ortaggi scelti sono veramente pomodori?
---------+
13= ------ = 0.65 13 + 7
VP= --------- VP + FP
C t C s a q G t G f s CC i C q p d W t G k d DC i C q p d W t G k d DC i C h p e G t G K d CC v C n r h W i G S d C
C i C d r f W t A E d CC i C d f t W a A T d CC i C d f t W a A t d CC y C p e p R e G g g CC e C i e g F a G d d C
C x C x x x X x X x x X
Scelta del Motivo Migliore
C t C s a q G t G f s CC i C q p d W t G k d DC i C q p d W t G k d DC i C h p e G t G K d CC v C n r h W i G S d C
C i C d r f W t A E d CC i C d f t W a A T d CC i C d f t W a A t d CC y C p e p R e G g g CC e C i e g F a G d d C
C x C x x x X x G x x C
C t C s a q G t G f s CC i C q p d W t G k d DC i C q p d W t G k d DC i C h p e G t G K d CC v C n r h W i G S d C
C i C d r f W t A E d CC i C d f t W a A T d CC i C d f t W a A t d CC y C p e p R e G g g CC e C i e g F a G d d C
C x C x x x G x G x x C
EGF-like
NOEGF-like
Motivo
Sensitività 100%Selettività 50%
Sensitività 60%Selettività 60%
Sensitività 40%Selettività 100%
Coefficiente di Correlazione
VP*VN – FN*FP-------------------------------------------------------
Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP)
Banche dati di motivi
Funzione Consensus
Sito di N-glicosilazione N.S
Sito di fosforilazione S.R
Motivo di legame all’ATP G....GKS
Motivo di legame al calcio
R..R..D
Dominio EGF C.C.....G..C
Zinc finger C......C...C....C......C
Cerniera di Leucine L......L......L......L
… …
Annotare una sequenza
Banca dati
di motiviRicerca
ASCKCFOWEGGPVCLDSFFEKVOD
ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE
Sito di N-glicosilazione Sito di legame al calcioSito di fosforilazione
Ricerche con Motivi
Banca dati di motivi Ricerca
ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE
Sito di N-glicosilazione Sito di legame al calcioSito di fosforilazione
Funzione Motivo
Sito di N-glicosilazione
N.S
Sito di fosforilazione S.R
Motivo di legame all’ATP
G....GKS
Motivo di legame al calcio
R..R..D
Dominio EGF C.C.....G..C
Zinc finger C......C...C....C......C
Cerniera di Leucine L......L......L......L
… …
ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE
Sequenza sconosciuta
Espressioni regolari
VLHSCDAICWTNLKIIHSCLAECWRQVSGVHTCLIDCWSNIRAAHTCAAECWTLVRVLHTCAAECWTLVR HTC...CW S
H-[ST]-C-X-X-X-C-W
H-[S,T]-C-X(3)-C-W
Posizioni con più possibilità = [A,C,D, …]
Posizioni ripetute = (n)
Ripetizioni variabili
GVHTCLCWSNIR
VLHSCDAICWTNLK
IIHSCLAAAECWRQVS
H-[ST]-C-X(1,5)-C-W
Numero variabile di ripetizioni = (i, j)
H-[ST]-C-X-C-W ?
H-[ST]-C-X-X-X-C-W ?
H-[ST]-C-X-X-X-X-X-C-W ?
GVHTCL----CWSNIRVLHSCD--AICWTNLKIIHSCLAAAECWRQVS
?
Matrici posizionali di peso
L H S C D A D C TI H T C L A E C SV H T C L I D C SA H T C A A E C TL H T C A A E C T
Position
Specific
Scoring
Matrix
[LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]
AA 0.20.2 0.40.40.80.8CC 1.01.0 1.01.0DD 0.20.2 0.40.4EE 0.60.6HH 1.01.0II 0.20.2 0.20.2LL 0.40.4 0.40.4SS 0.20.2 0.40.4TT 0.80.8 0.60.6VV 0.20.2
Logo di sequenzaAA 0.20.2 0.40.4 0.80.8CC 1.01.0 1.01.0DD 0.20.2 0.40.4EE 0.60.6HH 1.01.0II 0.20.2 0.20.2LL 0.40.4 0.40.4SS 0.20.2 0.40.4TT 0.80.8 0.60.6VV 0.20.2
Altezza = log2 (20) - F * log2 (F) = 4.32 - F * log2 (F)
Punteggio con PSSM
AA 0.20.2 0.40.40.80.8CC 1.01.0 1.01.0DD 0.20.2 0.40.4EE 0.60.6HH 1.01.0II 0.20.2 0.20.2LL 0.40.4 0.40.4SS 0.20.2 0.40.4TT 0.80.8 0.60.6VV 0.20.2
A H T C A A D C S Sequenza
Position
Specific
Scoring
Matrix
AG… W Y …0.0081920.2x 1.0x 0.8x 1.0x 0.4x 0.8x 0.4x 1.0x 0.4=
Attesi per casoAA 0.250.25 0.330.33 0.50.5
CC 1.01.0 1.01.0
DD 0.330.33 0.50.5
EE 0.50.5
HH 1.01.0
II 0.250.25 0.50.5
LL 0.250.25 0.330.33
SS 0.50.5 0.50.5
TT 0.50.5 0.50.5
VV 0.250.25
Log-Odds
AA -1-1 +1+1 +2+2CC 00 00DD -2-2 -1-1EE +1+1HH 00II -1-1 -4-4LL +2+2 +1+1SS -4-4 -1-1TT +2+2 +1+1VV -1-1
A H T C A A D C S-1 +0 +2 +0 +1 +2 -1 0 -1
Sequenza
Position
Specific
Scoring
Matrix
AG… W Y …= +2
Punteggio = 10*log(osservati/attesi)
T in posizione 3 = 10*log(0.8/0.5) = +2.041… = +2
Ricerca PSSM su sequenza
Ricerca Espressione regolare
[LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]
AA -1-1 +1+1 +2+2CC 00 00DD -2-2 -1-1EE +1+1HH 00II -1-1 -4-4LL +2+2 +1+1SS -4-4 -1-1TT +2+2 +1+1VV -1-1
TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ
TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ
TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ
+5 -13
TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ
Calcolo punteggio PSSM
Scelta motivi più alti del volore soglia
PSSM > -2 = POSITIVIPSSM > -2 = POSITIVIPSSM < -2 = NEGATIVIPSSM < -2 = NEGATIVI
PositiPositivava
Curve Roc% Veri positivi
100%
75%
50%
25%
% Falsi positivi
100%75%50%25%
Random
Motivo efficiente
Motivo poco efficiente
*
**
Ricerca con allineamentoL H S C D A D C TI H T C L A E C SV H T C L I D C SA H T C A A E C TL H T C A A E C T
… A V H Y A L I D C T G W H …
AllineamentoMultiplo
Sequenza
/5 = Punteggio sequenza
?
VL HH YS AC LD … …VI HH YT AC LL … …VV HH YT AC LL …VA HH YT AC LA …VL HH YT AC LA …
P1+P2+P3+P4+P5+P6+P7+P8+P9
Profilo di un allineamentoL H S D C A D C TI H T L C A E C SV H T L C I D C SA H T A C A E C TL H T A C A E C T
1 2 3 4 5 6 7 8 9AACCDDEE…………TTVVWWYY--
AllineamentoMultiplo
=(CD+CL+CL+CA+CA)/5
=(ED+EL+EL+EA+EA)/5
Ricerca con profilo
Profilo
1 2 3 4 5 6 7 8 9AACCDDEEFFGGHH……WWYY--
…… AA KK RR HH FF CC CC WW EE -- EE GG WW HH ……Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G
** **
** ****
****
**
**
PSI- BLASTSequenza sconosciuta
AllineamentoMultiplo
Profilo dell’allineamento
BLAST
CostruzioneProfilo
Ciclo N’ 2Nuove SequenzeOmologhe
CostruzioneAllineamento
Multiplo
Banche dati di sequenze
SequenzeOmologhe
Ciclo N’ 3Nuove SequenzeOmologhe
+
Ciclo N’ ………
+
+
Analisi di sequenze
Sequenza sconosciuta Sequenz
a annotata
Albero filogenetico Allineamento
Multiplo
Motivo Funzionale
SequenzeSimili
Matrice di distanze
Banche dati di sequenze
Banche dati di Motivi
CLUSTALW
BLASTFASTA
Smith & Waterman
Ricerca con Motivi
UPGMA
CostruzioneMotivi
Analisi
FamigliaSequenzeOmologhe