16
SCAN PROSITE ExPASy proteomic tool

SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

Embed Size (px)

Citation preview

Page 1: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

SCAN PROSITE

ExPASy proteomic tool

Page 2: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

COS’E’ SCAN PROSITEÈ uno strumento di ExPASy molto utile nell’analisi di

proteine.Il principio su cui si basa è il fatto che se nella proteina

considerata è presente un dominio funzionale riscontrato anche in altre,è molto probabile che esso espleti una funzione simile in tutte.

FUNZIONI DI SCAN PROSITE• Riconosce i motivi che la “nostra” proteina ha in

comune con le altre del database PROSITE Cerca solo motivi e profili presenti in PROSITE

(database di domini di famiglie proteiche,costituito da pattern regolari che rappresentano siti biologici significativi,definiti lungo la sequenza proteica in modo contiguo.).

• Riconosce i motivi che la “nostra” proteina ha in comune con altre contenute in database di sequenze proteiche

I motivi ricercati possono essere quelli contenuti in PROSITE,in altri database(UniProtKB/Swiss-Prot di default,ma anche PDB o UniProtKB/TrEMBL) o forniti dall’utente,che li può creare grazie al programma PRATT.

• Grazie alle due funzioni precedenti permette di accrescere l’affidabilità delle predizioni funzionali di una proteina ignota

Si accede dalla pagina web di ExPASy,cliccando su Tools-Pattern and profile searches-Scan Prosite

Page 3: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

USI DI SCAN PROSITE : QUICK SCAN MODE

a) Analizzo una o più sequenze contro tutti i motivi di PROSITE

Incollo la mia sequenza,che può essere:

•Grezza (solo aa)

•In formato FASTA

•In formato UniProtKB

E poi clicco su “SCAN”

SEQUENCE(S) TO BE SCANNED

Page 4: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

USI DI SCAN PROSITE : QUICK SCAN MODE

b) Analizzo una sequenza di PDB o di

UniProtKB (Swiss-Prot o TrEMBL) contro tutti i motivi di PROSITE

• UniProtKB (Swiss-Prot and TrEMBL) AC and/or ID:

cliccando sul link mi si apre questa pagina che propone tools per la ricerca della proteina di mio interesse in UniProtKB

• PDB identifier(s)

Li incollo nella casella di testo e clicco su “SCAN”

Page 5: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

USO DI SCAN PROSITE:ADVANCED SCAN MODE

c)Analizzo UniProtKB (Swiss-Prot o TrEMBL) o PDB contro un particolare motivo di PROSITE

Motif(s) to scan for

Inserisco l’AC o l’ID che identifica il motivo di PROSITE da ricercare.

Poi clicco su “START SCAN”

Posso scegliere tra Swiss-Prot, TrEMBL,o PDB(o tutte e tre) da queste check box

Page 6: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

USO DI SCAN PROSITE:ADVANCED SCAN MODE

Cliccando sul link a PROSITE si apre la pagina del database,da cui è possibile ricercare il dominio voluto dall’apposito spazio “Search”

Per esempio si può digitare come parola chiave per la ricerca del dominio il termine “binding” e PROSITE fornisce la lista degli ID dei domini inerenti all’indicazione fornita

Page 7: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

USO DI SCAN PROSITE:ADVANCED SCAN MODE

d)Analizzo UniProtKB (Swiss-Prot o TrEMBL) contro un particolare pattern fornito dall’utente

Cliccando sull’opportuno link,si apre una pagina con le istruzioni sintattiche per creare un pattern:

3)Se in una posizione può esserci più di un aa,le alternative vengono indicate tra parentesi quadre. Es: [A,L,T]: c’è o Ala,o Lys o Thr

4)Se in una posizione possono esserci tutti gli aa tranne uno o alcuni,gli esclusi vengono indicati tra parentesi graffe. Es: {ALT}:ci possono essere tutti gli aa tranne Ala,Lys o Thr

5)Ogni elemento del pattern è separato dagli altri da un trattino

6)Se un elemento del pattern è ripetuto,il numero di ripetizioni è indicato tra parentesi tonde. Es: A(2)=A – A

7)Quando un pattern si riferisce all’N terminale della proteina,si indica con “<“ prima dell’inizio del pattern; se invece si riferisce al C terminale si indica con “>” alla fine del pattern.

8) Per cercare una sequenza che non contenga un certo aa, per es. La Cys,si scrive : <{C}*>

1)Per identificare un aa si usa la nomenclatura IUPAC con codice di una lettera (es: A=Ala…)

2)Il simbolo “x” è usato per indicare che in una posizione può esserci qualsiasi aa

Page 8: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

USO DI SCAN PROSITE:ADVANCED SCAN MODE

Nella parte della schermata del tool dedicata ai motivi da ricercare,è possibile utilizzare un’opzione di non poca importanza nello studio di proteine: quella che permette di randomizzare i database.

Essa permette di cercare un pattern contro un database casuale,per testare la sua specificità.

Questa operazione di randomizzazione può essere fatta con due metodi (e solo contro pattern,non contro profili)

• REVERSE SEQUENCES : randomizza prendendo al contrario la sequenza in entrata (sconsigliato in caso di sequenze palindrome o ricche in un determinato aa )

• SHUFFLE : randomizza prendendo a caso i residui in una finestra di 20 aa

ALTRE OPZIONI DEI MOTIVI DA RICERCARE:

•Posso includere varianti di splicing

•Posso escludere frammenti

•Posso mettere filtri alla ricerca per quanto riguarda l’organismo in cui ricercare i motivi (es:E. coli, Homo sapiens…) oppure la descrizione della proteina (es: proteasi,ligasi…)

•Posso selezionare il numero massimo di X che si appaiano con residui conservati

Page 9: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

PATTERN MATCHING MODE

Ci sono tre parametri che possono essere scelti per condizionare il comportamento del meccanismo di pattern matching:

• GREED(:ingordigia) : estende alla massima lunghezza gli elementi del pattern

• OVERLAP (:sovrapposizione) :permette matches parzialmente sovrapposti

• INCLUDE (:includere) : permette matches inclusi l’uno nell’altro (implica sovrapposizione)

Di default il pattern matching mode scelto è quello GREEDY (permette overlap ma non include)

Match mode: greed,overlap o include

Page 10: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

PATTERN MATCHING MODE

Esempio:Esempio:Sequenza: ABACADAEAFAPattern: A-X(1,3)-A• Greed:1,overlap:1,include:0 : 4 matches ABACADAEAFA ooooo...... ..ooooo.... ....ooooo.. ......ooooo • Greed=1, overlap=0 : 2 matches ABACADAEAFA ooooo...... ......ooooo • Greed=0, overlap=0 : 3 matches ABACADAEAFA ooo........ ....ooo.... ……..ooo

• Greed=1, overlap=1, include=1 : 5 matches ABACADAEAFA ooooo...... ..ooooo.... ....ooooo.. ......ooooo ........ooo • Greed=0, overlap=1, include=0 or 1 : 5

matches ABACADAEAFA ooo........ ..ooo...... ....ooo.... ......ooo.. ........ooo

Page 11: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

OUTPUT: FORMATO

L’output può presentarsi in diversi formati,che possono essere scelti dalla lista presente sotto la voce “OUTPUT”.

• Graphical rich view : in HTLM viene visualizzata una rappresentazione grafica delle hits sulla proteina in input e delle predizioni delle caratteristiche; le immagini possono essere scaricate.

• Simple HTLM output : semplice visualizzazione HTLM dei risultati senza alcuna rappresentazione grafica

• Plain text output: visualizzazione solo testuale,senza alcun link HTLM

• Plain text fasta output : visualizzazione solo testuale in formato fasta; ogni hit è mostrata come una sequenza in formato fasta dove il titolo della sequenza stessa è :

“>[matched protein]/[hit start]-[hit stop]/[matching PROSITE motif]/score(solo per profili)/confidence level tag(in ogni caso)”.

Page 12: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

OUTPUT: OPZIONI

Dalla prima check box posta sotto la casella di testo,posso decidere di escludere dalla ricerca tutti i motivi con alta probabilità di essere presenti,così da poter visualizzare in output solo i motivi più peculiari.

• i suddetti domini verranno segnalati dalla scritta “OCCURS FREQUENTLY” nel simple HTLM/text output

• I suddetti domini verranno elencati sotto la dicitura “HITS BY FREQUENTLY OCCURRING PROFILES” nel formato rich view

Dalla seconda check box posso invece decidere di analizzare la sequenza in input solo contro i pattern di PROSITE,ma non contro i motivi. Di default questa casella è in stato OFF,ma si può attivarla con il tick,solo nel caso in cui si lanci una ricerca contro tutti i motivi di PROSITE.

Page 13: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

OUTPUT: OPZIONI

SHOW LOW LEVEL SCORE

Mostra le hit più deboli dal punto di vista del punteggio,che è sotto una determinata soglia (cut-off)

I profili di PROSITE hanno almeno 2 livelli di cut off:• Livello 0 : cut off affidabile• Livello -1 : cut off border line che produce più falsi positivi

In questo caso usa il livello -1. Nel risultato le hit deboli vengono segnalate.• Con la dicitura “hits with a low confidence level (-1)” nel formato rich view• Con la dicitura “low confidence” nel simple HTLM/text output.

SHOW ONLY SEQUENCES WITH AT LEAST X HITS

Nel risultato vengono mostrate le proteine per cui si trovano hit almeno X volte.

Il valore di X applicato di default è 1.

MAXIMUM OF MATCHED SEQUENCES

Il numero massimo di proteine diverse che sono mostrate in output. Il valore di default è 1000. Se il valore supera quellodi default,l’output non può più essere mostrato all’interno del web browser,ma il risultato sarà spedito via mail.

RETRIEVE COMPLETE SEQUENCES

Aggiunge la sequenza della proteina alle informazioni sulle proteine mostrate in output. Di default non è attivo.

N.B: Nell’output in formato fasta,la sequenza completa della proteina soppianterebbe la sequenza del match; e inoltre l’output in formato rich view verrebbe trasformato in HTLM text perché il rich view non mostra la retrieve sequence

Page 14: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

OUTPUT: OPZIONI

Formato output

Show only sequences with at least X hits

Max of matched sequence

Retrieve complete sequence

E mail Show low level score

Page 15: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

OUTPUT RICH VIEW: CARATTERISTICHE

Per ogni match viene fornita un’immagine scaricabile del risultato.

• I profili sono rappresentati come forme colorate con il loro nome di PROSITE

• I pattern come barre colorate senza testo

Se c’è un overlap tra più matches, questo è rappresentato con un’ulteriore barra,o,se rappresentato sulla stessa (- del 10% di overlap), delle linee verticali indicheranno l’inizio e la fine dell’overlap.

• Per alcuni profili sono aggiunte anche delle caratteristiche biologiche,come ponti disolfuro,siti attivi, altri siti importanti ecc…

Page 16: SCAN PROSITE ExPASy proteomic tool. COSE SCAN PROSITE È uno strumento di ExPASy molto utile nellanalisi di proteine. Il principio su cui si basa è il

ESEMPIO

Output per la proteina “fascina”, una proteina che lega l’actina e interviene nei processi di motilità e riproduzione cellulare e nella costruzione del citoscheletro.

Non escludendo i motivi con alta frequenza,di cui questa proteina è ricca, in output ho la rappresentazione dei vari siti di interesse all’interno della proteina:

• ASN_GLYCOSYLATION   N-glycosylation site

•MYRISTYL   N-myristoylation site

•PKC_PHOSPHO_SITE   Protein kinase C phosphorylation site

•CK2_PHOSPHO_SITE   Casein kinase II phosphorylation site

•TYR_PHOSPHO_SITE   Tyrosine kinase phosphorylation site

•CAMP_PHOSPHO_SITE   cAMP- and cGMP-dependent protein kinase phosphorylation site

Viene mostrata la sequenza query,con evidenziata la parte interessata da un particolare motivo.