BioinformaticaBioinformaticaCorso di Laurea Specialistica in Biologia Cellulare e MolecolareCorso di Laurea Specialistica in Biologia Cellulare e Molecolare
Ricerca pattern e di motivi Ricerca pattern e di motivi funzionalifunzionali
8/5/20088/5/2008
Stefano Forte
Orario di ricevimentoOrario di ricevimento
• Stefano Forte
Lunedi e Mercoledi 10.00 – 11.00Ufficio 34 dipartimento di Matematica e Informatica (Sopra box bidelli)Tel. 095 7383082email: [email protected]
Ricerca di pattern e motivi funzionaliRicerca di pattern e motivi funzionali
• Data una nuova sequenza, cosa si puo’ dire della funzione da essa codificata?
• Ua volta evidenziata, tramite un allineamento multiplo, una regione altamente conservata e’ possibile identificare nuove sequenze che abbiano regioni simili?
• La ricerca di pattern studia l’organizzazione e il disegno di sistemi che riconoscono motivi e regolarita’ nei dati a disposizione
Definizione di un motivoDefinizione di un motivo
• Un motivo e’ definito come un insieme di caratteri (nucleotidi o aminoacidi) non necessariamente contigui in sequenza, che si trovano sempre o spesso associati ad una precisa struttura o funzione biologica.
• Una sequenza consenso e’ un tipico esempio di motivo
• I motivi possono essere rappresentati utilizzando le espressioni regolari. Queste sono formule che si possono usare per definire pattern testuali.
Le espressioni regolariLe espressioni regolari
• Le espressioni regolari sono composte da caratteri (nello stesso alfabeto su cui si definisce il pattern) e metacaratteri (altri caratteri a quali vengono attribuiti significati particolari.
• Esempi di metacaratteri. qualsiasi caratteri singolo* nessuna o piu’ occorrenze di qualsiasi carattere[abc] uno dei caratteri elencati dentrole parentesi$ fine stringa
Le espressioni regolariLe espressioni regolari
• Ad esempio, l’espressione regolare
C*TT.A$Identifica le stringhe:CGTTTATTCGTTCGTTTAACGTGTGGTGTTAA
Ma non
CTTGCA
Le espressioni regolari e i motiviLe espressioni regolari e i motivi
• Attraverso le espressioni regolari possiamo definire un motivo che identifica una o piu’ sequenze di caratteri.
• Le espressioni regolari specificano motivi di tipo deterministico: una sequenza puo’ contenere o non contenere il patter.
• Altre espressioni piu’ complesse possono specificare per motivi di tipo probabilistico, in cui esiste una certa associazione probabilistica tra un pattern e le sequenze associate ad una funzione
Motivi funzionali ideali e realiMotivi funzionali ideali e reali
• Un motivo funzionale e’ ideale se tutte le sequenze associate ad una funzione e soltanto le sequenze associate a quella funzione sono identificate dal motivo
• Il motivo funzionale e’ reale se identifica anche delle sequenze non associate a quella funzione o se esistono delle sequenze associate a quella funzione che non sono identificate dal motivo funzionale
Calcolare l’affidabilita’ di un motivoCalcolare l’affidabilita’ di un motivo
• Sensitivita’ =VP / (VP + FN)– Essa rappresenta la misura della proporzione di
sequenze della famiglia selezionate dal motivo
• selettivita’ = VP / (VP + FP)– Misura la proporzione di sequenze della famiglia
sul totale delle sequenze identificate dal motivo
• Specificita’ = VN / (VN + FP)– Misura la proporzione di sequenze che non fanno
parte della famiglia che non vengono selezionate dal motivo
ScanprositeScanprosite
PROSITE consists of documentation entries describing protein domains, families and functional sites as well as associated patterns and profiles to identify them.
The ScanProsite tool allows to scan protein sequence(s) against the PROSITE database. The user can provide either an UniProt Knowledgebase or Protein Data Bank (PDB) sequence identifier(s) (AC(s) or/and ID(s)) or a sequence(s) in fasta or UniProtKB format. By default the motifs to search for the occurrence are PROSITE patterns and profiles
The ScanProsite tool also allows to search for hits by specific motif(s) in protein sequence database(s).
ScanprositeScanprosite
Sintassi dei pattern di ScanprositeSintassi dei pattern di Scanprosite