Transcript
Page 1: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

BioinformaticaBioinformaticaCorso di Laurea Specialistica in Biologia Cellulare e MolecolareCorso di Laurea Specialistica in Biologia Cellulare e Molecolare

Ricerca pattern e di motivi Ricerca pattern e di motivi funzionalifunzionali

8/5/20088/5/2008

Stefano Forte

Page 2: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

Orario di ricevimentoOrario di ricevimento

• Stefano Forte

Lunedi e Mercoledi 10.00 – 11.00Ufficio 34 dipartimento di Matematica e Informatica (Sopra box bidelli)Tel. 095 7383082email: [email protected]

Page 3: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

Ricerca di pattern e motivi funzionaliRicerca di pattern e motivi funzionali

• Data una nuova sequenza, cosa si puo’ dire della funzione da essa codificata?

• Ua volta evidenziata, tramite un allineamento multiplo, una regione altamente conservata e’ possibile identificare nuove sequenze che abbiano regioni simili?

• La ricerca di pattern studia l’organizzazione e il disegno di sistemi che riconoscono motivi e regolarita’ nei dati a disposizione

Page 4: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

Definizione di un motivoDefinizione di un motivo

• Un motivo e’ definito come un insieme di caratteri (nucleotidi o aminoacidi) non necessariamente contigui in sequenza, che si trovano sempre o spesso associati ad una precisa struttura o funzione biologica.

• Una sequenza consenso e’ un tipico esempio di motivo

• I motivi possono essere rappresentati utilizzando le espressioni regolari. Queste sono formule che si possono usare per definire pattern testuali.

Page 5: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

Le espressioni regolariLe espressioni regolari

• Le espressioni regolari sono composte da caratteri (nello stesso alfabeto su cui si definisce il pattern) e metacaratteri (altri caratteri a quali vengono attribuiti significati particolari.

• Esempi di metacaratteri. qualsiasi caratteri singolo* nessuna o piu’ occorrenze di qualsiasi carattere[abc] uno dei caratteri elencati dentrole parentesi$ fine stringa

Page 6: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

Le espressioni regolariLe espressioni regolari

• Ad esempio, l’espressione regolare

C*TT.A$Identifica le stringhe:CGTTTATTCGTTCGTTTAACGTGTGGTGTTAA

Ma non

CTTGCA

Page 7: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

Le espressioni regolari e i motiviLe espressioni regolari e i motivi

• Attraverso le espressioni regolari possiamo definire un motivo che identifica una o piu’ sequenze di caratteri.

• Le espressioni regolari specificano motivi di tipo deterministico: una sequenza puo’ contenere o non contenere il patter.

• Altre espressioni piu’ complesse possono specificare per motivi di tipo probabilistico, in cui esiste una certa associazione probabilistica tra un pattern e le sequenze associate ad una funzione

Page 8: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

Motivi funzionali ideali e realiMotivi funzionali ideali e reali

• Un motivo funzionale e’ ideale se tutte le sequenze associate ad una funzione e soltanto le sequenze associate a quella funzione sono identificate dal motivo

• Il motivo funzionale e’ reale se identifica anche delle sequenze non associate a quella funzione o se esistono delle sequenze associate a quella funzione che non sono identificate dal motivo funzionale

Page 9: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

Calcolare l’affidabilita’ di un motivoCalcolare l’affidabilita’ di un motivo

• Sensitivita’ =VP / (VP + FN)– Essa rappresenta la misura della proporzione di

sequenze della famiglia selezionate dal motivo

• selettivita’ = VP / (VP + FP)– Misura la proporzione di sequenze della famiglia

sul totale delle sequenze identificate dal motivo

• Specificita’ = VN / (VN + FP)– Misura la proporzione di sequenze che non fanno

parte della famiglia che non vengono selezionate dal motivo

Page 10: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

ScanprositeScanprosite

PROSITE consists of documentation entries describing protein domains, families and functional sites as well as associated patterns and profiles to identify them.

The ScanProsite tool allows to scan protein sequence(s) against the PROSITE database. The user can provide either an UniProt Knowledgebase or Protein Data Bank (PDB) sequence identifier(s) (AC(s) or/and ID(s)) or a sequence(s) in fasta or UniProtKB format. By default the motifs to search for the occurrence are PROSITE patterns and profiles

The ScanProsite tool also allows to search for hits by specific motif(s) in protein sequence database(s).

Page 11: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

ScanprositeScanprosite

Page 12: Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte

Sintassi dei pattern di ScanprositeSintassi dei pattern di Scanprosite