7

Click here to load reader

RICERCA DI PATTERN E DI MOTIVI - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Ricerca... · filtro che escluda le sequenze ripetitive dall'analisi; molti programmi

  • Upload
    vukhanh

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: RICERCA DI PATTERN E DI MOTIVI - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Ricerca... · filtro che escluda le sequenze ripetitive dall'analisi; molti programmi

1

RICERCA DI PATTERN E DI MOTIVI

Uno dei primi scopi della biologia computazionale consiste nel rispondere alla

domanda: data una nuova sequenza, cosa si può dire sulla funzione, o sulle funzioni,

in essa codificata?

Sono disponibili vari strumenti, ognuno caratterizzato da limiti di applicabilità e

affidabilità ben precisi. Il più valido strumento attualmente a disposizione è una

ricerca per similarità di sequenza in una banca dati di acidi nucleici o di proteine

(vista nel capitolo precedente). Se tale ricerca non porta all'identificazione di geni o

proteine simili e già caratterizzati, bisogna necessariamente utilizzare altri strumenti,

altrettanto potenti anche se talvolta, meno affidabili: la ricerca di pattern e di motivi

funzionali.

La ricerca di pattern (pattern recognition) è un'importante area di ricerca

dell'informatica e della fisica applicata. Tale branca di ricerca studia l'organizzazione

e il disegno di sistemi che riconoscano motivi e regolarità nei dati a disposizione.

DEFINIZIONE DI MOTIVO

Un motivo di interesse biologico è costituito da un insieme di caratteri nucleotidi o

residui amminoacidici non contigui in sequenza, ma che si trovino sempre o spesso

associati a una precisa struttura o funzione biologica.

I motivi possono essere codificati in semplici espressioni regolari o con

allineamenti, consensus, profili, matrici, e Hidden Markov Models).

Le espressioni regolari sono formule che si possono usare per definire pattern

testuali utilizzando le lettere dell’alfabeto e meta-caratteri, quali per es. < $ + * [ { ( )

?. ai quali è associata una determinata funzione.

La sequenza consensus riporta in ogni posizione la base più rappresentata in un

allineamento di sequenze che sicuramente codificano la funzione. Le sequenze

consensus sono molto utili dal punto di vista mnemonico, ma il loro contenuto

informativo non è sufficiente a identificare in modo univoco tutte e sole le sequenze

che possiedono la funzione ad esse associata.

Un motivo funzionale è ideale se può sempre e univocamente essere associato a una

precisa struttura o funzione. Nella realtà invece molti motivi si trovano anche in

sequenze che non presentano la funzione specificata e sono assenti in sequenze che

invece sono funzionalmente correlate al motivo.

Un ramo importante della bioinformatica si occupa di sviluppare metodi per il

riconoscimento di pattern di interesse biologico e di curare banche dati in cui tali

Page 2: RICERCA DI PATTERN E DI MOTIVI - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Ricerca... · filtro che escluda le sequenze ripetitive dall'analisi; molti programmi

2

pattern siano organizzati e resi disponibili per l'analisi strutturale e funzionale di

nuove sequenze.

RICERCA DI PATTERN E DI MOTIVI

FUNZIONALI IN SEQUENZE NUCLEOTIDICHE

E PROTEICHE

Non ci sono stumenti che possano essere utilizzati indifferentemente per l'analisi di

qualsiasi tipo di sequenza nucleotidica. Nello studio dei segnali importanti per

l'identificazione di singoli geni, ci sono alcuni punti fondamentali che devono essere

considerati:

per tutte le sequenze, ma soprattutto per quelle eucariotiche, è necessario un

filtro che escluda le sequenze ripetitive dall'analisi;

molti programmi per la ricerca di pattern di nucleotidi vengono sviluppati per

un unico organismo o per un numero limitato di organismi simili;

alcuni programmi sono sviluppati solo per sequenze genomiche o,

alternativamente, per cDNA.

Spesso per l'analisi di un'unica sequenza di DNA è necessario utilizzare diversi

strumenti che utilizzino vari tipi di informazione, perché l'uso di un solo tipo di dati

non sarebbe sufficiente a ottenere una predizione sicura della funzione.

Spesso l'informazione per identificare un segnale in una sequenza di DNA è

codificata in una consensus. Talvolta le informazioni vengono invece raccolte in

espressioni regolari o in matrici posizionali di peso (PWMs: Position Weight

Matrices), matrici in cui viene associato un punteggio proporzionale alla frequenza di

ogni nucleotide presente a ogni possibile posizione della sequenza segnale

considerata.

Come già visto la maggior parte delle proteine note può essere raggruppata in un

numero relativamente limitato di famiglie sulla base della similarità di sequenza. In

generale, inoltre, le proteine appartenenti a una stessa famiglia condividono attributi

funzionali e/o strutturali derivanti da un progenitore comune. Dallo studio degli

allineamenti multipli delle sequenze appartenenti a una stessa famiglia di proteine è

evidente che alcune regioni sono più conservate di altre. Queste regioni sono in

generale importanti per la funzione o per la struttura di una proteina.

Inoltre è importante notare che, mentre gli acidi nucleici sono composti da sequenze

di 4 caratteri, le sequenze proteiche sono formate da 20 diversi residui aminoacidici.

Se ne deduce che motivi proteici, anche corti, hanno un contenuto informazionale

sempre maggiore di quello relativo a un motivo di nucleotidi della stessa lunghezza.

In rete si trova la banca dati PROSITE per l'individuazione di motivi funzionali.

Page 3: RICERCA DI PATTERN E DI MOTIVI - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Ricerca... · filtro che escluda le sequenze ripetitive dall'analisi; molti programmi

3

PROSITE è stata a lungo l'unico strumento in grado di stabilire la funzione di una

proteina. In Prosite ogni motivo è catalogato insieme con un’approfondita

documentazione di carattere bibliografico e a informazioni sulla sensitività e

specificità del motivo stesso.

La banca dati PROSITE contiene motivi codificati in due modi diversi: i pattern e le

matrici. I pattern sono motivi definiti con una sintassi riconducibile a espressioni

regolari. Le matrici sono invece definite facendo ricorso alle matrici posizionali di

peso. La sintassi usata è molto flessibile e consente l'utilizzo di altri descrittori di

motivi, compresi gli Hidden Markov Models che saranno trattati nel prossimo

paragrafo.

CATENE DI MARKOV E HIDDEN MARKOV

MODELS (HMM)

Le catene di Markov sono semplici successioni di numeri o di caratteri in cui

l’identità di un elemento dipende solo dall’identità degli elementi precedenti.

Le catene di Markov possono essere utilizzate per calcolare il numero atteso di

occorrenze di una certa stringa oligonucleotidica.

Schema superiore : Rappresentazione grafica di una catena di Markov, in cui ogni elemento

dipende dall’elemento precedente. Possibili sequenze di stati generate da questa catena di Markov:

1234; 234; 14; 12121214; 21234.

Page 4: RICERCA DI PATTERN E DI MOTIVI - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Ricerca... · filtro che escluda le sequenze ripetitive dall'analisi; molti programmi

4

Schema inferiore: Catena di Markov con probabilità di transizione. La probabilità che una

determinata successione di stati venga generata è data dal prodotto delle varrie probabilità di

transizione che si succedono nel corso dell'emissione.

Le catene di Markov nascoste (Hidden Markov Models o HMM) sono composte da

un certo numero di stati che possono, per esempio, corrispondere a residui di una

sequenza, a colonne di un allineamento multiplo oppure a posizioni in una struttura

proteica tridimensionale. I vari stati sono interconnessi tramite precise probabilità di

transizione. La sequenza di stati è una catena di Markov, in quanto la scelta

dell'elemento successivo dipende dallo stato attuale. Gli stati sono però nascosti da

cui il nome Hidden Markov Models.

Gli HMM sono strettamente correlati alle reti neurali, in quanto ne rappresentano

una particolare realizzazione. Un semplice esempio di HMM è riportato nella figura

sottostante. I due riquadri in colore rappresentano stati dell'HMM in grado di

emmettere nucleotidi, con le loro probabilità.

I riquadri a sinistra e a destra rappresentano gli stati iniziale (I) e finale (F) e le

probabilità di transizione da uno stato all'altro sono riportate accanto alle frecce che li

uniscono. Questo semplice esempio presenta solo due stati nascosti completamente

interconnessi e non l'HMM che più frequentemente viene usato nelle applicazioni

biologiche.

Catena di Markov che genera sequenze di acidi nucleici

Gli Hidden Markov Models sono, quindi, strutture computazionali utilizzate per

descrivere pattern precisi che definiscono le famiglie di sequenze omologhe. Gli

HMM sono strumenti potenti per identificare correlazioni lontane e per predire i

Page 5: RICERCA DI PATTERN E DI MOTIVI - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Ricerca... · filtro che escluda le sequenze ripetitive dall'analisi; molti programmi

5

pattern di ripiegamento delle proteine. Essi sono gli unici metodi basati interamente

su sequenze (che cioè non utilizzano esplicitamente informazioni strutturali) che

possono competere con PSI-BLAST nell'identificare omologie lontane. Gli HMM

forniscono buone prestazioni anche a livello di riconoscimento dei motivi di folding,

come dimostrato nei programmi CASP.

All'interno di un HMM, si trova un allineamento multiplo di sequenza. Tuttavia, gli

HMM vengono solitamente presentati come procedure per produrre sequenze. Anche

una tabella convenzionale di allineamenti multipli di sequenze può essere utilizzata

per produrre sequenze, selezionando gli aminoacidi in posizioni successive, ciascuno

dei quali viene scelto a partire da una distribuzione di probabilità posizione-specifica

ottenuta da un profilo. Tuttavia, gli HMM hanno un carattere più generale rispetto ai

profili.

1. Essi comprendono la possibilità di introdurre dei gap nelle sequenze prodotte, con

delle penalità che dipendono dalla posizione del gap stesso.

2. L'applicazione dei profili richiede che l'allineamento multiplo di sequenza sia

specificato preliminarmente; i pattern statistici vengono successivamente dedotti

dagli allineamenti. Gli HMM eseguono l'allineamento e l'assegnazione delle

probabilità contemporaneamente

La struttura interna di un HMM mostra il meccanismo utilizzato per produrre le

sequenze (vedi Figure). Cominciate da i "Inizio" e seguite alcune delle frecce fino ad

arrivare a f "Fine". Ogni freccia vi conduce in uno stato del sistema. In

corrispondenza di ogni stato, dovete (1) compiere qualche azione (estrarre un residuo

per esempio) e (2) scegliere una freccia che vi porti a uno stato successivo. L'azione e

la scelta dello stato successivo sono governati da un insieme di probabilità. Associati

a ogni stato che produce un residuo sono: una distribuzione di probabilità per i venti

aminoacidi e una seconda distribuzione di probabilità per la scelta dello stato

successivo. Entrambe queste distribuzioni di probabilità sono calibrate in modo da

codificare un'informazione riguardo a una particolare famiglia di sequenze. In questo

modo, la stessa cornice generale matematica può adattarsi a molte famiglie di

sequenze diverse.

Le dinamiche del sistema sono tali che solo lo stato attuale influenza la scelta dello

stato successivo: il sistema non ha "memoria della propria storia". Ciò è caratteristico

dei processi studiati nel XIX secolo dal matematico russo A.A. Markov. Occorre

distinguere la successione degli stati dalla successione degli amminoacidi forniti per

formare la sequenza output. Percorsi diversi attraverso il sistema possono produrre la

stessa sequenza. Solo la successione dei caratteri emessi è visibile; la sequenza di uno

stato che ha prodotto i caratteri rimane interna al sistema, cioè nascosta (in inglese,

hidden). In base alla distribuzione delle probabilità associate ai singoli stati, il sistema

Page 6: RICERCA DI PATTERN E DI MOTIVI - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Ricerca... · filtro che escluda le sequenze ripetitive dall'analisi; molti programmi

6

cattura, o modella, i pattern inerenti a una famiglia di sequenze. Da qui il nome di

Hidden Markov Models.

Il software per applicare gli HMM all'analisi delle sequenze biologiche permette di

ottenere:

1. L'allineamento. Dato un insieme di sequenze omologhe, esso può allinearle e

aggiustare le probabilità di transizione e di emissione dei residui in modo da definire

un HMM che permetta di identificare i pattern inerenti alle sequenze sottoposte.

I.J. Gough, K. Karplus, R. Hughey e C. Chothia hanno prodotto HMM per tutte le

superfamiglie contenute in PDB: http://stash.mrc-lmb.cam.ac.uk/SUPERFAMILY/

2. L'individuazione di omologie lontane. Dato un HMM e una sequenza di prova, si

può calcolare la probabilità che un HMM produca la sequenza di prova stessa. Se un

HMM allenato su una famiglia nota di sequenze produce la sequenza di prova con

una probabilità relativamente elevata, è probabile che la sequenza di prova

appartenga alla famiglia.

3. L'allineamento di sequenze addizionali. La probabilità di qualunque sequenza di

stati viene computata a partire dalle probabilità delle singole transizioni da stato a

stato. Trovare la sequenza più probabile di stati che l'HMM utilizzerebbe per produrre

una o più sequenze di prova rivela l'allineamento ottimale con la famiglia di

sequenze.

ALGORITMI GENETICI

Gli algoritmi genetici sono metodi di ottimizzazione che utilizzano una strategia di

esplorazione delle possibili varianti simile a quella utilizzata dall'evoluzione genetica.

L'algoritmo genetico consente di risparmiare sui tempi di calcolo e di trovare una

buona approssimazione dei parmametri che offrirebbero la migliore soluzione al

problema senza affrontarne l'esplorazione totale.

Nell'algoritmo genetico l'evoluzione di cromosomi, i cui geni rappresentano i

parametri del problema, si provoca con metodi computazionali. Mediante

quest'algoritmo si può esplorare solo una parte dei cromosomi possibili e riuscire a

individuare i valori dei parametri che ottimizzano il problema affrontato.

Per ogni cromosoma viene calcolato l'accordo (la fitness) con un campione di dati

per i quali si conosce la risposta desiderata. Il cromosoma, o l'insieme dei cromosomi,

con migliore fitness viene selezionato e parteciperà a eventi computazionali. I nuovi

Page 7: RICERCA DI PATTERN E DI MOTIVI - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Ricerca... · filtro che escluda le sequenze ripetitive dall'analisi; molti programmi

7

cromosomi ottenuti vengono quindi utilizzati per rigenerare una popolazione di n

cromosomi che parteciperanno alla seconda generazione dell'algoritmo genetico, e

così via.

L'algoritmo viene fatto procedere per un numero predeterminato di generazioni o

finché non sia raggiunta una fitness sufficientemente buona.

Rappresentazione grafica di un algoritmo genetico. Le generazioni possono procedere per un

numero prefissato di cicli o fino a che non si sia raggiunta una determinata fitness.