56
Bioinformatica Bioinformatica Corso di Laurea Specialistica in Informatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo Allineamento Multiplo di sequenze di sequenze 01-04/04/2011 01-04/04/2011

Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Embed Size (px)

Citation preview

Page 1: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

BioinformaticaBioinformaticaCorso di Laurea Specialistica in InformaticaCorso di Laurea Specialistica in Informatica

Allineamento MultiploAllineamento Multiplodi sequenzedi sequenze

01-04/04/201101-04/04/2011

Page 2: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee

• Funzioni di scoring e Valutazione degli allineamenti

Page 3: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento Multiplo di SequenzeAllineamento Multiplo di Sequenze(Multiple Sequence Alignment – MSA)(Multiple Sequence Alignment – MSA)

• Motivazioni– Filogenesi molecolare

Costruzione di alberi filogenetici che illustrino le distanze ed i rapporti evolutivi tra le molecole analizzate, a partire dai confronti tra di esse.

– Studio dell’evoluzione dei genomi– Caratterizzazione di geni e proteine con funzione sconosciuta

Attraverso l’individuazione di motivi ricorrenti e siti funzionalmente importanti.

– Individuazione di elementi regolatoriAttraverso l’individuazione di pattern comuni a diversi organismi.

Page 4: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

MSA: DefinizioneMSA: Definizione

• Dato un alfabeto Σ (ad es. Σ={A, C, G, T}) e le sequenze S1, S2, …, Sk: SiΣ* per 1ik, un allineamento multiplo associa a S1, S2, … Sk le sequenze S1’, S2’, …, Sk’: Si’(Σ{-})* per 1ik, in modo che:

• |S1’|=|S2’|=…=|Sk’|=l (le sequenze abbiano tutte la stessa lunghezza)

• Rimuovendo gli spazi “-” da S1’, S2

’, … Sk’ si ottengano

nuovamente S1, S2, … Sk.

Page 5: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

MSA: un esempioMSA: un esempio

1pamA TDVIYQIFTD RFSDGNPANN P---TGAAFD GSC-TNLRLY CGGDWQGIIN

cdgt_bacli TDVIYQVFTD RFLDGNPSNN P---TGAAFD GTC-SNLKLY CGGDWQGLVN

amy_thetu TDVIYQIVTD RFVDGNTSNN P---TGDLYD PTH-TSLKKY FGGDWQGIIN

cdg2_bacma TDTVYQIVTD RFVDGNSANN P---TGAAFS SDH-SNLKLY FGGDWQGITN

cdg1_bacma TDVIYQIVTD RFADGDRTNN P---AGDAFS GDR-SNLKLY FGGDWQGIID

cdgt_bacst SDVVYQIVVD RFVDGNTSNN P---SGALFS SGC-TNLRKY CGGDWQGIIN

cdgt_bacs2 KDVIYQIVTD RFSDGNPGNN P---SGAIFS QNC-IDLHKY CGGDWQGIID

amym_bacst GDVIYQIIID RFYDGDTTNN NPAKSYGLYD PTK-SKWKMY WGGDLEGVRQ

cdgt_klepn KETIYFLFLD RFSDGDPSNN A---GFNSAT YDP-NNLKKY TGGDLRGLIN

amyb_bacpo KQSIYFIMTD RFSNGDPSND N---YGG-FN SN-NSDQRKW HGGDFQGIIN

amy1_schpo RRSIYQIITD RFSLEEGATE ---------R IPCDPVRFMY CGGTWNGIRN

2aaa TQSIYFLLTD RFGRTDNSTT ---------- ATCNTGNEIY CGGSWQGIID

amya_aspor SQSIYFLLTD RFARTDGSTT ---------A TC-NTADQKY CGGTWQGIID

amy1_schoc DQSIYQIVTD RFARSDGSTT ---------- ADCLVSDRKY CGGSYKGIID

amy1_sacfi SQSIYQIVTD RFARTDGDTS ---------A SC-NTEDRLY CGGSFQGIIK

ydd2_schpo KQVIYQVLTD RFALDEDN-- ---------- FYAKASGNLY LGGTWKGITR

amy_bacci TDVIYQIVTD RFVDGNTANN P---AGSAYD ATCSTNLKLY CGGDWQGIMN

1jdc GD---EIILQ GFHWNVVREA P--------- ---------- --NDWYNILR

Page 6: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Sum-Of-Pairs ScoreSum-Of-Pairs Score

• Come nel caso Pairwise, l’allineamento multiplo di sequenze consiste nel massimizzare una funzione di scoring.

• La funzione più utilizzata è il Sum-Of-Pairs Score che è la somma degli score degli allineamenti pairwise indotti dall’allineamento multiplo:

• dove S(mk,ml) è lo score dell’allineamento della coppia di sequenze mk ed ml indotto dall’allineamento multiplo m.

• Come visto nel caso Pairwise i concetti di Score e Distanza sono equivalenti, per cui è possibile definire la distanza Sum-Of-Pairs.

lk

lk mmSm ),()(

Page 7: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Sum-Of-Pairs Score: un esempioSum-Of-Pairs Score: un esempio

• Se scegliamo di utilizzare una metrica di tipo crisp che assegna 1 ad ogni match e 0 ad ogni mismatch si ha:

A A C T G – T - - A GA A C – G – T A T A CA A C T – A T A - - G

lk

lk mmSm ),()(

17566),(),(),()( 323121 mmSmmSmmSm

Page 8: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee– MSA by HMM: Probcons

• Funzioni di scoring e Valutazione degli allineamenti

Page 9: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Soluzione esatta: Soluzione esatta: Programmazione DinamicaProgrammazione Dinamica

• L’allineamento multiplo ottimale di k sequenze viene calcolato usando un ipercubo a k dimensioni D, definendo D(j1, j2, …, jk) come il miglior score dell’allineamento dei prefissi di lunghezza j1, j2, …, jk delle sequenze x1, x2, …, xk, rispettivamente.

• Si ha:

• dove è la scoring function ed è un vettore che indica la direzione del processo di allineamento nell’ipercubo.

)},...(

),...,,({max),...,2,1(

11

22110,1,0

k

k

jkj

kk

xx

jjjDjkjjD

00,...,0,0 D ) ])[,()1,(

),],[(),1(

]),[],[()1,1(max(),(

jTjiV

iSjiV

jTiSjiVjiV

nn 1,0,...,, 21

Page 10: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Programmazione Dinamica: IpercuboProgrammazione Dinamica: Ipercubo

• Date le sequenze S1=VSNS, S2=SNA ed S3=AS si ottiene il seguente ipercubo a 3 dimensioni:

• L’algoritmo ha complessità spaziale e temporale O(nk), dove n è la lunghezza delle sequenze e k il numero di sequenze. Il problema del calcolo del MSA esatto è NP-Completo.

Page 11: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee

• Funzioni di scoring e Valutazione degli allineamenti

Page 12: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Center Star MethodCenter Star Method

• Il metodo Center-Star di Gusfield è un algoritmo approssimato per il calcolo del MSA secondo il Sum-Of-Pairs Score (SP).

• Dato in input un insieme di sequenze S = {S1, S2, … Sk}, vogliamo trovare l’allineamento multiplo M che minimizzi la distanza SP (o che massimizzi lo score SP).

Page 13: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Center Star Method: DefinizioniCenter Star Method: Definizioni

• Dato un insieme S di k sequenze, si definisce sequenza centrale Sc S, la sequenza che minimizza la funzione:

• Cioè la somma delle distanze di tutte le sequenze da Sc sia la minima possibile.

SS

jc

j

SSD ),(

Page 14: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Center Star Method: DefinizioniCenter Star Method: Definizioni

• Si definisce Center-Star un albero con k nodi, in cui Sc è il nodo centrale e in cui i restanti k-1 nodi sono etichettati da stringhe distinte in S \ {Sc}

• Il MSA Mc dell’insieme di sequenze S è l’allineamento multiplo consistente con tale albero.

Page 15: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Center Star Method: AlgoritmoCenter Star Method: Algoritmo

• Trova la sequenza Trova la sequenza SStt S S che minimizza e siache minimizza e sia

• Aggiungi le sequenze in S\{SAggiungi le sequenze in S\{Stt} ad M una ad una, secondo } ad M una ad una, secondo la maggiore vicinanza a Sla maggiore vicinanza a Stt, allineando ogni nuova , allineando ogni nuova sequenza ad Ssequenza ad Stt ed aggiungendo eventuali nuovi gap alle ed aggiungendo eventuali nuovi gap alle sequenze già allineate. sequenze già allineate.

• Complessità: O(kComplessità: O(k22nn22), dove k è il numero di sequenze e n ), dove k è il numero di sequenze e n la massima lunghezza. la massima lunghezza.

• La distanza SP dell’allineamento prodotto è minore del La distanza SP dell’allineamento prodotto è minore del doppio della distanza SP ottimale.doppio della distanza SP ottimale.

ti

ti SSD ),(

tSM

Page 16: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee

• Funzioni di scoring e Valutazione degli allineamenti

Page 17: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

I ProfiliI Profili

• I profili sono strutture utili per riassumere le proprietà comuni di gruppi di sequenze e sono alla base di molti metodi di allineamento multiplo di sequenze.

• Sia M un allineamento multiplo di sequenze di lunghezza l.

• Il Profilo di M è una matrice dove Σ è l’alfabeto delle sequenze di M, le cui colonne indicano la frequenza di ciascun simbolo nella corrispondente colonna dell’allineamento.

l

Page 18: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Profili: un esempioProfili: un esempio

A C A - - G – T C AA C - - T G C T – A- C A A T G C T G A

A C G T -

1 2/3 0 0 0 1/3

2 0 3/3 0 0 0

3 2/3 0 0 0 1/3

4 1/3 0 0 0 2/3

5 0 0 0 2/3 1/3

6 0 0 3/3 0 0

7 0 2/3 0 0 1/3

8 0 0 0 3/3 0

9 0 1/3 1/3 0 1/3

10 3/3 0 0 0 0

Page 19: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di una sequenza ad un Allineamento di una sequenza ad un profiloprofilo

• Per allineare una sequenza ad un profilo si utilizza l’algoritmo di Needleman-Wunsch con un’opportuna funzione di scoring.

• Sia p(i,j) un profilo, con i=1…l e j=1…|Σ|+1 e sia S = {S1, S2, …, Sn}.

• Possiamo definire la seguente Scoring Function:

aaisp

sp

bapib

l

),(),(

,...,2,1:

,

Page 20: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di due profiliAllineamento di due profili

• Siano e con i=1…l e j=1…|Σ|+1 due profili.

• In questo caso utilizziamo la seguente funzione di scoring:

• dove f è una funzione che assegna uno score a coppie di colonne tenendo conto della frequenza dei singoli simboli dell’alfabeto.

)( '1 ijpP )( ''

2 ijpP

1

1

'',

', ,),(

,...,2,1,...,2,1:

kkjkipp

pp

ppfji

ll

Page 21: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee

• Funzioni di scoring e Valutazione degli allineamenti

Page 22: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento iterativoAllineamento iterativo

• Questo approccio usa gli score pairwise per aggiungere sequenze ad un allineamento multiplo.

• Si comincia allineando la coppia di sequenze più vicine secondo una certa nozione di distanza.

• Quindi, ad ogni passo, si prende la sequenza che ha la distanza minima da tutte quelle già allineate e la si allinea al profilo dell’allineamento già prodotto. Eventuali nuovi spazi “-” sono aggiunti alle sequenze già allineate.

Page 23: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee

• Funzioni di scoring e Valutazione degli allineamenti

Page 24: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento ProgressivoAllineamento Progressivo

• L’idea chiave di questo algoritmo è che l’informazione biologica più affidabile ottenibile da un insieme di sequenze da allineare scaturisce dall’allineamento della coppia di sequenze più vicine.

• Quindi ogni gap “-” che compare in questo allineamento deve essere preservato nella costruzione dell’allineamento multiplo, a differenza di quanto accade nell’allineamento iterativo.

• Numerosi tools di MSA si basano su questo approccio, tra i quali ClustalW e T-Coffee.

Page 25: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento Progressivo:Allineamento Progressivo:L’algoritmo di Feng-DoolittleL’algoritmo di Feng-Doolittle

• Calcola i allineamenti pairwise e converti i loro score in distanze.

• Costruisci un albero filogenetico.

• Allinea le sequenze nell’ordine suggerito dall’albero iniziando dalla coppia di sequenze più vicine, e utilizzando l’allineamento per profili per aggiungere una sequenza all’allineamento già prodotto o per allineare due allineamenti.

2

k

Page 26: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee

• Funzioni di scoring e Valutazione degli allineamenti

Page 27: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

ClustalWClustalW

• ClustalW è il tool più popolare per l’allineamento multiplo di biosequenze.

• Utilizza l’approccio progressivo e si basa sull’algoritmo di Feng-Doolittle.

• Dato un insieme S di n sequenze da allineare, ClustalW allinea tutte le coppie di sequenze di S separatamente e costruisce una matrice con le distanze tra ogni coppia di sequenze.

Seq. A

Seq. B

Seq. C

Seq. D

Seq. A

0.00

Seq. B

0.11 0.00

Seq. C

0.32 0.43 0.00

Seq. D

0.17 0.18 0.57 0.00

Page 28: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

ClustalWClustalW

• Viene quindi costruito un albero guida filogenetico utilizzando il metodo neighbour-joining.

• Si sceglie la coppia più vicina: questa andrà a formare il primo sottoalbero:

Seq. A

Seq. B

Seq. C

Seq. D

Seq. A

0.00

Seq. B

0.11 0.00

Seq. C

0.32 0.43 0.00

Seq. D

0.17 0.18 0.57 0.00

AB

A B

Page 29: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

ClustalWClustalW

• Sostituiamo nella tabella la entry AB alle singole entry A e B e calcoliamo le distanze di AB dalle sequenze rimanenti facendo una semplice media aritmetica:

375.02

43.032.02

),(),(

),(

CBDCAD

CABDSeq. AB

Seq. C Seq. D

Seq. AB

0.00

Seq. C 0.00

Seq. D 0.00

?

0.57?

0.375

175.02

18.017.02

),(),(

),(

DBDDAD

DABD

0.175

• Iterando il procedimento si ottiene l’albero completo.

Page 30: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

ClustalW: Albero FilogeneticoClustalW: Albero Filogenetico

• Otterremo un albero i cui rami hanno lunghezza proporzionale alla distanza tra le sequenze :

• Quest’albero verrà utilizzato per guidare l’allineamento progressivo.

• Nel nostro esempio verranno allineate per prime le sequenze A e B. Successivamente verrà allineata la sequenza D all’allineamento AB e infine verrà allineata la sequenza C all’allineamento ABD.

A

B

C

D

Page 31: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Albero filogenetico: un esempioAlbero filogenetico: un esempio

• L’albero filogenetico in figura è costruito mediante ClustalW a partire dalle sequenze della proteina mnSOD su diversi organismi: il clustering ottenuto rispecchia in manieraabbastanza fedele quella che è la filogenesi classica (cioè basata su datigeopaleontologici).

Page 32: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento con ClustalWAllineamento con ClustalW

• Questo è un particolare dell’output di ClustalW.

• Nell’allineamento di sequenze nucleotidiche è possibile trovare solo simboli * nel caso di identità della colonna al 100%.

• La presenza di un simbolo * in fondo ad una colonna indica un match del 100%.

• Il simbolo : indica un’alta similarità (>75%).

• Il simbolo . indica una media similarità (50%-75%).

Page 33: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

ClustalW: Server On LineClustalW: Server On Line

• Il server ufficiale di ClustalW si trova sul sito dell’EMBL:

http://www.ebi.ac.uk/clustalw/index.html

• Vi sono comunque molti altri server di ClustalW; uno dei più popolari è quello dello Swiss Institute of Bioinformatics:

http://www.ch.embnet.org/software/ClustalW.html

• Questa versione di ClustalW ha un’interfaccia semplificata rispetto a quella ufficiale su EMBL.

Page 34: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee

• Funzioni di scoring e Valutazione degli allineamenti

Page 35: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Metodi basati su consistenzaMetodi basati su consistenza

• Il primo algoritmo di MSA consistency-based è stato introdotto da Kececioglu nel 1993.

• Dato un insieme di sequenze S, l’allineamento “ottimale” deve essere il più consistente possibile con gli allineamenti pairwise ottimali delle sequenze in S.

• Il calcolo di tale allineamento è un problema NP-Completo che può quindi essere risolto in modo esatto solo per un piccolo numero di sequenze.

Page 36: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Vantaggi della consistenzaVantaggi della consistenza

•Funzioni-obiettivo consistenti non dipendono da specifiche matrici di sostituzione ma dai metodi per l’allineamento pairwise.

•Gli schemi basati su consistenza dipendono dalle posizioni dei residui negli allineamenti pairwise; ciò significa che lo score associato all’allineamento di due residui dipende dalla loro posizione nelle sequenze piuttosto che dalla loro natura chimico-fisica.

Page 37: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Consistency-based toolConsistency-based tool

• Uno dei primi tools euristici basati su consistenza è SAGA (1996).

• In SAGA viene utilizzata la funzione-obiettivo COFFEE (Consistency-based Objective Function For alignmEnt Evaluation), che riflette il livello di consistenza tra un allineamento multiplo di sequenze ed una libreria di allineamenti pairwise delle stesse sequenze.

• Il COFFEE-Score viene ottimizzato utilizzando un algoritmo genetico.

• Sebbene SAGA sia in grado di fornire risultati interessanti, l’approccio basato su algoritmi genetici si rivela troppo lento.

Page 38: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee– MSA by HMM: Probcons

• Funzioni di scoring e Valutazione degli allineamenti

Page 39: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

T-CoffeeT-Coffee

• T-Coffee (Tree-based COFFEE) è un’euristica per il MSA basata sulla funzione-obiettivo COFFEE.

• L’allineamento multiplo viene calcolato a partire da una collezione di allineamenti pairwise locali e globali delle sequenze in input attraverso l’approccio progressivo guidato da un albero filogenetico creato con il metodo neighbor-joining (come in ClustalW).

• Grazie all’utilizzo degli allineamenti pairwise locali e globali e della funzione-obiettivo consistente, T-Coffee raggiunge una notevole precisione nell’allineamento multiplo di sequenze a bassa similarità.

Page 40: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

L’algoritmo di T-CoffeeL’algoritmo di T-Coffee

ABACBCLibreria primaria by

ClustalW

A AB BACB BC C

Libreria primaria by LAlign

Weighting

LIBRERIA PRIMARIA

ESTENSIONE

LIBRERIA ESTESA

Allineamento Progressivo

ABC

Page 41: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

L’algoritmo di T-CoffeeL’algoritmo di T-Coffee

ABACBCLibreria primaria by

ClustalW

A AB BACB BC C

Libreria primaria by LAlign

Weighting

LIBRERIA PRIMARIA

ESTENSIONE

LIBRERIA ESTESA

Allineamento Progressivo

ABC

Page 42: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Libreria primaria di allineamenti pairwise Libreria primaria di allineamenti pairwise globaliglobali

• Tutte le coppie di sequenze in input vengono allineate mediante ClustalW.

• Per ogni allineamento pairwise viene calcolata l’identità percentuale:

• Dove sim(S1,S2) è il numero dei match nell’allineamento e pos il numero delle coppie allineate di residui escluse quelle in cui compare un gap.

pos

SSsimSSI

100),(),( 21

21%

S1) A C A - G – T C AS2) A G - T G C T – T

605

1003),( 21%

SSI

Page 43: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

LibreriaLibreria

• Nella libreria ogni allineamento pairwise è rappresentato come una lista di coppie di residui pesati (constraint list).

• Inizialmente ogni coppia di residui riceve un peso equivalente alla sequence identity dell’allineamento da cui proviene:

Seq1 Seq2 Res1 Res2 WeightS1 S2 1 1 60S1 S2 2 2 60S1 S2 4 4 60S1 S2 5 6 60S1 S2 7 7 60

S1) A C A - G – T C AS2) A G - T G C T – T

Page 44: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Libreria primaria di allineamenti Libreria primaria di allineamenti pairwise localipairwise locali

• Viene creata una seconda libreria a partire dagli allineamenti Viene creata una seconda libreria a partire dagli allineamenti locali creati con locali creati con LAlignLAlign, un tool del pacchetto , un tool del pacchetto FASTAFASTA..• L’allineamento locale di una coppia di sequenze SL’allineamento locale di una coppia di sequenze S11, S, S22 consiste consiste nell’allineamento di sottosequenze di Snell’allineamento di sottosequenze di S11 ed S ed S22, al fine di mettere , al fine di mettere in evidenza eventuali regioni ad alta similarità:in evidenza eventuali regioni ad alta similarità:

• LAlign restituisce i 10 migliori allineamenti locali (in termini di LAlign restituisce i 10 migliori allineamenti locali (in termini di similarità) della coppia di sequenze in input.similarità) della coppia di sequenze in input.• Una volta individuato l’allineamento locale con il massimo Una volta individuato l’allineamento locale con il massimo score, LAlign cerca il successivo escludendo dalla ricerca le due score, LAlign cerca il successivo escludendo dalla ricerca le due regioni appena trovate: in questo modo gli allineamenti prodotti regioni appena trovate: in questo modo gli allineamenti prodotti non si intersecheranno.non si intersecheranno.

• Viene creata una seconda libreria a partire dagli allineamenti Viene creata una seconda libreria a partire dagli allineamenti locali creati con locali creati con LAlignLAlign, un tool del pacchetto , un tool del pacchetto FASTAFASTA..• L’allineamento locale di una coppia di sequenze SL’allineamento locale di una coppia di sequenze S11, S, S22 consiste consiste nell’allineamento di sottosequenze di Snell’allineamento di sottosequenze di S11 ed S ed S22, al fine di mettere , al fine di mettere in evidenza eventuali regioni ad alta similarità:in evidenza eventuali regioni ad alta similarità:

• LAlign restituisce i 10 migliori allineamenti locali (in termini di LAlign restituisce i 10 migliori allineamenti locali (in termini di similarità) della coppia di sequenze in input.similarità) della coppia di sequenze in input.• Una volta individuato l’allineamento locale con il massimo Una volta individuato l’allineamento locale con il massimo score, LAlign cerca il successivo escludendo dalla ricerca le due score, LAlign cerca il successivo escludendo dalla ricerca le due regioni appena trovate: in questo modo gli allineamenti prodotti regioni appena trovate: in questo modo gli allineamenti prodotti non si intersecheranno.non si intersecheranno.

S1

S2

Page 45: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Libreria primariaLibreria primaria

• A partire dalle due librerie globale e locale viene creata un’unica libreria primaria mediante una semplice operazione di addizione.

• Le coppie di residui comuni vengono sostituite da un’unica entry il cui peso è la somma dei due pesi, mentre tutte le altre coppie vengono trascritte così come sono:

Global Alignments by ClustalWSeq1 Seq2 Res1 Res2 Weight

S1 S2 1 1 60S1 S2 2 2 60S1 S2 3 3 60S1 S2 5 6 60S1 S2 7 7 60

Local Alignments by LAlignSeq1 Seq2 Res1 Res2 Weight

S1 S2 1 1 30S1 S2 2 2 30S1 S2 3 3 30S1 S2 15 22 10S1 S2 16 23 10

Primary LibrarySeq1 Seq2 Res1 Res2 Weight

S1 S2 1 1 90S1 S2 2 2 90S1 S2 3 3 90S1 S2 5 6 60S1 S2 7 7 60S1 S2 15 22 10S1 S2 16 23 10

Page 46: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

L’algoritmo di T-CoffeeL’algoritmo di T-Coffee

ABACBCLibreria primaria by

ClustalW

A AB BACB BC C

Libreria primaria by LAlign

Weighting

LIBRERIA PRIMARIA

ESTENSIONE

LIBRERIA ESTESA

Allineamento Progressivo

ABC

Page 47: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Estensione della libreria primariaEstensione della libreria primaria

• L’idea chiave dell’estensione è di combinare le informazioni nella libreria così che il peso finale associato ad ogni coppia rifletta anche le informazioni contenute nel resto della libreria.

• Questo viene realizzato prendendo tutte le coppie di residui nella libreria e confrontando il loro allineamento con i residui provenienti dalle altre sequenze.

Page 48: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Estensione della libreria primariaEstensione della libreria primaria

• Consideriamo, ad esempio, quattro sequenze A, B, C, D.• Siano A(1) il primo di residuo di A e B(1) il primo residuo di B e

sia W(A(1),B(1))=60 il peso associato a tale coppia nella libreria primaria:

• Consideriamo adesso l’allineamento delle sequenze A e B attraverso la sequenza C:

• Vediamo che A(1) e C(1) sono allineati così come C(1) e B(1). Concludiamo dunque che c’è un allineamento di A(1) e B(1) attraverso la sequenza C.

A) A C A - G – T C AB) A G - T G C T – T

A) A C A - G – T C AC) A G - T G C A C AB) A G - T G C T – T

Page 49: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

• Associamo alla coppia A(1), B(1) il peso minimo tra W(A(1),C(1))=66 e W(C(1),B(1))=71 W(A(1),B(1))=66.

• Questo peso viene sommato al valore già contenuto nella libreria W(A(1),B(1))=60. Si ha quindi W(A(1),B(1))=126.

• L’estensione completa richiede l’analisi di tutte le restanti triplette e chiaramente non tutte porteranno informazioni.

• Ad es. l’allineamento di A e B attraverso D non contiene informazioni circa la coppia A(4), B(4) e quindi non influisce sul peso di tale coppia:

Estensione della libreria primariaEstensione della libreria primaria

A) A C A - G – T C AC) A G – T G C A C AB) A G - T G C T – T

A) A C A - G – T C AD) A G A T – C – C TB) A G - T G C T – T

Page 50: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Estensione della libreria primariaEstensione della libreria primaria

• Riassumendo, il peso associato ad ogni coppia di residui nella libreria sarà pari alla somma dei pesi ottenuti dall’analisi delle triplette.

• Quante più sequenze intermedie supportano l’allineamento di una certa coppia di residui, tanto più alto sarà il peso di tale coppia nella libreria.

• L’operazione di estensione viene eseguita per tutte le coppie di residui di tutte le coppie di sequenze in input contenute nella libreria primaria.

Page 51: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

L’algoritmo di T-CoffeeL’algoritmo di T-Coffee

ABACBCLibreria primaria by

ClustalW

A AB BACB BC C

Libreria primaria by LAlign

Weighting

LIBRERIA PRIMARIA

ESTENSIONE

LIBRERIA ESTESA

Allineamento Progressivo

ABC

Page 52: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento progressivo in T-CoffeeAllineamento progressivo in T-Coffee

• Una volta costruita la libreria, vengono allineate tutte le coppie e gli score di similarità vengono convertiti in distanze come in ClustalW.

• E come in ClustalW viene costruito un albero guida con il metodo neighbor-joining.

• Le sequenze vengono allineate nell’ordine suggerito dall’albero ma vengono utilizzati i pesi contenuti nella libreria estesa anziché gli score delle matrici di sostituzione.

• Questo rende l’allineamento più preciso dato che vengono utilizzate informazioni precise sui residui delle sequenze in esame e su come questi vengono allineati tra loro, piuttosto che informazioni generiche sulla natura degli aminoacidi come quelle contenute nelle matrici.

Page 53: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Allineamento di sequenzeAllineamento di sequenze

• Allineamento multiplo: motivazioni e definizioni• Soluzione esatta: Programmazione Dinamica• Euristiche per il MSA

– Center Star Method– Profili– Allineamento Iterativo– Allineamento Progressivo: Feng-Doolittle– ClustalW– Metodi basati su consistenza– T-Coffee– MSA by HMM: Probcons

• Funzioni di scoring e Valutazione degli allineamenti

Page 54: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Funzioni di scoring e Funzioni di scoring e Valutazione degli allineamentiValutazione degli allineamenti

• Esistono numerose funzioni di scoring oltre al Sum-Of-Pairs, utilizzate dai tools di MSA come funzioni obiettivo da massimizzare e per valutare gli allineamenti prodotti. Ne consideriamo due:– Entropia– Circular-Sum

• La scelta della scoring function “giusta” è fondamentale nella progettazione di un buon algoritmo di allineamento.

• Sfortunatamente non esistono ancora funzioni universali in grado di catturare pienamente il significato biologico del confronto tra residui.

Page 55: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

EntropiaEntropia

• Entropia

• dove C sono le colonne dell’allineamento:

• e pX è la frequenza del simbolo X nella colonna C.

• Una colonna altamente conservata ha una bassa variabilità e un alto contenuto informativo. Tanto più è “buono” l’allineamento tanto più bassa sarà l’entropia.

AC

CEAE )()(

XXX ppCE log)(

000003

3log

3

3loglogloglogloglog)1(

),,,,(

ppppppppppppE TTGGCCAA

TGCAXXX

A A C T G – T - - A GA A C – G – T A T A CA A C T – A T A - - T

45,0015,015,015,0003

1log

3

1

3

1log

3

1

3

1log

3

10)11(

E

21,145,011,016,011,0016,011,011,0000)( AE

Page 56: Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

Circular SumCircular Sum

• Circular-Sum:

• dove e è lo score del pairwise-alignment indotto dal MSA.

k

mjiji mamaSaaMPA

1

][],[),(

n

iCC iiaaMPAACS

1

),(2

1)(

1

A A C T G – T - - A GA A C – G – T A T A CA A C T – A T A - - T

11 cCn

11

13232 500011000111])[][(),(

m

mamaSaaMPA

11

11313 500001001111])[][(),(

m

mamaSaaMPA

11

12121 601001010111])[][(),(

m

mamaSaaMPA

16556)( ACS