12
Interpretare il codice della vita con l’Intelligenza Artificiale Monica Bianchini Università degli Studi di Siena Dipartimento di Ingegneria dell’Informazione e Scienze Matematiche

Interpreting DNA using artificial intelligence - DataBeers Tuscany

Embed Size (px)

Citation preview

Page 1: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Interpretare il codice della vita con l’Intelligenza Artificiale

Monica BianchiniUniversità degli Studi di Siena

Dipartimento di Ingegneria dell’Informazione e Scienze Matematiche

Page 2: Interpreting DNA using artificial intelligence - DataBeers Tuscany

I motori della vita

Le proteine sono macromolecole costituite da venti diversi tipi di amminoacidi, legati in successione mediante legami peptidici

Page 3: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Folding proteico

È la struttura nativa di una proteina che ne determina la funzione

In condizioni fisiologiche, le proteine, sintetizzate come polimeri lineari, collassano e si modellano in complesse strutture tridimensionali, dette strutture native Il meccanismo di avvolgimento della catena polipep-tidica, il folding, rappresenta il passaggio conclusivo del trasferimento dell’informazione genetica dal DNA al suo prodotto finale, il proteoma

Page 4: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Folding proteico

Il numero di folding distinti (700), assunti dalle proteine osservate finora, sono il risultato della com-binazione di un piccolo numero di semplici motivi strutturali locali

eliche foglietti

Page 5: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Predizione delle strutture proteiche

Perché studiare la struttura 3D di una proteina?Il confronto tra strutture proteiche

mette in luce relazioni evolutive difficilmente rilevabili tramite confronto fra sequenzepermette la predizione della funzione di nuove proteine sulla base della struttura di proteine note

Le proteine sono molecole flessibili: conoscere la struttura 3D, e poterne descrivere l’evoluzione superficiale, apre la strada alla progettazione di nuovi farmaci

Page 6: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Cosa abbiamo a disposizione? Banche dati biologiche (es.: PDB), perennemente

aggiornate ed in continua espansione necessità di operare in tempo reale

All’interno delle biobanche, dati annotati, “per cui la soluzione del problema è nota”

Gli strumenti dell’Intelligenza Artificiale, in parti-colare le Reti Neurali Artificiali

Sono in grado di apprendere da esempi, inferendo regole dall’osservazione e mimando il processo cognitivo biologico

Predizione delle strutture proteiche

Page 7: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Nelle reti neurali, l’apprendimento si realizza tramite l’aggiustamento dei pesi sinaptici, effettuato su un sottoinsieme dei datiLa rete svilupperà memoria e capacità di estrapola-zione così da “rispondere correttamente” a nuovi stimoli, purché congruenti con quanto ha appreso

Le Reti Neurali Artificiali

Page 8: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Predizione della struttura secondariaClassificazione delle eliche

Contesto C

Residuo R Finestra W

O Onon_

Rete Neurale

I migliori metodi numerici di predizione delle strut-tura secondaria utilizzano reti neurali

Page 9: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Predizione della struttura secondariaClassificazione delle eliche

Set dalla banca dati

Mapping noto

Conoscenza codificata nei pesi

Nuova sequenza

Mapping dipredizione

Addestramento Predizione

Page 10: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Quando residui di cisteina, lontani nella struttura primaria della proteina, si trovano vicini nello spazio 3D, possono formare legami disolfuro covalenti I ponti disolfuro producono un effetto stabilizzante significativo sulla struttura ripiegata di una proteina

Verso la predizione della struttura 3DI ponti disolfuro

Page 11: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Predizione dei ponti disolfuro

S

SC CC

C

1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSCTGVAITSSGTKKGEL--FLGDV2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL

Bonding Non bonding

Verso la predizione della struttura 3DI ponti disolfuro

Page 12: Interpreting DNA using artificial intelligence - DataBeers Tuscany

Concludendo…

La struttura secondaria di una proteina può essere predetta con accuratezza significativa (75%) usando le tecniche dell’Intelligenza Artificiale e, in particolare, le reti neurali artificialiLa struttura terziaria è molto più difficile da predire, ma si può ricostruire a partire dalla predizione dei contatti fra amminoacidi lontani nella sequenza proteicaConoscere la truttura 3D delle proteine significa cono-scerne la funzione, cioè determinare quali informazioni sono biologicamente significative per la crescita, la riproduzione, l’evoluzione delle specie viventi