47
Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Embed Size (px)

Citation preview

Page 1: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Le reti neurali e la predizione della

struttura proteica

Le reti neurali e la predizione della

struttura proteica

Rita Casadio

Interdepartmental Centre for Biotechnological ResearchUniversity of Bologna, Italy

Page 2: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

L’era “omica”: genomi completi

•Archea: 16 speci/33 in progress

•Batteri: 83 speci

•Eukarioti: 17 speci (242 chromosomi)

www.ncbi.nlm.nih.gov

Draft del genoma umano

http://www.ncbi.nlm.nih.gov/genome/guide/human

http://www.ensembl.org/

•Nature (2/15/01) Human Genome Issue

•Science (2/16/01) Human Genome Issue

http://public.celera.com/index.cfm

Page 3: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Strutture proteiche

Dalla Sequenza alla Funzione

Dalla Sequenza alla Funzione

Geni

> RICIN GLYCOSIDASEMYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSGDLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDESKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYHWPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDEYSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGIKSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITRGNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVSLAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPYYLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNTKRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH

Sequenze proteiche

FunzioneFunzione

Genomica funzionale, Proteomica ed Interattomica

Genomica funzionale, Proteomica ed Interattomica

Page 4: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

PRINCIPI DI BASE DELLA STRUTTURA PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINEDELLE PROTEINE

Primaria Secondaria Terziaria Quaternaria

Livelli di organizzazione strutturale

Page 5: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

PRINCIPI DI BASE DELLA STRUTTURA PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINEDELLE PROTEINE

Gli elementi di struttura secondaria

C

N

Foglietto -elica

Page 6: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

La cinetica del Folding:

I siti di iniziazioneLa catena

La predizione del Protein FoldingLa predizione del Protein Folding

La proteina nativa

Il processo di foldingIl processo di folding

Page 7: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Le Banche Dati di Sequenze Biologiche e Strutture

>BGAL_SULSO BETA-GALACTOSIDASE Sulfolobus solfataricus.MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSGDLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDESKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYHWPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDEYSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGIKSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITRGNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVSLAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPYYLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNTKRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH

NCBI: 18,197,119 sequenze 22,616,937,182

nucleotidi

Swiss-Prot: 113,470 sequenze

41,413,223 residui

PDB: 17,510 strutture

August/2002

Page 8: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Possiamo estrarre dal PDB circa 1500 esempi di catene di cui e’ nota la struttura terziaria al fine di ricavare informazioni non ridondanti per la relazione tra sequenza e:

Struttura secondaria

Motivi strutturali e funzionali

Struttura terziaria (3D)

Page 9: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Il Protein Folding

T T C C P S I V A R S N F N V C R L P G T P E A L C A T Y T G C I I I P G A T C P G D Y A N

Page 10: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Caratteristiche della Predizione Strutturale di Sequenze Proteiche

Ampio insieme di dati per cui la soluzione del problema è nota

E’ difficile (impossibile) formulare una soluzione analitica del problema

Le banche dati vengono aggiornate in modo continuo (grande volume di dati, necessità di operare in tempo reale)

Page 11: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Xx1 x2 ………xn

Yy1 y2 ………yn

X space

Y s

pace

Mapping generale non-lineare funzionale

Page 12: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Set dalla banca dati

Mapping noto

Regole Generali

Nuova sequenza

Predizione

Training Predizione

Tools derivati dall’apprendimento automatico:

Reti Neurali

Page 13: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Le proprieta’ del residuo R dipendono sia dalle interazioni locali (finestra W) che da quelle non locali (contesto C)

Contesto C

Residuo RFinestra W

O Onon

Rete Neurale

La finestra di input

Page 14: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Input basato sulla Informazione Evolutiva

Input basato sulla Informazione Evolutiva

Multiple Sequence Alignment (MSA)

Posizione lungo la sequenza

Sequenze allineate

1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSPTGVAITSSGTKKGEL--FLGDV2 MAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSPTGVAITSSGTKKGDL--FLADV3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTANGVAITSTGTKKGEL--FLADV4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSTTGVAITASGLKKGEL--FLADV5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSSTGVAITTTGTNKGSL--FLGDV6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSPNGVAITAAGTRKNES--IFGEL7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTANGPAITATSTKKADL--TVGEI8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSL10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVNGSL11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSATGVEFTTSGTSNTDSGKVNGSL12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTSSGIEFNTAGHSNQESGKVFGSL13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTPNNVAFKVTGKSTHDK-VTSGAL

1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSPTGVAITSSGTKKGEL--FLGDV2 MAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSPTGVAITSSGTKKGDL--FLADV3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTANGVAITSTGTKKGEL--FLADV4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSTTGVAITASGLKKGEL--FLADV5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSSTGVAITTTGTNKGSL--FLGDV6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSPNGVAITAAGTRKNES--IFGEL7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTANGPAITATSTKKADL--TVGEI8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSL10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVNGSL11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSATGVEFTTSGTSNTDSGKVNGSL12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTSSGIEFNTAGHSNQESGKVFGSL13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTPNNVAFKVTGKSTHDK-VTSGAL

Finestra di Input

Page 15: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Artificial Neural NetworksPercettrone a singolo strato

Bias

Inputs

Outputs

x 0 x 1 x d

z mz 1

a = w i x ii = 0

d

z = g (a)

La Funzione di ErroreY i (X q) = Output of the network

D iq = Expected Value

L’ Algoritmo di Training: il Back Propagation(gradient descendent: Rumelhart et al. 1986)

Correction to the weights

= learning rate

= momentum term

Page 16: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Parametri variabili delle Reti Neurali

•L’ampiezza della finestra mobile

•Il codice di input

•L’architettura: il numero di nodi (neuroni) e gli strati di neuroni

•La velocità di apprendimento

Page 17: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Le Reti Neurali a Bologna predicono:

Le Reti Neurali a Bologna predicono:

•La struttura secondaria delle proteine

•I siti di iniziazione del protein folding

•La topologia delle proteine di membrana all

alpha and all beta (ISMB BEST PAPER AWARD

2002)

•La presenza dei peptidi segnale

•Lo stato di legame delle cisteine e la topologia

dei ponti a zolfo

•Le mappe di contatto delle proteine (BEST

PREDICTOR of the CATEGORY at CASP4)

•Le superfici di interazione tra proteine

Page 18: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

www.biocomp.unibo.it

Page 19: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

The Server

SequenceDatabase

PSI-BLAST

NEURALNEURALNETWORKNETWORK

Predictor Output

Sequence

USER

e-mailAnswer

Schema generale dei predittori disponibili al nostro sito web

Page 20: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Verso la predizione della struttura 3D:Verso la predizione della struttura 3D:

Predittori basati su Reti Neurali

Predittori basati su Reti Neurali

La predizione delle mappe dei contattiLa predizione delle mappe dei contatti

Page 21: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Predizione dei contatti tra residuiPredizione dei contatti tra residuiContatti nelle Proteine

F 297

F 156 V 299

V 271

I 240V 238

I 269

Page 22: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

From 3D Structure

F 297

F 156 V 299

V 271

I 240V 238

I 269

Computation of Contact MapsComputation of Contact Maps

To Contact MapTTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYANT

TCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Page 23: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

RMSD = 2.5 Å

N

C

Contact mapMARC

1QHJ (1.9 Å)

3-D Modelling through Contact Maps Bacteriorhodopsin3-D Modelling through Contact Maps Bacteriorhodopsin

Model

Page 24: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

PredizioneSequenza

Predizione della mappa dei contatti

Tools di Apprendimento Automatico Tools di Apprendimento Automatico

Le Reti Neurali imparano il mapping dalla sequenza alla mappa dei contatti

Le Reti Neurali imparano il mapping dalla sequenza alla mappa dei contatti

Set Banca Dati

Regole generali

Mapping noto

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Training

Page 25: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

T0087: 310 residues A=20 % (FR/NF)

N

C

Page 26: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

T0110: 128 residues A=30% (NF)

N

C

Page 27: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy
Page 28: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Verso la predizione della struttura 3D:Verso la predizione della struttura 3D:

Predittori basati su Reti Neurali

Predittori basati su Reti Neurali

La predizione dei ponti a zolfoLa predizione dei ponti a zolfo

Page 29: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Il Protein Folding

RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA

Page 30: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

I legami a zolfo tra cisteine nelle I legami a zolfo tra cisteine nelle proteineproteine

2-SH -> -SS- + 2H+ + 2e-

S-S distance 2.2 Å

Torsion angle C-S-S-C 90°

Bond Energy 3 Kcal/mol

S

SC CC

C

Page 31: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Bonding Non bonding

Neural Networks for the Prediction of the disulfide-bonding state of cysteines in

proteins

Neural Networks for the Prediction of the disulfide-bonding state of cysteines in

proteins

1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSCTGVAITSSGTKKGEL--FLGDV2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL

Page 32: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGLCSGDLPENGPGYWGNYKTFHDNAQKMCLKIARLNVEWSRIFPNP...

P(B|W1), P(F|W1) P(B|W3), P(F|W3)P(B|W2), P(F|W2)

W1 W2 W3

Cysteine free states

Cysteine bonding states

End

Begin

Most probable path through the states

Prediction of the bonding and non-bonding states of all the cysteines of the sequence

Page 33: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

71 144 106 207 187 80 35 55 18 16 4 16 0 7 1 8 2 4 0 0 0 1 1 3 0 0 0 0 0 1 0 0 0 1 1

0

10

20

30

40

50

60

70

80

90

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Correctly predicted proteins (%)

No of cysteines per proteinNo of proteins

NN-based predictor HNN-based predictor

Accuratezza per cisteina: 88%; per proteina: 84%

Il sistema ibrido

Protein Science, in press

Page 34: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

VGDKLIPLKITYDYYVCNNHMDTDTSYERWPALGTYRPLNGRDCVMNNHKLAASDRWECDQREPLYTCMCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLTHMNVVAGLCKLP

www.prion.biocomp.unibo.it/cyspred.html

Disulfide bonding cysteine

Free cysteine

VGDKLIPLKITYDYYVCNNHMDTDTSYERWPALGTYRPLNGRDCVMNNHKLAASDRWECDQREPLYTCMCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLTHMNVVAGLCKLP

Input

VGDKLIPLKITYDYYVCNNHMDTDTSYERWPALGTYRPLNGRDCVMNNHKLAASDRWECDQREPLYTCMCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLTHMNVVAGLCKLP

Output

Page 35: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

I PREDITTORI POSSONO ESSERE USATI PER SCOPRIRE NUOVE

PROTEINE?

Page 36: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

EcoGene/EcoProt

(bmb.med.miami.edu/EcoGene)

Protein coding genes: 4,173Structural RNAs : 120

Escherichia coli K12, genoma completo

Completed: Oct 13, 1998. Total Bases: 4,639,221 bp

NCBI (www.ncbi.nlm.nih.gov)Protein coding genes: 4,289

Structural RNAs: 115

Page 37: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

EcoGene/SwissProt functional annotation

Keywords of SwissProt entries (if exist) are extracted :

1253 NON ANNOTATED PROTEINS (30 %) 137 proteins don’t have SwissProt entry 1116 proteins don’t contain functional annotation in SwissProt

2160 ANNOTATED PROTEINS (52 %) 421 Inner membrane proteins 35 Outer membrane proteins 1704 Globular proteins

760 PARTIALLY ANNOTATED PROTEINS (18 %) proteins annotated as “Hypothetical proteins” and with other functional annotations 352 Inner membrane proteins

18 Outer membrane proteins 390 Globular proteins

Page 38: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Inner Membrane proteins(all -Transmembrane

proteins)

Outer Membrane proteins(all -Transmembrane

proteins)

Page 39: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

PROTEOME

Signal peptide

Yes

All- TM All- TM

No

No

All- TM

Yes

all -TM

Yes

all -TMY

esall -TM

No

Globular

No

Globular

HUNTER

Page 40: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

* the number of new proteins predicted in the class with Hunter, out of the non-annotated region

Predicting globular, inner and outer membrane proteins in genomes of Gram-negative bacteria with

Hunter

Page 41: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

http://www.biocomp.unibo.it

Welcome to the CIRB Biocomputing Group home page This is the Biocomputing unit of the CIRB Centro Interdipartimentale di Ricerche Biotecnologiche

Group Main Research Fields. Group Publications

Technology provider for the DRUG consortium of the NOTSOMAD TTN initiative.

BIOCOMPUTING GROUP

Group leader : Rita Casadio Group members:

Piero Fariselli Pier Luigi Martelli Emidio Capriotti Mario Compiani Ivan Rossi Gianluca Tasco

www.biocomp.unibo.it

Page 42: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Collaborazioni

ItaliaL.Masotti, Biochemistry, Bologna P.Mariani, Physics, AnconaM.Rossi, IBPE/CNR, Napoli G.Campadelli-Fiume, Pathology, BolognaG.Mita, IIGB/CNR, Napoli S.Prosperi, Veterinary, BolognaG.Irace, Biochemistry, Napoli F.Bernardi, Chemistry, BolognaD.Boraschi, CNR, Pisa S.Ciurli, Agricultural Chemistry, BolognaP.Arrigo, ICE/CNR, Genova C.Bergamini, Biochemistry, Ferrara

All’esteroB.Rost, Columbia University, New York A.Valencia, Protein Design Group, Cantoblanco, MadridP.Baldi, Genomics and Bioinformatics, Irvine, CaliforniaA.Krogh, University of Copenhagen, CopenhagenN.Ben Tal, Israel Insitute of Technology, Tel Aviv

Page 43: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Protein set

Testing set

The cross validation procedure

Training set

Page 44: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Evaluation of the performance

Q2 = ———————— = ——p+nN

correct predictionstotal predictions

P(x) = ———————————— = ——p

p+ocorrect predictions in class xtotal predictions in class x

Q(x) = ———————————— = ——p

p+ucorrect predictions in class xtotal observations in class x

C = Correlation index = —————————————p·n - o ·u

[(p+o) ·(p+u) ·(n+o) ·(n+u)]1/2

x Non-xx p u

Non-x o n

Predicted

Observed

Legend:

Page 45: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Evaluation of the efficiency of contact map predictions

1) Accuracy:

A = Ncp* / Ncpwhere Ncp* and Ncp are the number of correctly assigned contacts and that of total predicted contacts, respectively.

2) Improvement over a random predictor :

R = A / (Nc/Np)

where Nc/Np is the accuracy of a random predictor ; Nc is the number of real contacts in the protein of length Lp, and Np are all the possible contacts

3) Difference in the distribution of the inter-residue distances in the 3D structure for predicted pairs compared with all pair distances in the structure (Pazos et al., 1997):

Xd= i=1,n (Pic - Pia ) / n di

where n is the number of bins of the distance distribution (15 equally distributed bins from 4 to 60Å cluster all the possible distances of residue pairs observed in the protein structure); di is the upper limit (normalised to 60 Å) for each bin, e.g. 8 Å for the 4 to 8 Å bin; Pic and Pia are the percentage of predicted contact pairs (with distance between di and di-1 ) and that of all possible pairs respectively

Page 46: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

Protein set

Training set 1

Testing set 1

The cross validation procedure

Page 47: Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

PRINCIPI DI BASE DELLA STRUTTURA PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINEDELLE PROTEINE

Gli elementi della costruzione della struttura primaria

Amminoacidi Backbone della proteina