41
Appendice In questa appendice vengono riportati esercizi svolti e suggerimenti per esercizi da svolgere correlati agli argomenti più rilevanti trattati nel testo «Introduzione alla Bioinformatica». Per quanto riguarda la ricerca nelle banche dati biologiche i numeri di entries ottenuti e riportati negli esercizi che seguono, possono cambiare nel tempo a causa degli aggiornamenti sia delle banche dati sia del software tramite il quale si accede alle banche dati stesse. Ricerca nelle banche dati di sequenze genomiche umane codificanti la subunità 4 della citocromo c ossidasi. La citocromo c ossidasi, complesso omo-dimerico, localizzato nella membrana mito- condriale interna, partecipa al trasporto degli elettroni nella catena respiratoria mito- condriale. Ogni monomero è costituito da 13 subunità di cui 3 codificate dal geno- ma mitocondriale e 10 dal genoma nucleare. L’obiettivo dell’esercitazione è quello di selezionare i geni corrispondenti alla subunità 4 codificata dal genoma nucleare umano. L’esercizio qui proposto dimostra che utilizzando sistemi di retrieval (sistemi di ricerca e di estrazione dei dati) differenti si ottengono soluzioni diverse che sono strettamente dipendenti dalla formulazione sintattica delle query (formulazione sin- tattica della ricerca) e dal sistema utilizzato per effettuare la ricerca in banca dati. I sistemi di ricerca più facilmente disponibili e utilizzati in questo esercizio sono Entrez e SRS. Poiché la ricerca è finalizzata alla selezione di geni codificanti proteine è possibile raggiungere l’obiettivo sia partendo da banche dati proteiche per poi pas- sare alle sequenze nucleotidiche, attraverso il cross-referencing (Paragrafo 2.1), sia effettuando la ricerca direttamente nelle banche dati di sequenze nucleotidiche. A Ricerca in banche dati nucleotidiche e proteiche attraverso Entrez Ci si colleghi al sito di Entrez (http://www.ncbi.nlm.nih.gov/Entrez, Tabella 2.1). La ricerca viene iniziata partendo dalla interrogazione di banche dati nucleotidi- che, per cui bisogna innanzitutto scegliere la classe di dati su cui operare selezionan- do Nucleotide dal menu a tendina posizionato alla destra del tasto Search in alto a sinistra nella homepage di Entrez (cFigura A1.1). La ricerca viene quindi effettuata in più fasi; in particolare per l’esercizio qui riportato le fasi minime sono 3 anche se in realtà si sono effettuate 5 queries per sce- gliere fra due possibili vie. Non è infatti possibile ottenere il set di dati richiesto Esercizio 1 A Esercitazioni di bioinformatica

Appendice A - Esercitazioni di Bioinformatica

Embed Size (px)

Citation preview

Page 1: Appendice A - Esercitazioni di Bioinformatica

Appendice

In questa appendice vengono riportati esercizi svolti e suggerimenti per esercizi dasvolgere correlati agli argomenti più rilevanti trattati nel testo «Introduzione allaBioinformatica».

Per quanto riguarda la ricerca nelle banche dati biologiche i numeri di entriesottenuti e riportati negli esercizi che seguono, possono cambiare nel tempo a causadegli aggiornamenti sia delle banche dati sia del software tramite il quale si accedealle banche dati stesse.

Ricerca nelle banche dati di sequenze genomiche umane codificanti la subunità 4 della citocromo c ossidasi.

La citocromo c ossidasi, complesso omo-dimerico, localizzato nella membrana mito-condriale interna, partecipa al trasporto degli elettroni nella catena respiratoria mito-condriale. Ogni monomero è costituito da 13 subunità di cui 3 codificate dal geno-ma mitocondriale e 10 dal genoma nucleare. L’obiettivo dell’esercitazione è quello diselezionare i geni corrispondenti alla subunità 4 codificata dal genoma nucleareumano.

L’esercizio qui proposto dimostra che utilizzando sistemi di retrieval (sistemi diricerca e di estrazione dei dati) differenti si ottengono soluzioni diverse che sonostrettamente dipendenti dalla formulazione sintattica delle query (formulazione sin-tattica della ricerca) e dal sistema utilizzato per effettuare la ricerca in banca dati. Isistemi di ricerca più facilmente disponibili e utilizzati in questo esercizio sonoEntrez e SRS. Poiché la ricerca è finalizzata alla selezione di geni codificanti proteineè possibile raggiungere l’obiettivo sia partendo da banche dati proteiche per poi pas-sare alle sequenze nucleotidiche, attraverso il cross-referencing (Paragrafo 2.1), siaeffettuando la ricerca direttamente nelle banche dati di sequenze nucleotidiche.

A Ricerca in banche dati nucleotidiche e proteiche attraverso Entrez

Ci si colleghi al sito di Entrez (http://www.ncbi.nlm.nih.gov/Entrez, Tabella 2.1).La ricerca viene iniziata partendo dalla interrogazione di banche dati nucleotidi-

che, per cui bisogna innanzitutto scegliere la classe di dati su cui operare selezionan-do Nucleotide dal menu a tendina posizionato alla destra del tasto Search in alto asinistra nella homepage di Entrez (cFigura A1.1).

La ricerca viene quindi effettuata in più fasi; in particolare per l’esercizio quiriportato le fasi minime sono 3 anche se in realtà si sono effettuate 5 queries per sce-gliere fra due possibili vie. Non è infatti possibile ottenere il set di dati richiesto

Esercizio 1

AEsercitazioni di bioinformatica

Page 2: Appendice A - Esercitazioni di Bioinformatica

mediante la formulazione di una sola query a causa della complessità della ricerca. Siricorda che la formulazione di ciascuna ricerca viene effettuata combinando terminio frasi differenti mediante gli operatori logici AND, OR e NOT, sempre digitati inmaiuscolo. Una volta generate delle queries di base si opera la loro combinazionebooleana (Paragrafo 2.2) per produrre la query finale.

Query #1: poiché si richiede la selezione di sequenze genomiche umane la sintassi daformulare potrebbe essere Homo sapiens AND DNA o Human AND DNA. Ma bi-sogna essere consapevoli del fatto che nelle banche dati nucleotidiche il nome della spe-cie è annotato in latino nel campo Organism e che l’informazione sul tipo di molecola(DNA per sequenze genomiche e RNA per sequenze di cDNA) è annotata nella lineaID della banca dati EMBL e nella linea Locus delle banche dati GenBank e DDBJ.

Quindi per evitare la generazione di falsi positivi dovuti alla selezione di sequenzecontenenti le parole DNA, human o Homo sapiens in campi differenti dalla lineaOrganism o dalla linea ID, la corretta impostazione della query implica la digitazionenella finestra di query semplicemente di Homo sapiens associata all’attivazione dellafunzione Limits.

Cliccando infatti su L i m i t s appare la finestra riportata in cFigura A1.2 che consentedi limitare la ricerca al campo O r g a n i s m (si modifica dal menu a tendina All fields in O r-ganism), e inoltre di selezionare dal menu Molecule l’insieme Genomic/DNA. Infine,poiché la ricerca effettuata potrebbe introdurre delle entries relative al genoma mito-condriale umano nel quale sono codificati 13 geni per proteine i cui nomi contengonoalcuni la stringa «cytochrome c oxidase» e altri la stringa «subunit 4», che verranno uti-

A • Esercitazioni di bioinformatica © 88-08-07967-8240

Figura A1.1Home Page del sistema diretrieval Entrez.

Page 3: Appendice A - Esercitazioni di Bioinformatica

lizzate nella query 2 (cTabella A1.1), si è anche operata dal menu Gene Location la re-strizione Genomic DNA/RNA, che automaticamente esclude tutte le sequenze mito-condriali. Dopo aver impostato queste limitazioni si clicca su G o per lanciare la richie-sta. Come riportato in Tabella A1.1 si sono ottenute 1 3 11 706 entries (settembre 2002).

Query #2 e #3: obiettivo è in questo caso ricercare tutte le sequenze nucleotidichecodificanti per la subunità 4 della citocromo c ossidasi. La complessità del problemaè dovuta all’annotazione non rigorosa dei nomi di geni e proteine nelle banche datiprimarie (Paragrafo 2.4) e quindi bisogna combinare, attraverso l’uso degli operatorilogici, termini sinonimi e termini parziali. Le query 2 e 3 sono associate a differentifrasi che l’utente può formulare consapevole che la subunità 4 della citocromo cossidasi può essere annotata in vari modi nella banca dati. Dai numeri riportati inTabella A1.1 (1297 e 627) si evince la sensibilità del sistema di retrieval. Si noti chedopo aver effettuato la query 1 è necessario disattivare Limits perché la ricerca vengafatta su Alltext e in qualsiasi classe di sequenza dal punto di vista del tipo di moleco-la e della localizzazione cellulare.

Una volta terminate le selezioni, cliccando su History dal top della homepage diEntrez è possibile avere un quadro completo delle operazioni svolte e anche i numeriassociati a ciascuna query (cFigura A1.3). Tale informazione consente quindi dicombinare le queries e ottenere i dati finali. In particolare, combinando la query #1

© 88-08-07967-8 A • Esercitazioni di bioinformatica 241

Figura A1.2Ricerca di sequenze genomi-che umane attraverso Entrez.

Query# Formulazione della Query N. di Entries selezionate

#11 Search #10 AND #5 9

#10 Nucleotide Links for Protein (Search #6 AND #7 AND #8) 13

#5 Search #1 AND #3 10

#4 Search #1 AND #2 14

#3 Search cytochrome c oxidase subunit 4 OR cytochrome c oxidase subunit iv OR cox4 627

#2 Search cytochrome c oxidase AND (subunit 4 OR subunit iv OR cox4) 1297

#1 Search homo sapiens Field: Organism, Limits: Genomic DNA/RNA, Genomic DNA/RNA 1311706

Tabella A1.1. Visualizzazione attraverso l’opzione History di Entrez delle operazioni svolte sulla banca dati di nucleotidi.

Page 4: Appendice A - Esercitazioni di Bioinformatica

con la query #2 o la query #1 con la query #3 si ottengono rispettivamente le queries#4 e #5; si noti che la query #4 contiene 4 entries in più che tuttavia costituisconofalsi positivi. Inoltre si fa notare che il numero di entries potrebbe essere differentetenendo conto che i nomi dei geni e delle proteine sono annotati in modo differentein entries differenti sia per errore di digitazione sia per l’esistenza di sinonimi asso-ciati a una stessa funzione. In particolare si sono riscontrate entries nelle banche datinucleotidiche in cui la funzione della citocromo c ossidasi è annotata erroneamentecome «cytocrome c oxidase» oppure anche «cytochrome c oxydase», per cui peresempio si sarebbe dovuta modificare la query 2 nel seguente modo: «(cytochrome coxidase OR cytocrome c oxidase OR cytochrome c oxydase) AND (subunit 4 ORsubunit iv OR cox4)» da cui si sarebbe ottenuto un numero di entries maggiore.

Gli accession number associati alle entries selezionate rispettivamente nelle que-ries 4 e 5 sono elencati in Tabella A1.3 in confronto con i risultati ottenuti attraversoricerche qui di seguito descritte. Si noti che fra le entries selezionate risultano 6entries nel primo caso e 3 nel secondo il cui accession number inizia con NT; trattasidi entries relative al genoma umano prodotto dal Consorzio Pubblico. Quando ilsistema Entrez visualizza il risultato di una selezione, fornisce un elenco deglientry_name delle sequenze selezionate. Cliccando su questi ultimi è possibile leggerele informazioni associate a ciascuna entry e dalla entry è possibile scegliere unamodalità di visualizzazione differente.

Per esempio cliccando sulla sequenza AF017115 si ha l’intera entry a video e da lìsi può scegliere il Display in modalità Graphics: si ottiene l’immagine riportata incFigura A1.4 dalla quale si evince anche la struttura del gene.

Alternativamente, sull’intero set di sequenze associate a una query o, su un sot-toinsieme definito marcando i box a sinistra del nome della entry, è possibile selezio-nare, dal menu a tendina associato al comando Display, differenti formati di visualiz-zazione o salvataggio dei dati (cBox A1.1), o la visualizzazione di informazioni asso-ciate relative alle proteine, alla letteratura o ad altri tipi di dati annotati nelle banchedati strutturate in Entrez. In particolare partendo dalle 10 entries della query #5 ecliccando su Display Protein Links si ottengono 696 entries di sequenze proteiche sucui occorre però effettuare una revisione. Una possibile via per la revisione è quelladi effettuare sulla banca dati di proteine la ricerca di sequenze proteiche umanecodificanti la subunità 4 della citocromo c ossidasi, come descritto nelle queries 7 e 8riassunte in cTabella A1.2. Dopodiché si combinano i risultati ottenuti relativamen-te alle queries 6, 7 e 8, ricordandosi sempre di disattivare Limits: si ottengono così 9

A • Esercitazioni di bioinformatica © 88-08-07967-8242

Figura A1.3Visualizzazione attraversol’opzione History di Entrezdelle ricerche effettuate sudati nucleotidici.

Page 5: Appendice A - Esercitazioni di Bioinformatica

entries. Selezionando quindi da History la query 9 (Tabella A1.2) è possibile effettua-re il Nucleotide Link dal menu Display. Tale operazione produce una lista di 13entries nucleotidiche (query #10 in Tabella A1.1). È possibile ora intersecare laquery 10 con la query 5 e si ottengono così alla fine 9 entries genomiche umane con-tenenti il gene per la subunità 4 della citocromo c ossidasi (Tabella A1.3)

Si noti che la entry AF02744 presente nella query #5 non viene ritrovata nellaquery # 11 perché il software di strutturazione dati di Entrez non ha attivato linksalle proteine per tale entry.

© 88-08-07967-8 A • Esercitazioni di bioinformatica 243

Figura A1.4Visualizzazione della entryAF017115 attraverso l’opzio-ne Display Graphics di Entrez.

Query# Formulazione della Query N. di Entries selezionate

#9 Search #6 AND #7 AND #8 9

#8 Search homo sapiens Field: Organism, Limits: Genomic DNA/RNA 173030

#7 Search cytochrome c oxidase subunit 4 OR cytochrome c oxidase subunit iv OR cox4 141

#6 Protein Links for Nucleotide (Search #1AND #3) 696

Tabella A1.2. Visualizzazione attraverso l’opzione History di Entrez delle operazioni svolte sulla banca dati di proteine.

Page 6: Appendice A - Esercitazioni di Bioinformatica

B Ricerca in banche dati nucleotidiche e proteiche attraverso SRS.

La ricerca in SRS richiede innanzitutto l’attivazione della sessione di ricerca cliccandosu Start dalla homepage. Si noti che i dati qui riportati sono correlati a una ricerca ef-fettuata sul server SRS del nodo EMBnet Italiano (http://bighost.area.ba.cnr.it/srs,SRS-BIG); la procedura è analoga se svolta su uno qualsiasi dei server SRS disponibilivia web anche se i risultati ottenuti sulla stessa banca dati ma su servers diversi posso-no variare a causa di un diverso stato di aggiornamento o di una diversa indicizzazionedei dati.

L’attivazione tramite Start conduce sulla Top Page (cFigura A1.5) dove è possibileselezionare le banche dati su cui operare. In questo caso si seleziona la banca datiEMBL, che corrisponde all’ultimo release (EMBL Release ) più tutto ciò che costi-tuisce l’aggiornamento (EMBLnew) a partire dall’emissione dell’ultimo release, edalla sezione Genome la banca dati Human Genome. A questo punto si è pronti aeffettuare la Query e si hanno due moduli alternativi (forms) da compilare: lo Stan-dard Query Form o l’ Extended Query Form.

Selezionare il modulo Extended e introdurre nel campo Alltext la stringa «cytoch-rome c oxidase subunit 4 | cytochrome c oxidase subunit iv | cox4» (si noti che glioperatori logici AND, OR e NOT sono codificati in SRS con i simboli &, | e ! rispet-tivamente); inoltre nell’Extended query form si introduce nel campo Organism ilvalore Homo sapiens si seleziona dal campo Molecule il valore DNA. A questo pun-to cliccando su Submit query (cFigura A1.6) si ottiene in una unica query il risultatofinale che però in questo caso corrisponde a solo 5 entries (cFigura A1.7). È possibi-le a questo punto visualizzare il contenuto di ciascuna entry indipendentemente clic-cando sulla entry oppure utilizzando l’opzione View (a sinistra della pagina attiva)scegliendo dal menu a tendina il formato con cui visualizzare i dati. Si noti che èanche possibile disegnare un formato personale di visualizzazione dei dati attraversola funzione View attivabile dalla barra delle funzioni attiva in ogni videata SRS.

Inoltre sempre dalla sinistra della pagina attiva è possibile effettuare il link ad altrebanche dati partendo dalla query attiva. Le stesse operazioni possono essere effettuatecliccando su R e s u l t s e selezionando la query di nostro interesse. In particolare ora si fac-cia il link a SWISSPROT partendo dall’ultima query effettuata (Figura A1.7). Si ot-tengono 4 entries. Alternativamente si può selezionare dalla To p p a g e la banca datiS W I S S P R O T e ricercare attraverso la E x t e n d e d Q u e r y F o r m sequenze proteiche per le

A • Esercitazioni di bioinformatica © 88-08-07967-8244

Figura A1.5Selezione delle banche datisu cui effettuare la ricerca uti-lizzando il sistema SRS delserver nel nodo EMBnet ita-liano.

Page 7: Appendice A - Esercitazioni di Bioinformatica

quali il G e n e N a m e sia c o x 4 e O r g a n i s m sia Homo sapiens; si ottengono 3 entries, sot-toinsieme coincidente con 3 delle 4 ottenute attraverso il S u b m i t l i n k da EMBL aSWISSPROT. In effetti il link ha generato una query che contiene la entry proteicaID1_HUM non codificante la cox4: ciò è dovuto alla presenza nei dati selezionati sullebanche dati nucleotidiche di una entry (la HSJ857M1) che contiene più geni e quindi illink produce entries codificanti anche proteine differenti. Una sintesi delle selezioni ef-fettuate con i due sistemi, Entrez e SRS è riportata in cTabella A1.3.

In analogia con Entrez per visualizzare la sintesi delle operazioni effettuate si puòattivare la pagina Results dalla quale è possibile visualizzare con il comando View

© 88-08-07967-8 A • Esercitazioni di bioinformatica 245

Figura A1.6Ricerca di sequenze genomi-che umane codificanti la sub-unità 4 della Citocromo cOssidasi attraverso la Exten-ded Form di SRS.

Figura A1.7Risultato della ricerca effettua-ta secondo le modalitàmostrate in Figura A1.6.

Page 8: Appendice A - Esercitazioni di Bioinformatica

una o più queries, salvare i dati selezionati in formati differenti, effettuare il link adaltre banche dati strutturate sullo stesso server SRS, combinare secondo la logicabooleana, mediante le funzioni Combine ed Expression, queries differenti.

Infine se si volesse estrarre dalle sequenze di citocromo c ossidasi solo la parte tra-ducibile in proteina (indicata nelle feature tables con la Feature Key CDS (Paragrafo2.4), o solo le sequenze introniche, si potrebbe ripetere la query n.1 selezionandoanche nella Extended Query Form dal menu a tendina delle Feature Key il valoreCDS o intron: ciò genererebbe una query di sottosequenze che contiene però ancheCDS o introni relativi ad altri geni presenti nella stessa entry dove è riportata lasequenza e la relativa annotazione della citocromo c ossidasi, subunità 4. Il cheimplicherebbe l’eliminazione «manuale» dalla lista delle sequenze di entries non per-tinenti la ricerca.

A • Esercitazioni di bioinformatica © 88-08-07967-8246

Entrez Entrez Entrez SRS CommentiNucleotidi Nucleotidi Nucleotidi EMBLrelease+HumanGenomeQuery #4 Query #5 Query #11 +EMBLnew

NT_010704 Falso positivo perchè la ricerca prevedeva la presen-za in punti diversi della entry di «subunit 4» e «cyto-chorme c oxidase»

NT_006328 Falso positivo perchè la ricerca prevedeva la presen-za in punti diversi della entry di «subunit 4» e «cyto-chorme c oxidase»

NT_005058 Falso positivo perchè la ricerca prevedeva la presen-za in punti diversi della entry di «subunit 4» e «cyto-chorme c oxidase»

NT_024767 NT_024767 NT_024767 NT_024767

NT_028392 NT_028392 NT_028392 NT_028392

NT_025892 NT_025892 NT_025892 Non presente al sito SRS BIG per un problema disincronizzazione degli aggiornamenti dei dati fra idue sistemi Entrez e SRS

AL117381 AL117381 AL117381 AL117381

AF005889 AF005889 AF005889 AF005889

AF017115 AF017115 AF017115 AF017115

AH005828 AH005828 AH005828 Entry Master generata dalla GenBank come Mergedelle entries AF042746, AF042745, AF042744 enon presente nella EMBL

AF042746 AF042746 AF042746 Non presente nella query SRS per errata indicizzazio-ne dei dati

AF042745 AF042745 AF042745 Non presente nella query SRS per errata indicizzazio-ne dei dati

AF042744 AF042744 Non presente nella query SRS e nella query #11Entrez per errata indicizzazione dei dati

X58139 Errore nelle features : subunit iv anziché subunit vi

Tabella A1.3. Confronto dei risultati ottenuti nelle ricerche di sequenze nucleotidiche codificanti la subunità 4 della citocromo c ossidasi umana attraverso i sistemiEntrez e SRS.

Page 9: Appendice A - Esercitazioni di Bioinformatica

© 88-08-07967-8 A • Esercitazioni di bioinformatica 247

FORMATO DELLE SEQUENZE

Un aspetto molto importante da considerare è che lesequenze che vengono selezionate dalle banche dati con idiversi sistemi di interrogazione vanno poi estratte e depo-sitate nel proprio computer per poter compiere successiva-mente ulteriori analisi o comunque in generale vanno sot-tomesse ai differenti programmi in formati specifici.

Per compiere questa operazione bisogna fare attenzioneal formato con il quale le sequenze vengono estratte per-ché molti programmi di analisi sono in grado di riconosce-re solo alcuni formati.

Il formato più semplice in assoluto è il formato FASTA nelquale ogni sequenza viene scritta con una riga di intestazio-ne che riporta il nome della entry preceduta dal simbolo«>» e quindi di seguito sulle righe successive la sequenzastessa. Più sequenze possono essere scritte una sotto l’altra.

Se si usa il sistema ENTREZ e si vuole visualizzare o salva-

re le sequenze in formato FASTA si deve cliccare su Displayo Save previa selezione del formato FASTA dal menu a ten-dina. Le sequenze così visualizzate potranno essere diretta-mente «copiate» e «incollate» in altre applicazioni, oppuresalvate in un file nel proprio computer per un utilizzo suc-cessivo. Analogamente si opera con il sistema SRS e connumerosi altri sistemi tramite i quali sia possibile estrarrebiosequenze. Altri formati molto utilizzati sono il formatoGCG, PAUP, o PIR. Non tutti i sistemi di retrieval consentonol’estrazione dei dati in tutti i formati, è tuttavia possibileconvertire i formati utilizzando programmi disponibili sullarete (http://www.ebi.ac.uk/readseq/index.html) o utiliz-zando lo stesso programma ReadSeq incluso nel pacchettoGCG. Qui di seguito è mostrata una sequenza estratta daSRS in formato FASTA a e poi convertita mediante il pro-gramma Readseq in formato GCG b.

Box A1.1

a>MMGOLLI4GTGAGCTCCGAGCCGTAGAGAAGCTGTGGGTTTAAATGCGGAAAGGAAGGAGAGGTGGGCAGGTGGAACTGGGCCAGTCACCATCGCAGAGCAACCGTGTCCCTGTGTCTGAGATACTAGCCCTGATCGGACAGTGCTGATGGCCTGGGGGATTGGGCGTGGAGTGGGCGTGGTCGCCACTTAGCCAATTTCTACTTGTTTTGCTCCTTTGTCCTTCTCACAGGGACTGCGATTGGGTGTCACTCAGGAATGCAATGCCTTCTGCATCCTAACTTGAGGCACCCAGGATGTAGCATTGAGCCTATGGGTTCCTAGGTATACATGCCCTATGCCTGGGCTTCAGCAGATCCTGCCTCTGCGCAGTGCTTCCGGGTTTCGAACCTCAGCTGTGCTCATTCTCTGCTGGGTACAGGCTGCTAATTGCTTGCCGCTGTGAAACAATGGTCCAATTGAGGCGAGGAGGTCTGCCGACTGACCTCTGCACCTCCAGCAAACTTTCCTCTTTGTCCTATGTAGTTTGGTGGGGGTGAATGAATGAATGGTGTTCATGACAAAAAAAAAAATGTGTGATTCCGTTAATTTAAATATAACTTGTGGTTTCAAAAGCAAATGCCCTGTGTTAAAATGTATCAGAAGATAAAATTGTGCAGATGGTCTAGTTTCAAGGGCAACATCTGGGGTGGGTTACTCATGAGCCTGGTCAGTTTCGTCTTGTGGCAGGTGGCTGCCACCTTGTAAGTGTATGGCATTTTTCCATCTCTCTGTTGGATAGCTGAGCAACTCTTGGGAGAGATATGGATGGGCCATTAAAACAAGCCCAGGTCTTTGAGTACCCTCTCAGCCTGGGCAACTTTTCTGCCTGTAAGTTGTGTCTGTTGTCAAAACTCTGGCGAACGCAAGAGGCTTTTGACTGAGATGTAGCAGAGGCCCCTCCACGGCTCTAGGCGCATTGGCAGTGCAGTTTTGAAAATGCTGTAGTCTCCAGCCACACCTTTGAGCGTGGGGATGGTTGTGAAATGCTGTACCTAATGACGGCTCTCCTGCCCCGTGGCCACCAGAGCCCCTTGGTGTCTCAGCAGCAGTCTGGCCCTCGCCTTGGATGTCAGCGCTACTTGTCATTAACACTGGATATGTCTCACTTGCTAACAGAATTC

bMMGOLLI4

MMGOLLI4 Length: 1154 Oct 25, 2002 11:27 Check: 754 ..1 GTGAGCTCCG AGCCGTAGAG AAGCTGTGGG TTTAAATGCG GAAAGGAAGG51 AGAGGTGGGC AGGTGGAACT GGGCCAGTCA CCATCGCAGA GCAACCGTGT101 CCCTGTGTCT GAGATACTAG CCCTGATCGG ACAGTGCTGA TGGCCTGGGG151 GATTGGGCGT GGAGTGGGCG TGGTCGCCAC TTAGCCAATT TCTACTTGTT201 TTGCTCCTTT GTCCTTCTCA CAGGGACTGC GATTGGGTGT CACTCAGGAA251 TGCAATGCCT TCTGCATCCT AACTTGAGGC ACCCAGGATG TAGCATTGAG301 CCTATGGGTT CCTAGGTATA CATGCCCTAT GCCTGGGCTT CAGCAGATCC351 TGCCTCTGCG CAGTGCTTCC GGGTTTCGAA CCTCAGCTGT GCTCATTCTC401 TGCTGGGTAC AGGCTGCTAA TTGCTTGCCG CTGTGAAACA ATGGTCCAAT451 TGAGGCGAGG AGGTCTGCCG ACTGACCTCT GCACCTCCAG CAAACTTTCC501 TCTTTGTCCT ATGTAGTTTG GTGGGGGTGA ATGAATGAAT GGTGTTCATG551 ACAAAAAAAA AAATGTGTGA TTCCGTTAAT TTAAATATAA CTTGTGGTTT601 CAAAAGCAAA TGCCCTGTGT TAAAATGTAT CAGAAGATAA AATTGTGCAG651 ATGGTCTAGT TTCAAGGGCA ACATCTGGGG TGGGTTACTC ATGAGCCTGG701 TCAGTTTCGT CTTGTGGCAG GTGGCTGCCA CCTTGTAAGT GTATGGCATT751 TTTCCATCTC TCTGTTGGAT AGCTGAGCAA CTCTTGGGAG AGATATGGAT801 GGGCCATTAA AACAAGCCCA GGTCTTTGAG TACCCTCTCA GCCTGGGCAA851 CTTTTCTGCC TGTAAGTTGT GTCTGTTGTC AAAACTCTGG CGAACGCAAG901 AGGCTTTTGA CTGAGATGTA GCAGAGGCCC CTCCACGGCT CTAGGCGCAT951 TGGCAGTGCA GTTTTGAAAA TGCTGTAGTC TCCAGCCACA CCTTTGAGCG1001 TGGGGATGGT TGTGAAATGC TGTACCTAAT GACGGCTCTC CTGCCCCGTG1051 GCCACCAGAG CCCCTTGGTG TCTCAGCAGC AGTCTGGCCC TCGCCTTGGA1101 TGTCAGCGCT ACTTGTCATT AACACTGGAT ATGTCTCACT TGCTAACAGA1151 ATTC

Page 10: Appendice A - Esercitazioni di Bioinformatica

Una volta ottimizzata l’impostazione corretta della query form o ancora più ingenerale dei vari passaggi svolti attraverso l’esecuzione di più queries e i passaggiattraverso i links da una banca dati all’altra e viceversa, è possibile, mediante la fun-zione Projects, scaricare in un file i comandi corretti. Il file potrà quindi essere riuti-lizzato in momenti successivi per aggiornare una collezione di dati ottenuta attraver-so il percorso memorizzato nel file. Sarà sufficiente collegarsi, attivare dalla Top pagela prima banca dati su cui il progetto lavora e quindi effettuare l’Upload del file cheautomaticamente genererà tutte le queries associate con i relativi dati incrementatidegli eventuali aggiornamenti.

Ricerca di sequenze di citocromo c ossidasi umanemediante ricerca di similarità in banche dati (Database Similarity Searching)

Nei Paragrafi 3.4.1 e 3.4.2 sono stati descritti i metodi FASTA e BLAST che consen-tono di individuare sequenze fra loro simili effettuando uno screening di unasequenza a funzione incognita contro tutte le sequenze annotate nelle banche dati dibiosequenze e funzionalmente caratterizzate.

Nel caso in cui le sequenze collezionate nelle banche dati di biosequenze non sianoannotate correttamente, può accadere che non si riesca a selezionarle con i sistemi diretrieval che sono stati fin qui esaminati. Per ovviare a questo problema si possono ri-cercare le sequenze non in base alle informazioni a esse associate, ma sulla base dellasimilarità di sequenza. Si utilizza quindi un programma per «database similarità sear-ching» come FASTA o BLAST: in questo caso la sequenza sonda ha funzione nota e siricercano in banca dati eventuali sequenze omologhe che non siano state selezionatedurante il retrieval a causa di una superficiale annotazione dei dati.

È sempre più conveniente, laddove sia possibile, effettuare la ricerca confrontan-do sequenze proteiche piuttosto che sequenze nucleotidiche per rendere la ricercapiù selettiva.

Si seleziona la sequenza P13073 presente nelle liste SWISSPROT ottenute conl’Esercizio n. 1 e si sottomette questa sequenza al BLAST contro le sequenze protei-che. Per effettuare la ricerca con il programma BLAST ci si collega al corrisponden-te sito dell’NCBI (http://www.ncbi.nlm.nih.gov/blast) e si selezionano Standard pro-tein-protein blast (blastp). Nella finestra Search si può incollare la sequenza in forma-to FASTA oppure scrivere il solo accession number. Per lanciare il programma siclicca su «BLAST!». Cliccando quindi su Format!, appare una finestra che mette l’u-tente in attesa del risultato automaticamente visualizzato a termine dell’esecuzione.

La cFigura A1.8 riporta i risultati dell’analisi della proteina P13073 contro la SWIS-SPROT utilizzando i parametri di default con l’unica modifica relativa alla soglia di si-gnificatività statistica E che è stata posta uguale a 0,0001 (Paragrafo 3.4.2). L’output delBLAST riporta una prima visualizzazione grafica del risultato: le sequenze simili conscores superiori al valore soglia stabilito sono raggruppate in gruppi indicati nel mul-tiallineamento con colori differenti. Segue quindi la lista degli scores migliori che han-no un valore di E inferiore alla soglia prestabilita. Infine l’output riporta l’allineamento(non mostrato in figura) delle sequenze (indicate come S b j c t) per le quali si è riscontratoun significativo grado di similarità con la sequenza sonda utilizzata (indicata conQuery). Come atteso la sequenza più significativa è la stessa sequenza che si è usato co-me sonda. Le sequenze sono elencate in ordine di significatività decrescente espressa dalvalore Expect che riporta il numero atteso di matches con score uguale o maggiore aquello calcolato. Alternativamente si può utilizzare il programma BlastP implementatosul server SRS dell’EBI. È in questo caso sufficiente selezionare la sequenza P13073 dal-la banca dati SWISSPROT e quindi lanciare BlastP con il comando Launch attivabiledalla frame a sinistra della Results page di SRS.

Esercizio 2

A • Esercitazioni di bioinformatica © 88-08-07967-8248

Page 11: Appendice A - Esercitazioni di Bioinformatica

© 88-08-07967-8 A • Esercitazioni di bioinformatica 249

Figura A1.8Output della applicazione diBLAST.

Page 12: Appendice A - Esercitazioni di Bioinformatica

I risultati ottenuti possono essere visualizzati in vario modo fra cui nella modalitàBlast_view che è visibile in cFigura A1.9 dove sono riportati alcuni degli allineamen-ti relativi alle sequenze proteiche che danno i più significativi risultati del BlastP diP13073 contro SWISSPROT.

Si sono ottenute 29 sequenze proteiche con un significativo grado di similarità: diqueste solo una proteina è umana, sembra cioè che non siano andate perse delleinformazioni attraverso il retrieval. Comunque i risultati hanno fornito un elenco disequenze di cox4 di altri organismi dalle quali è possibile partire per ulteriori analisi.Si evince la presenza di un dominio conservato che identifica la proteina come Cox4.

A • Esercitazioni di bioinformatica © 88-08-07967-8250

Figura A1.9Rappresentazione in modalitàBlast_view dell’output otte-nuto da BLAST medianteSRS.

Page 13: Appendice A - Esercitazioni di Bioinformatica

Si noti come tale dominio non copra la parte N-terminale che corrisponde al peptidesegnale che viene rimosso nel processo di import mitocondriale. Si prende comun-que nota di tutte le sequenze omologhe di cox4 che si è riusciti a individuare relativea specie di mammiferi.

Si provi a effettuare un retrieval con ENTREZ o SRS per effettuare una selezione disequenze di cox4 di mammiferi confrontando i risultati ottenuti con quelli del BLAST.

Si riportino in una tabella gli accession numbers (AC) relativi alle sequenze nucleo-tidiche e proteiche selezionate. Di seguito se ne riporta una parte come esempio.

Specie AC nt AC prot L (aa)

Homo sapiens NM_001861.2 NP_001852 169

Bos taurus L34012-15 P00423 169

… … … …

Costruzione di un multiallineamento o di un suo «profilo»

Per poter applicare un programma per il multiallineamento delle sequenze è neces-sario creare un file che contenga tutte le sequenze che si desidera allineare. Per effet-tuare ciò si selezionano le sequenze tramite SRS o Entrez e quindi sulla query risul-tante si opera con il comando Save nel caso di SRS o con il comando Display nel casodi Entrez. In entrambi i casi è possibile selezionare il formato FASTA (Box A1.1): idati mostrati a video vengono poi salvati in un file mediante il comando «Salva connome» del browser utilizzato.

Il file ottenuto può essere utilizzato come input al programma ClustalW, disponi-bile al sito http://www2.ebi.ac.uk/clustalw/. Per eseguire il programma si utilizzeràla funzione Upload che permette di scaricare dal PC il file precedentemente genera-to, e quindi si avvierà il programma cliccando su Run lasciando invariati i parametriimpostati con i valori di default.

L’output del programma mostra il multiallineamento ponendo un «*» in corri-spondenza dei residui conservati tra tutte le sequenze e «:» in corrispondenza dei sitisimili dal punto di vista chimico-funzionale. In questo modo è possibile individuare iresidui più importanti per l’attività funzionale della proteina.

Alternativamente dal server SRS dell’EBI è possibile lanciare il programma Clu-stalW previa selezione delle sequenze che si vogliono multiallineare. La cFiguraA1.10 riporta l’output della applicazione di ClustalW attraverso l’opzione Launchattiva sul server SRS dell’EBI; l’applicazione è stata eseguita su 24 sequenze selezio-nate in SWISSPROT utilizzando i criteri Alltext 5 COX4 e Organism 5 mammalia.

Nella analisi con BLAST erano state individuate alcune sequenze con significativa si-milarità a Cox4 in Drosophila melanogaster. L’informazione ottenuta nel multiallinea-mento è fondamentale per stabilire se tali sequenze sono effettivamente omologhe aCox4. In questo caso, infatti, i residui conservati nel multiallineamento dovrebberorisultare conservati anche in Drosophila e altri organismi evolutivamente distanti.

In alcuni casi può essere conveniente usare un server di calcolo «locale» piuttostoche una risorsa disponibile sul web per eseguire un programma per analisi bioinfor-matiche. Naturalmente il programma in questione deve essere opportunamenteinstallato perché possa essere eseguito. I server di calcolo più utilizzati adottano ilsistema operativo unix o linux.

Per l’esecuzione del programma ClustalW in questo caso basta digitare sulla lineadi comando semplicemente «clustalw». Il cBox A1.2 riporta l’esempio di esecuzionesu macchina unix del programma ClustalW su un piccolo campione di cinque cox4di mammifero (in grassetto sono riportati gli input forniti dall’utente).

Esercizio 3

© 88-08-07967-8 A • Esercitazioni di bioinformatica 251

Page 14: Appendice A - Esercitazioni di Bioinformatica

Dopo la costruzione di un multiallineamento di sequenze proteiche della subunità 4della citocromo c ossidasi si vuole individuare, nelle banche dati, sequenze omolo-ghe molto divergenti che non è stato possibile individuare con i normali programmiper «database similarity searching». Per questo scopo è necessario costruire un «pro-filo» del multiallineamento e poi ricercare tale profilo nella banca dati delle proteine.

Per la costruzione del profilo verrà usato il programma PROFILEMAKE del pac-chetto GCG.

Per eseguire i programmi GCG è necessario che questo pacchetto sia stato istallatosul server di calcolo utilizzato e sia inizializzato ogni volta che ci si collega mediante illogin al server. Per inizializzare il pachetto GCG basta digitare gcg e «invio», dopodi-ché il server è in grado di associare a ciascun comando i nomi dei programmi e dellebanche dati facenti parte del pacchetto. Per maggiori dettagli sul pacchetto GCG esull’uso dei programmi si rimanda al sito http://bighost.area.ba.cnr.it/BIG/GCGMa-nual.

Per l’esecuzione del programma PROFILEMAKE è necessario dare in input un

A • Esercitazioni di bioinformatica © 88-08-07967-8252

Figura A1.10Output dell’applicazione diClustalW eseguita con l’opzio-ne Launch di SRS.

Page 15: Appendice A - Esercitazioni di Bioinformatica

allineamento leggibile dai programmi GCG e quindi in formato «msf». Si trattaquindi di salvare il multiallineamento generato dal programma ClustalW nel formato«msf»

Il file «msf» viene elaborato dal programma PROFILEMAKE per costruire ilprofilo del multiallineamento. Tale profilo verrà depositato in un file che avrà esten-sione «prf» (per esempio cox4.prf).

Una volta generato il profilo dell’allineamento è possibile fare una ricerca del pro-filo in tutta la banca dati SWISSPROT. A questo scopo viene usato il programmaPROFILESEARCH che fornisce come risultato un elenco di tutte le sequenze pro-teiche aventi un significativo livello di similarità con il profilo dato in input.

Al fine di visualizzare l’allineamento tra il profilo e una o più sequenze individua-te dalla precedente ricerca potranno essere utilizzati i programmi PROFILEGAP ePROFILESEGMENTS del pacchetto GCG.

Come già fatto rilevare nel Paragrafo 1.2, essendo il pacchetto GCG un pacchettocommerciale, una valida alternativa viene offerta dal pacchetto EMBOSS, realizzatodalla comunità EMBnet, e liberamente scaricabile e installabile da parte di un utentebioinformatico avanzato (http://www.hgmp.mrc.ac.uk/cgi-bin/menucombo.cgi).

Su questo sito è anche possibile rilevare le corrispondenze fra programmi GCG eprogrammi EMBOSS. Nel caso di PROFILESEARCH il corrispondente inEMBOSS è PROFIT. Comunque la tabella delle corrispondenze è visibile al sitohttp://www.no.embnet.org/Programs/SAL/EMBOSS/fromGCG.php3.

In realtà, nella maggior parte dei casi non è necessario costruirsi ex-novo un profi-lo ma può essere sufficiente utilizzare InterPro (Paragrafo 2.6).

Ci si collega a tal fine al sito InterPro e si effettua un Text Search per cox4, vieneselezionata la entry InterPro IPR004203 (cFigura A1.11) cui corrispondono 36 pro-

© 88-08-07967-8 A • Esercitazioni di bioinformatica 253

Figura A1.11Entry InterPro relativa allasubunità 4 della Citocromo cOssidasi.

Page 16: Appendice A - Esercitazioni di Bioinformatica

A • Esercitazioni di bioinformatica © 88-08-07967-8254

APPLICAZIONE, SU UN CALCOLATORE CONFIGURATO CON SISTEMA OPERATIVO UNIX, DEL PROGRAMMA CLUSTALW PER IL MULTIALLINEAMENTO DI BIOSEQUENZE

********************************************************************** CLUSTAL W (1.81) Multiple Sequence Alignments *******************************************************************

1. Sequence Input From Disc2. Multiple Alignments3. Profile / Structure Alignments4. Phylogenetic treesS. Execute a system commandH. HELPX. EXIT (leave program)

Your choice: 1Sequences should all be in 1 file.7 formats accepted:NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF.Enter the name of the sequence file: fileSequence format is PearsonSequences assumed to be PROTEIN

Sequence 1: gi|4502981|ref|NP_001852.1| 169 aaSequence 2: gi|117085|sp|P00423|CX41_BOVIN 169 aaSequence 3: gi|8393180|ref|NP_058898.1| 169 aaSequence 4: gi|5921895|sp|O46577|CX41_PANT 144 aaSequence 5: gi|6753498|ref|NP_034071.1| 169 aa

********************************************************************** CLUSTAL W (1.81) Multiple Sequence Alignments **********************************************************************

1. Sequence Input From Disc2. Multiple Alignments3. Profile / Structure Alignments4. Phylogenetic treesS. Execute a system commandH. HELPX. EXIT (leave program)

Your choice: 2****** MULTIPLE ALIGNMENT MENU ******

1. Do complete multiple alignment now (Slow/Accurate)2. Produce guide tree file only3. Do alignment using old guide tree file4. Toggle Slow/Fast pairwise alignments = SLOW5. Pairwise alignment parameters6. Multiple alignment parameters7. Reset gaps before alignment? = OFF8. Toggle screen display = ON9. Output format optionsS. Execute a system commandH. HELPor press [RETURN] to go back to main menu

Your choice: 9********* Format of Alignment Output *********

1. Toggle CLUSTAL format output = ON2. Toggle NBRF/PIR format output = OFF3. Toggle GCG/MSF format output = OFF4. Toggle PHYLIP format output = OFF5. Toggle NEXUS format output = OFF6. Toggle GDE format output = OFF7. Toggle GDE output case = LOWER8. Toggle CLUSTALW sequence numbers = OFF9. Toggle output order = ALIGNED0. Create alignment output file(s) now?T. Toggle parameter output = OFFH. HELP

Enter number (or [RETURN] to exit): 3

********* Format of Alignment Output *********1. Toggle CLUSTAL format output = ON2. Toggle NBRF/PIR format output = OFF3. Toggle GCG/MSF format output = ON4. Toggle PHYLIP format output = OFF5. Toggle NEXUS format output = OFF6. Toggle GDE format output = OFF7. Toggle GDE output case = LOWER

Box A1.2

Page 17: Appendice A - Esercitazioni di Bioinformatica

© 88-08-07967-8 A • Esercitazioni di bioinformatica 255

8. Toggle CLUSTALW sequence numbers = OFF9. Toggle output order = ALIGNED0. Create alignment output file(s) now?T. Toggle parameter output = OFF

H. HELPEnter number (or [RETURN] to exit):

****** MULTIPLE ALIGNMENT MENU ******1. Do complete multiple alignment now (Slow/Accurate)2. Produce guide tree file only3. Do alignment using old guide tree file4. Toggle Slow/Fast pairwise alignments = SLOW5. Pairwise alignment parameters6. Multiple alignment parameters7. Reset gaps before alignment? = OFF8. Toggle screen display = ON9. Output format optionsS. Execute a system commandH. HELPor press [RETURN] to go back to main menu

Your choice: 1Enter a name for the CLUSTAL output file [file.aln]:Enter a name for the GCG output file [file.msf]:Enter name for new GUIDE TREE file [file.dnd]:Start of Pairwise alignments

Aligning...Sequences (1:2) Aligned. Score: 82Sequences (1:3) Aligned. Score: 79Sequences (1:4) Aligned. Score: 100Sequences (1:5) Aligned. Score: 78Sequences (2:3) Aligned. Score: 86Sequences (2:4) Aligned. Score: 81Sequences (2:5) Aligned. Score: 84Sequences (3:4) Aligned. Score: 79Sequences (3:5) Aligned. Score: 94Sequences (4:5) Aligned. Score: 78Guide tree file created: [file.dnd]Start of Multiple AlignmentThere are 4 groupsAligning...Group 1: Sequences: 2 Score:3621Group 2: Sequences: 3 Score:3462Group 3: Sequences: 2 Score:3159Group 4: Sequences: 5 Score:3113Alignment Score 8726

Consensus length = 169CLUSTAL-Alignment file created [file.aln]GCG-Alignment file created [file.msf]CLUSTAL W (1.81) multiple sequence alignmentgi|8393180|ref|NP_058898.1| MLATRALSLIGKRAISTSVCLRAHGSVVKSEDYALPSYVDRRDYPLPDVAgi|6753498|ref|NP_034071.1| MLASRALSLIGKRAISTSVCLRAHGSVVKSEDYAFPTYADRRDYPLPDVAgi|117085|sp|P00423|CX41_BOVIN MLATRVFSLIGRRAISTSVCVRAHGSVVKSEDYALPSYVDRRDYPLPDVAgi|4502981|ref|NP_001852.1| MLATRVFSLVGKRAISTSVCVRAHESVVKSEDFSLPAYMDRRDHPLPEVAgi|5921895|sp|O46577|CX41_PANT ————————————-SVVKSEDFSLPAYMDRRDHPLPEVA

*******:::*:* ****:***:**

gi|8393180|ref|NP_058898.1| HVKLLSASQKALKEKEKADWSSLSRDEKVQLYRIQFNESFAEMNKGTNEWgi|6753498|ref|NP_034071.1| HVTMLSASQKALKEKEKADWSSLSRDEKVQLYRIQFNESFAEMNRGTNEWgi|117085|sp|P00423|CX41_BOVIN HVKNLSASQKALKEKEKASWSSLSIDEKVELYRLKFKESFAEMNRSTNEWgi|4502981|ref|NP_001852.1| HVKHLSASQKALKEKEKASWSSLSMDEKVELYRIKFKESFAEMNRGSNEWgi|5921895|sp|O46577|CX41_PANT HVKHLSASQKALKEKEKASWSSLSMDEKVELYRIKFKESFAEMNRGSNEW

**. **************.***** ****:***::*:*******:.:***

gi|8393180|ref|NP_058898.1| KTVVGLAMFFIGFTALVLIWEKSYVYGPIPHTFDRDWVAMQTKRMLDMKVgi|6753498|ref|NP_034071.1| KTVVGMAMFFIGFTALVLIWEKSYVYGPIPHTFDRDWVAMQTKRMLDMKAgi|117085|sp|P00423|CX41_BOVIN KTVVGAAMFFIGFTALLLIWEKHYVYGPIPHTFEEEWVAKQTKRMLDMKVgi|4502981|ref|NP_001852.1| KTVVGGAMFFIGFTALVIMWQKHYVYGPLPQSFDKEWVAKQTKRMLDMKVgi|5921895|sp|O46577|CX41_PANT KTVVGGAMFFIGFTALVIMWQKHYVYGPLPQSFDKEWVAKQTKRMLDMKV

***** **********:::*:* *****:*::*:.:*** *********.

gi|8393180|ref|NP_058898.1| NPIQGFSAKWDYNKNEWKKgi|6753498|ref|NP_034071.1| NPIQGFSAKWDYDKNEWKKgi|117085|sp|P00423|CX41_BOVIN APIQGFSAKWDYDKNEWKKgi|4502981|ref|NP_001852.1| NPIQGLASKWDYEKNEWKKgi|5921895|sp|O46577|CX41_PANT NPIQGLASKWDYEKNEWKK

****:::****:******

Page 18: Appendice A - Esercitazioni di Bioinformatica

A • Esercitazioni di bioinformatica © 88-08-07967-8256

Figura A1.12Entry Pfam relativa alla sub-unità 4 della Citocromo cOssidasi.

Page 19: Appendice A - Esercitazioni di Bioinformatica

teine caratterizzate dalla presenza del dominio Pfam PF02936 (cFigura A1.12). Dal-la entry Pfam è possibile ottenere il multiallineamento (Get alignment) relativo a unsottoinsieme di proteine rappresentativo dell’intero gruppo. Per ottenere il multialli-neamento di tutte le proteine si sarebbe dovuto cliccare su full anziché seed come didefault.

Le Figure A1.11 e A1.12 mostrano chiaramente le numerose informazioni funzio-nali e strutturali ottenibili dalle banche dati integrate in InterPro. Provare a collegar-si al sito ed esplorare tutte le altre informazioni ottenibili sulla cox4 a partire dallaentry riportata in Figura A1.11.

Localizzazione del gene cox4 sul genoma umano medianteEnsembl e il Genome Browser UCSC

Si inizia l’analisi collegandosi al sito Ensembl (Tabella 2.1) e scegliendo il genoma daanalizzare (in questo caso Human). Tale selezione porta nella pagina Human Geno-me Browser (cFigura A1.13), da cui, oltre effettuare ricerche per criteri differenti,richiedere la visualizzazione di un intero cromosoma o parte di esso, scaricaresequenze o dati associati a geni o SNPs, è possibile applicare i programmi Blast oSSAHA. Nel caso del presente esercizio viene effettuato un Text search digitando«cox4». I risultati sono mostrati in cFigura A1.14 da cui si evince la localizzazionecromosomiale del gene (cromosoma 16) e informazioni sul trascritto e sulle proteineassociate. Inoltre è possibile avere una descrizione totale del gene e del suo omologonel topo e altre informazioni derivate da banche dati correlate.

Analogamente collegandosi al sito UCSC (http://genome.ucsc.edu/) e attivando il«Genome Browser», si può inserire nell’apposita casella l’accession number dellaentry Refseq (NM_001861) relativa alla cox4 umana. I risultati ottenuti sono mostra-ti in cFigura A1.15. Il sito UCSC include dati derivati da risorse genomiche diffe-renti e quindi consente la validazione di risultati ottenuti con approcci diversi.

La sequenza del frammento genomico o del relativo trascritto selezionato puòessere estratta per condurre ulteriori analisi. Per fare questo si deve cliccare in corri-spondenza del gene «COX4I1» riportato in colore sulla mappa prodotta dal browser(Figura A1.15). Viene visualizzata una pagina che riporta varie informazioni relativeal gene e cross-links ad altre fonti di informazione. Cliccando su Genomic sequenceviene visualizzata una pagina che consente di effettuare vari tipi di estrazione dellasequenza del gene. Si provi a estrarre la sequenza del gene e del promotore, pari a 1kbp a monte del sito di inizio della trascrizione (si abbia cura di salvare la sequenzaestratta sul proprio PC in formato testo).

Esercizio 4

© 88-08-07967-8 A • Esercitazioni di bioinformatica 257

Figura A1.13Home page per la navigazio-ne sui dati del genoma uma-no del consorzio pubblicoattraverso Ensembl.

Page 20: Appendice A - Esercitazioni di Bioinformatica

Caratterizzazione funzionale di un frammento genomico umano mediante Ensembl

Al fine di porre in risalto le potenzialità del sistema Ensembl viene riportato un esempiodel suo utilizzo per la individuazione di informazioni annotate in Ensembl e associate auna sequenza ipoteticamente anonima. La risorsa Ensembl consente di effettuare unaricerca di similarità in modalità rapida e semplificata. In questo percorso è stata sceltal’attivazione di Blast per caratterizzare una sequenza anonima. Ci si colleghi al sitoEnsembl per Homo sapiens (http://www.ensembl.org/Homo_sapiens/) e si selezioniBlast your sequence. La pagina di introduzione dei dati per il Blast è strutturata nelformato classico di tutti i server Blast (cFigura A1.16 a). Unico particolare da metterein evidenza è la possibilità di mascherare i dati non considerando le regioni ripetute e leregioni a bassa complessità nucleotidica. Il risultato del Blast può essere visualizzato at-traverso il BLASTVi e w, che riporta sui vari cromosomi i segnali con livelli di score su-periori al valore soglia prefissato sulla base della scelta del valore E.

Nella immagine su web i vari range di score sono associati a colori differenti. Lo sco-

Esercizio 5

A • Esercitazioni di bioinformatica © 88-08-07967-8258

Figura A1.14Risultato della ricerca di cox4sul genoma umano diEnsembl.

Page 21: Appendice A - Esercitazioni di Bioinformatica

re più alto viene racchiuso in un box. Nell’esempio il migliore score è localizzato sul cro-mosoma X (Figura A1.16 b). Cliccando sulla freccia associata a ciascun Blast hit si hal’informazione del codice del contiguo contenente la sequenza genomica su cui è statoritrovato lo score, il valore p(n), cioè la probabilità che il risultato sia casuale, lo score,la percentuale di identità e inoltre è possibile richiedere la visualizzazione di altre in-formazioni fra cui quelle associate al Contig (Show Contigview). Tale richiesta consentela visualizzazione (Figura A1.16 c) dell’intero cromosoma in cui rientra il segnale inesame e la indicazione mediante un box della zona cromosomica su cui mappa il segnale(in questo caso q24).

La finestra Overview riporta informazioni più dettagliate sulla regione genomica co-involta; in particolare è indicata la mappatura dei geni localizzati in tale regione distintiper geni predetti dal software associato al sistema Ensembl ma già noti e geni predettida Ensembl e non conosciuti (novel); inoltre vengono segnalati i geni annotati in EMBLe gli pseudogeni. Tali categorie sono marcate con colori differenti. Per ogni gene è ri-portato, per i geni già noti, l’accession number relativo alle banche dati primarie. Nellastessa finestra sono anche annotati e mappati i marcatori. Attraverso lo zoom è possibi-

© 88-08-07967-8 A • Esercitazioni di bioinformatica 259

Figura A1.15Risultato della ricerca di cox4sul genoma umano attraversoil browser UCSC.

Page 22: Appendice A - Esercitazioni di Bioinformatica

A • Esercitazioni di bioinformatica © 88-08-07967-8260

A

B

Figura A1.16a Applicazione di BLAST

implementato in Ensemblper la caratterizzazione diuna sequenza umana afunzione incognita.

b Mappaggio dei risultati delBLAST sul cariotipo uma-no.

c Localizzazione sul cromo-soma X del risultato piùsignificativo di BLAST.

d Dettagli relativi al risultatopiù significativo di BLASTda cui è possibile ottenereinformazioni relative a daticorrelati umani e di altriorganismi.

Page 23: Appendice A - Esercitazioni di Bioinformatica

© 88-08-07967-8 A • Esercitazioni di bioinformatica 261

D

C

Page 24: Appendice A - Esercitazioni di Bioinformatica

le anche andare su zone più circoscritte. Inoltre la Overview fornisce anche una finestradettagliata (Figura A1.16 d) sulla regione che associa numerose informazioni disponi-bili per la regione stessa su altre banche dati e risorse genomiche di cui si è in gran parteriportato nel Capitolo 2. Le informazioni qui riportate comprendono riferimenti a Ref-Seq e a Unigene e non riguardano solo dati umani ma anche relativi ad altri organismifra cui il topo (Mouse matches) e le informazioni sulle omologhe proteine annotate inSWISSPROT. Inoltre cliccando sulla informazione relativa a Ensembl trans si ha la pos-sibilità di ottenere le informazioni sulla proteina e in particolare cliccando su ProteinFamily si ha accesso alla mappa dei cromosomi dove sono marcate da una freccetta le lo-calizzazioni sul cromosoma di altri geni costituenti la famiglia di proteine a cui appartie-ne l’ipotetica proteina codificata dalla sequenza anonima sottoposta ad analisi.

Predizione di geni codificanti proteine in sequenze genomiche

L’obiettivo principale del processo di annotazione di una nuova sequenza genomica è l’i-dentificazione dei geni codificanti proteine e la loro caratterizzazione funzionale. Aquesto scopo si possono utilizzare una serie di strumenti detti di gene finding, già de-scritti nel Paragrafo 9.3.

In questo esercizio si procederà alla ricerca di geni in una sequenza genomica pro-dotta nell’ambito del progetto di sequenziamento del genoma di Fugu.

Collegandosi al sito http://fugu.hgmp.mrc.ac.uk/fugu-bin/clonesearch/ si effettui,per esempio, la ricerca della sequenza «scaffold S004519». La sequenza così estratta puòessere utilizzata per la predizione utilizzando il programma Genscan (Paragrafo 5.2.4),che si è rivelato tra i più accurati della classe di programmi per la predizione di geni co-dificanti proteine.

Il programma Genscan è accessibile al sito http://genes.mit.edu/GENSCAN.html.Dopo aver «incollato» la sequenza precedentemente estratta nell’apposita casella puòpartire l’analisi cliccando su Run Genscan . Il risultato è mostrato nel cBox A1.3. Sinoti che vengono predetti quattro geni, per ciascuno dei quali viene anche riportata lacorrispondente ipotetica sequenza aminoacidica. Queste sequenze possono essere ca-ratterizzate in vari modi, per esempio effettuando una ricerca con BLAST contro labanca dati delle proteine (Esercizio 7) oppure ricercando domini o motivi funzionaliattraverso il sistema InterPro (http://www.ebi.ac.uk/interpro/scan.html).

Nel caso in cui si voglia stabilire con precisione la struttura di uno specifico gene, unavolta che sia stato già individuato il clone genomico che lo contiene, è possibile usare unalgoritmo di predizione genica che si basa sulla similarità fra omologhi, per esempio, seattraverso il BLAST è stato osservato che il clone S000194 probabilmente contiene il ge-ne per la proteina cox4, è possibile fare una g e n e p re d i c t i o n mirata usando il program-ma GenomeScan, fornendo in input oltre alla sequenza genomica, la sequenza di unaproteina omologa a quella codificata dal gene in questione. Per utilizzare il programmaGenomeScan ci si può collegare al sito http://genes.mit.edu/genomescan.html.

Una volta incollata la sequenza genomica (per esempio il clone S000194) e la proteinaomologa (NP_115998) si può avviare l’analisi cliccando su Run GenomeScan. Il risultatoè mostrato nel cBox A1.4. Si provi anche a utilizzare Genscan sia sul clone di FuguS00194 sia su una delle sequenze genomiche umane estratte nel corso dell’Esercizio 1.

Caratterizzazione di ipotetiche proteine predette da programmi di gene finding

La maniera più semplice di identificare la natura funzionale di una ipotetica proteinarelativa a un gene predetto da un programma di gene finding è quella di confrontare

Esercizio 7

Esercizio 6

A • Esercitazioni di bioinformatica © 88-08-07967-8262

Page 25: Appendice A - Esercitazioni di Bioinformatica

questa proteina con la banca dati delle proteine attraverso un programma per ricercadi similarità come BLAST.

Si faccia un’analisi sulle ipotetiche proteine predette da Genscan sul clone geno-mico analizzato nell’Esercizio n. 6 (S000194). Tra i 14 geni predetti, uno codifica perun’ipotetica proteina di 432 aminoacidi, la cui sequenza è di seguito riportata:

>FS:S000194|GENSCAN_predicted_peptide_5|432_aa

MNQKSSEWKTVIGGVFFLIGFSGLVVLWQRKYVYGPVPHTFDPEYKEKELQRMLDMRINP

VQGISAKWDYENKQWKKFYVTYRVSVITDCENVISSPSEACLASAYGQNVSMDITSAEKF

VYADHSRSEEFHFLSVPDAENKESLSKNGITHILSVYNNAKPMFEGMKYLCIHAADASSQ

NLWDGPPSDGCFQQDETQCHKAPLCSSGPHTQHISAHWSSLWLQRKEEEEEEEDDDDEAN

RLPTVLANSRGALVAASEGPAPMSVGSGDHLSHAANEATVQLPEICWDENRLQHFKECIS

FIHECRLNGGTCLVHCLAGVSRSTTMVVAYLMTVTHYRWDECLSAVKAVRSFVGPNYGFQ

QQLQEYQTTQLSEYRAWLHSTFRPSPFNDEEQVGALLSQYLEQQESHSRRAEQRRISPGV

QSSSRDDPESSI

Collegarsi al sito NCBI per il BLAST (http://www.ncbi.nlm.nih.gov/BLAST/) e sce-gliere l’opzione Protein BLAST. «Copiare» la sequenza proteica di 432 aa soprariportata, «incollarla» nella finestra di input del programma BLAST, e quindi clicca-re su Submit Query Dopo qualche secondo saranno visualizzati i risultati. Si potràosservare che alcune sequenze risultano significativamente simili alla nostra ipoteticaproteina. È possibile fare questa analisi su tutte le proteine predette dall’analisi conGenScan. In cFigura A1.17 è riportato il risultato del BLAST con l’ipotetica protei-na prescelta.

È evidente che la proteina predetta mostra similarità con due diverse proteine epertanto il programma di «gene fin\\1\ding», pur avendo predetto in modo correttoalcuni esoni ha erroneamente fuso in un unico gene due geni differenti.

© 88-08-07967-8 A • Esercitazioni di bioinformatica 263

Figura A1.17Rappresentazione grafica del-l’applicazione di BLAST nelconfronto di una ipoteticaproteina predetta dal pro-gramma GenScan controSWISSPROT. Le frecce indica-no distinte regioni di similaritàcon due diverse proteine.

Page 26: Appendice A - Esercitazioni di Bioinformatica

A • Esercitazioni di bioinformatica © 88-08-07967-8264

RISULTATO DELL’APPLICAZIONE DEL PROGRAMMA GENSCAN ALLO SCAFFOLD S004519 DEL GENOMA DI FUGU

Box A1.3

GENSCAN 1.0 Date run: 18-Oct-102 Time: 05:31:54Sequence FS:S004519 : 17030 bp : 46.48% C+G : Isochore 2 (43 - 51 C+G%)Parameter matrix: HumanIso.smatPredicted genes/exons:G n . E x T y p e S . B e g i n . . . E n d . L e n F r P h I / A c D o / T C o d R g P . . . . T s c r . .— — - — — - — — — — — — — — — — — — — — — — - — — - — — —1 . 0 5 P l y A - 2 8 0 2 7 5 6 1 . 0 51 . 0 4 T e r m - 1 2 3 5 1 0 3 5 2 0 1 2 0 - 4 4 8 3 4 1 0 . 5 4 4 1 8 . 2 91 . 0 3 I n t r - 1 6 0 8 1 5 0 2 1 0 7 1 2 5 5 7 2 9 4 0 . 6 4 4 4 . 4 31 . 0 2 I n t r - 2 0 9 1 1 7 4 4 3 4 8 1 0 9 2 6 6 3 9 5 0 . 7 2 4 3 3 . 0 31 . 0 1 I n i t - 2 2 1 1 2 1 6 3 4 9 0 1 8 6 1 0 0 5 2 0 . 9 9 9 7 . 6 11 . 0 0 P r o m - 2 3 7 7 2 3 3 8 4 0 - 1 4 . 5 52 . 0 0 P r o m + 2 5 0 1 2 5 4 0 4 0 - 1 3 . 0 62 . 0 1 I n i t + 2 7 9 8 3 0 0 1 2 0 4 1 0 7 2 4 1 1 8 8 0 . 8 2 3 9 . 4 02 . 0 2 I n t r + 3 2 0 1 3 3 1 6 1 1 6 2 2 9 3 4 4 2 1 8 0 . 9 4 7 1 7 . 1 52 . 0 3 I n t r + 3 3 8 4 3 7 2 5 3 4 2 0 0 9 1 3 2 4 0 7 0 . 7 9 2 2 9 . 9 52 . 0 4 I n t r + 3 8 3 6 3 9 2 8 9 3 2 0 8 9 2 0 1 1 0 0 . 8 9 0 3 . 3 82 . 0 5 I n t r + 4 1 7 0 4 3 3 3 1 6 4 0 2 5 5 8 5 2 2 9 0 . 9 7 5 1 8 . 9 22 . 0 6 I n t r + 4 3 9 9 4 7 0 4 3 0 6 2 0 9 7 3 7 2 0 1 0 . 7 5 5 1 2 . 3 22 . 0 7 T e r m + 4 7 6 1 4 9 1 2 1 5 2 1 2 8 0 4 3 2 1 5 0 . 9 9 9 1 4 . 2 72 . 0 8 P l y A + 5 0 6 8 5 0 7 3 6 - 3 . 9 43 . 0 0 P r o m + 5 2 9 0 5 3 2 9 4 0 - 3 . 6 63 . 0 1 I n i t + 5 7 1 1 6 0 7 0 3 6 0 1 0 5 7 4 8 5 5 3 0 . 9 6 1 4 3 . 2 83 . 0 2 I n t r + 6 1 5 2 6 2 6 7 1 1 6 1 2 - 9 1 0 0 6 0 0 . 4 9 2 - 3 . 2 53 . 0 3 I n t r + 6 3 3 4 6 4 2 2 8 9 1 2 6 8 8 2 2 3 0 . 5 2 1 - 0 . 6 93 . 0 4 I n t r + 6 4 9 1 6 6 6 8 1 7 8 0 1 9 0 9 2 1 2 9 0 . 9 9 1 1 2 . 4 83 . 0 5 I n t r + 6 7 3 6 6 8 5 3 1 1 8 1 1 1 2 3 9 7 5 2 0 . 9 9 9 1 0 . 0 73 . 0 6 I n t r + 6 9 2 8 7 0 1 3 8 6 0 2 4 3 1 0 9 6 8 0 . 7 1 8 3 . 0 23 . 0 7 I n t r + 7 7 9 3 7 9 2 5 1 3 3 2 1 4 2 5 6 4 5 0 . 3 5 2 - 2 . 6 53 . 0 8 I n t r + 8 9 3 6 9 0 4 8 1 1 3 1 2 6 7 8 1 1 5 4 0 . 7 7 0 1 1 . 7 83 . 0 9 I n t r + 9 7 9 4 9 9 1 9 1 2 6 2 0 9 0 6 7 9 2 0 . 9 9 2 7 . 0 93 . 1 0 I n t r + 1 0 7 2 5 1 0 8 6 4 1 4 0 0 2 9 4 5 1 9 6 0 . 9 9 2 6 . 6 13 . 1 1 I n t r + 1 0 9 4 5 1 1 0 4 8 1 0 4 2 2 3 7 1 1 3 1 1 2 0 . 9 9 6 8 . 4 93 . 1 2 T e r m + 1 1 4 8 2 1 1 7 0 9 2 2 8 0 0 1 3 0 3 7 3 2 9 0 . 9 9 9 2 8 . 6 33 . 1 3 P l y A + 1 1 7 6 5 1 1 7 7 0 6 - 1 . 7 54 . 0 5 P l y A - 1 2 0 1 5 1 2 0 1 0 6 1 . 0 54 . 0 4 T e r m - 1 3 4 1 2 1 3 1 8 9 2 2 4 0 2 9 6 3 5 3 3 0 . 1 6 9 - 4 . 1 24 . 0 3 I n t r - 1 3 6 0 3 1 3 4 6 3 1 4 1 2 0 5 9 6 4 7 2 0 . 6 3 9 2 . 2 24 . 0 2 I n t r - 1 4 0 1 4 1 3 8 5 5 1 6 0 1 1 1 7 9 4 1 3 9 0 . 6 0 5 6 . 9 64 . 0 1 I n t r - 1 4 1 7 5 1 4 0 8 9 8 7 0 0 8 1 8 0 1 3 8 0 . 9 9 7 1 2 . 4 7

C l i c k h e r e t o v i e w a P D F i m a g e o f t h e p r e d i c t e d g e n e ( s )

C l i c k h e r e f o r a P o s t S c r i p t i m a g e o f t h e p r e d i c t e d g e n e ( s ) P r e d i c t e d p e p t i d e s e q u e n c e ( s ) :> F S : S 0 0 4 5 1 9 | G E N S C A N _ p r e d i c t e d _ p e p t i d e _ 1 | 2 3 4 _ a aM R T T L T S L L V S I Q L F E A C A E L I F R Q L A E G Q S L Q L S C P L R E Q Q G P P T G L H L Y H R G G Q T Q T TL L S M A E G A E P K V N P Q H R G R L Q L H G G L R S P Q V N V S V S D L Q R G D T G L Y V W E L S S R E N S S E E VS V S A A K V L L L V E G R W C P C S P S Y P P L L L T L F V A A G L L L L A L C C L A L D N R P P V A I Y E E M T S KK Q Q Q Q A G G I P P N H P E A P R H L E E V N F P V Y A N P N I R P P Q D N H Y A C P R R L A S N A H G K> F S : S 0 0 4 5 1 9 | G E N S C A N _ p r e d i c t e d _ p e p t i d e _ 2 | 4 5 8 _ a aM T P L V W L L A L S V G W C S A V P P N L F G G K A G G R D V H K G W K T P E V E P E R V K T V E V S C H P N S L E IT V K A D M F E V T E E S L V Y T N L L I F S P R V T Q D G L I R M D E A V I P I E C Q Y E R K Y S L S S G S L K P T WI P F M S T Q A A V E N L S F D M K L V S G E F L A G L K H L L K L Y T P T T P V S D D W N Y E R G S N V F H L G D L IP V E A S V R V G H H L G L R V F V S S C T A T L S P D A L S H P R H V F I E N G C F T D S Q L P D S K S Q F F P R I QD E K L H M V I G A F R W R S A D G N D Y S C A N C Q T H G G A G H T S H T K P S T P A K F G P R G F G K P E K P W K SI A K T K M P W E Q E A Q V G P L V V L P A V R S G P L P A E V L P P V L S N I K P Y G S Q W R S G I R V G K N L R W HL P P G A N V M L M L T C V H H L D Q P K A L L P D P P S P D Q D E D Q T S E E E S S G D E I K N G E T K G A P E T T ES A P M G G A A D L S D I V Q M P S A M T P S N E T M P E H S D I H E L T Q> F S : S 0 0 4 5 1 9 | G E N S C A N _ p r e d i c t e d _ p e p t i d e _ 3 | 5 9 6 _ a aM K L A M V A T A L L L T F S V A R A I R Y L K E G P V V D A E G R Q Y K S P P L R V E E K G L G E P A T S A A V R V H

Page 27: Appendice A - Esercitazioni di Bioinformatica

© 88-08-07967-8 A • Esercitazioni di bioinformatica 265

C T D T S V M V V V K A N L F K T G H L S S P G E L F L G E A L D P R C Q A A A A T N G E Y V I V A E L Q D C G S T L TA S K D S M I Y S N K L V F S P T Y G S N G L R R I T R G V N S V S C H Y K R T P P V S R N A Q Q G L T F S A P T Q H HT F A L Q L M T D D W L R E R A S K V F H L G E T L H L Q A Y Y A A P D S G Q R R V F I D S C V A T L S P D P G S V P RY Y F I E N H G C L V D T K Q G G L N S Q F R P R Q M D H S L R L K L E V F L F N G D S R N S I F I T C Q L K A T S K TW G S G L I N K A C N Y E R S R G T E S R V G N I F N C S Y T I W P P G G S I N I E T S Y H Q E G Q T V G K R S L D T LD S I D V E D R D D Y D S E E I T G Y S Q K T Q L N C Y Y T I Y L Y Q G T S L T L I D S S L P T E A E P E L R T Y I S RR L S K G A L L G G M G N I A T V E L R F I K A A S L Q G L S Q Q D T S A A S L C T A M S E E T H T D L I I D C S T S PP T L L N A V S N R F C D D W I Q A Y L N A A E R C N P F L L R Q I L E N F K L K A I Q D M N S L K R F V R Q A E T S HY A L F R C C Q F L Q G C G N G D V L L Q N A R A E H C D L P E A C S I I S V L E E F L K E Q A Q A Q A Q A Q A> F S : S 0 0 4 5 1 9 | G E N S C A N _ p r e d i c t e d _ p e p t i d e _ 4 | 2 0 3 _ a aV Q S V R E V H K A G S K R F M F E I N M K N G K R K L L L P Y E F S D L E F Q F K V E T G K D S G L A A R V A K P G PQ G H N A A V L F V P Q G R K T K T S G N P G C R I C R T E T A V G R T P L A G H A S L C I V G L N L Q K H T V S A T LI Q N L S Y A N P V R K F I S S K R R R A M G R R A C L L G P S L P L Q T T L P M R S E A S P P P P V C H R P T F A G PY R Q P V I T M M I N I K Y L T H E L L D L SE x p l a n a t i o n

Gn.Ex : gene number, exon number (for reference)Type : Init = Initial exon (ATG to 5’ splice site)

Intr = Internal exon (3’ splice site to 5’ splice site)Term = Terminal exon (3’ splice site to stop codon)Sngl = Single-exon gene (ATG to stop)Prom = Promoter (TATA box / initation site)PlyA = poly-A signal (consensus: AATAAA)

S : DNA strand (+ = input strand; - = opposite strand)Begin : beginning of exon or signal (numbered on input strand)End : end point of exon or signal (numbered on input strand)Len : length of exon or signal (bp)Fr : reading frame (a forward strand codon ending at x has frame x mod 3)Ph : net phase of exon (exon length modulo 3)I/Ac : initiation signal or 3’ splice site score (tenth bit units)Do/T : 5’ splice site or termination signal score (tenth bit units)CodRg : coding region score (tenth bit units)P : probability of exon (sum over all parses containing exon)Tscr : exon score (depends on length, I/Ac, Do/T and CodRg scores)

Comments

The SCORE of a predicted feature (e.g., exon or splice site) is alog-odds measure of the quality of the feature based on local sequenceproperties. For example, a predicted 5’ splice site withscore > 100 is strong; 50-100 is moderate; 0-50 is weak; andbelow 0 is poor (more than likely not a real donor site).

The PROBABILITY of a predicted exon is the estimated probability underGENSCAN’s model of genomic sequence structure that the exon is correct.This probability depends in general on global as well as local sequenceproperties, e.g., it depends on how well the exon fits with neighboringexons. It has been shown that predicted exons with higher probabilitiesare more likely to be correct than those with lower probabilities.1151 ATTC

Page 28: Appendice A - Esercitazioni di Bioinformatica

Determinazione della struttura di un gene mediante il confronto tra la sequenza genomica e l’mRNA maturo

L’allineamento tra una sequenza genomica contenente un dato gene e la sequenzadell’mRNA corrispondente determina la struttura del gene con l’esatta localizazionedegli esoni e degli introni. La procedura di allineamento deve prevedere la possibili-tà di introdurre gaps piuttosto grandi, corrispondenti agli introni, e utilizza il con-senso GT/AG per posizionare correttamente le estremità degli esoni. A questo sco-po è possibile utilizzare vari programmi disponibili in rete come SPIDEY accessibilepresso il sito http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/.

Si «incolli» la sequenza genomica di cox4 umano estratta nell’Esercizio 1(NT_024767, Tabella A1.3) e l’accession number della sequenza del trascritto(NM_001861) nel riquadro in basso. Si otterrà il risultato riportato in cFigura A1.18che mostra la struttura di cox4, di 5 esoni e 4 introni.

Esercizio 8

A • Esercitazioni di bioinformatica © 88-08-07967-8266

RISULTATO DELLA APPLICAZIONE DI GENOMESCAN ALLO SCAFFOLD S000194 DI FUGU

GenomeScan 1.0 Date run: 18-Oct-2002 Time: 09:45:03Sequence FS:S000194 : 181202 bp : 46.35% C+G : Isochore 2 (43 - 51 C+G%)Options: GenoaOnly BothStrandsParameter matrix: HumanIso.smatPredicted genes/exons:explanationGn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..——- —— - ——— ——— —— — — —— —— ——- ——- ———1.00 Prom - 23379 23340 40 -5.06

2.00 Prom - 25360 25321 40 -6.963.01 PlyA + 48028 48033 6 1.054.00 Prom - 56283 56244 40 -8.26

5.00 Prom + 56430 56469 40 -10.455.01 Init + 56497 56689 193 0 1 32 16 109 0.000 11.845.02 Intr + 56809 56940 132 2 0 44 78 76 0.000 18.095.03 Term + 57071 57207 137 0 2 87 39 122 0.000 40.765.04 PlyA + 57369 57374 6 1.05

Genoa hits used in predictions: 4 nonredundant hitsexplanationGenoa hit name Target protein P.beg P.end G.beg G.end RF ProgramE-val——————— ——————— ——- ——- ——- ——- — ———- ——-Hit3.1_Hit2.1 gi|17999526|ref|NP_115998.2|- 82 83 56718 56778 2BLASTX 3.16e-14Hit3.1 gi|17999526|ref|NP_115998.2|- 41 82 56563 56688 0BLASTX 1.58e-14Hit2 gi|17999526|ref|NP_115998.2|- 83 126 56808 56939 2BLASTX 1.58e-14Hit1.1 gi|17999526|ref|NP_115998.2|- 118 171 57043 57204 0BLASTX 1.58e-14

Predicted peptide sequence(s):>FS:S000194|GenomeScan_predicted_peptide_5|153_aa:gi|17999526|ref|NP_115998.2|-:41..82:E=1.58e-14M K H Y M L L S T G I A K V E D Y T L P A Y F D R R E S P L P D I S Y V Q T L S P E Q K S L K E K E R G S W A A L S N EE K I A L Y R I S F K Q S F A E M N Q K S S E W K T V I G G V F F L I G F S G L V V L W Q R K Y V Y G P V P H T F D P EY K E K E L Q R M L D M R I N P V Q G I S A K W D Y E N K Q W K KE x p l a n a t i o n

Box A1.4

Page 29: Appendice A - Esercitazioni di Bioinformatica

Si potrebbe verificare in questo caso la efficienza del programma Genscan nella pre-dizione effettuata sulla stessa sequenza genomica.

Verifica della espressione dei geni predetti mediante confronto con le banche dati EMBL ed EST

Al fine di verificare che i geni predetti siano effettivamente trascritti si può fare unaricerca in banca dati con il programma BLAST usando come sonda le putativesequenze di mRNA corrispondenti ai geni predetti. Queste vengono automaticamen-te generate dal programma GENSCAN se nelle «print option» verrà scelto predictedCDS and peptides.

Perché gli eventuali matches possano essere considerati significativi i risultatidevono riferirsi a sequenze di mRNA (ciò implica che fra le entries selezionate come

Esercizio 9

© 88-08-07967-8 A • Esercitazioni di bioinformatica 267

Predicted genes/exons

Gn.Ex : gene number, exon number (for reference)Type : Init = Initial exon (ATG to 5’ splice site)

Intr = Internal exon (3’ splice site to 5’ splice site)Term = Terminal exon (3’ splice site to stop codon)Sngl = Single-exon gene (ATG to stop)Prom = Promoter (TATA box / initation site)PlyA = poly-A signal (consensus: AATAAA)

S : DNA strand (+ = input strand; - = opposite strand)Begin : beginning of exon or signal (numbered on input strand)End : end point of exon or signal (numbered on input strand)Len : length of exon or signal (bp)Fr : reading frame (a forward strand codon ending at x has frame x mod 3)Ph : net phase of exon (exon length modulo 3)I/Ac : initiation signal or 3’ splice site score (tenth bit units)Do/T : 5’ splice site or termination signal score (tenth bit units)CodRg : coding region score (tenth bit units)P : probability of exon (not calculated for GenomeScan)Tscr : exon score (depends on length, I/Ac, Do/T and CodRg scores)

Genoa hits used

Genoa hit name: names ending in “.i” are predicted intronsTarget Protein: protein in which the hit is locatedP.beg : position of beginning in proteinP.end : position of end in proteinG.beg : position of beginning in DNA (nucleotide position on forwardstrand)G.end : position of end in DNA (nucleotide position on forward strand)RF : reading frame (forward strand codon ending at x has frame x mod 3)Program : name of program used for alignments, for referenceE-val : probability that this is not a correct prediction

Comments

The SCORE of a predicted feature (e.g., exon or splice site) is alog-odds measure of the quality of the feature based on local sequenceproperties. For example, a predicted 5’ splice site withscore > 100 is strong; 50-100 is moderate; 0-50 is weak; andbelow 0 is poor (more than likely not a real donor site).

The PROBABILITY of a predicted exon is the estimated probability underGenomeScan’s model of genomic sequence structure that the exon is correct.This probability depends in general on global as well as local sequenceproperties, e.g., it depends on how well the exon fits with neighboringexons. It has been shown that predicted exons with higher probabilitiesare more likely to be correct than those with lower probabilities.

Page 30: Appendice A - Esercitazioni di Bioinformatica

positive nella banca dati devono essere selezionate solo quelle in cui nella linea ID(EMBL) o Locus (GenBank) sia riportato nel campo Molecule il valore RNA; questaselezione può essere effettuta tramite Entrez attivando il Limits su Molecule o trami-te SRS selezionando dalla Extended Query Form il valore RNA associato al campoMolecule). Inoltre i matches devono mostrare un grado di identità superiore al 99%se trattasi di sequenze della stessa specie di quella della sequenza sonda.

Nel caso non vengano osservati matches con entries della banca dati EMBL pos-siamo effettuare la ricerca con la banca dati delle sequenze EST. Se la sequenza inesame è umana conviene restringere la ricerca alle sole EST umane.

È possibile anche confrontare la sequenza genomica con la banca dati dbEST(Tabella 2.1). Per questo potrà essere utilizzata la sequenza genomica della cox4umana estratta nell’Esercizio n.4 dal Genome Browser dell’UCSC e comprendentel’intero gene e una regione di 1 kb a monte. La ricerca con BLAST verrà condottacontro la banca dati delle sequenze EST umane (Espressed Sequence Tags). Prima difare questa analisi è bene «mascherare» tutte le sequenze ripetute che potrebberodare matches aspecifici.

A questo scopo, è possibile usare il programma RepeatMasker (Paragrafo 5.2.2)accessibile sulla rete (http://ftp.genome.washington.edu/cgi-bin/RepeatMasker). Per

A • Esercitazioni di bioinformatica © 88-08-07967-8268

Figura A1.18Risultato prodotto dall’applica-zione del programma SPIDEY.

Page 31: Appendice A - Esercitazioni di Bioinformatica

eseguire il programma si dovrà «copiare» la sequenza genomica in esame, organizza-ta in formato FASTA, nell’apposita finestra.

Cliccare quindi sul tasto Submit Sequence. Dopo un po’ (il tempo dipende dalcarico della macchina su cui si sta elaborando il programma e dal carico della rete)verrà visualizzato il risultato dell’analisi, di seguito riportato, che mostrerà la localiz-zazione di alcuni elementi ripetuti e la sequenza «mascherata» in formato HTML.

Prendere nota della natura e della posizione degli elementi ripetuti. Salvare la sequen-za mascherata (che riporta «N» al posto degli elementi ripetuti) in un file sul proprio PCper condurre le ulteriori analisi.

Collegarsi al sito BLAST (http://www.ncbi.nlm.nih.gov/BLAST/) e selezionare B a-sic BLAST Search, quindi scegliere il database «human ests» e incollare la sequenzagenomica «mascherata» ottenuta dal programma RepeatMasker nell’apposita finestra.Cliccare su Search e quindi su Format Results. Dopo un po’ verranno visualizzati i ri-sultati. Verificare se gli eventuali matches così individuati corrispondono agli esoni in-dividuati dal programma di predizione. Se questo accade è chiaro che il programma haindividuato un gene che viene sicuramente espresso anche se non vi sono significative si-milarità tra la proteina potenziale e le proteine presenti nella banca dati.

I risultati del BLAST, riportati in cFigura A1.19, mostrano la presenza di regioni disimilarità di EST con regioni della sequenza genomica corrispondenti agli esoni 1, 2, 3e 5, anche se in alcuni casi non si ha perfetta coincidenza con gli esoni mappati sul ge-

© 88-08-07967-8 A • Esercitazioni di bioinformatica 269

SW perc perc perc q u e r y position in q u e r y matching repeat position in repeatscore div. del. ins. sequence begin end (left) repeat class/family begin end (left) ID

23 5.4 0.0 0.0 chr16:89675610-89684022 1185 1221 (7192) + GC_rich Low_complexity 1 37 (0) 1 2229 10.7 0.0 0.0 chr16:89675610-89684022 2026 2334 (6079) C AluSq SINE/Alu (4) 309 1 2 419 30.7 15.3 1.7 chr16:89675610-89684022 3564 3863 (4550) + L2 LINE/L2 2919 3259 (54) 3 639 18.2 4.5 0.8 chr16:89675610-89684022 4359 4490 (3923) C L1MB8 LINE/L1 (1) 6177 6041 4 392 29.2 6.8 1.6 chr16:89675610-89684022 5318 5509 (2904) + L2 LINE/L2 3109 3310 (3) 5 2381 7.2 0.0 0.3 chr16:89675610-89684022 5761 6066 (2347) C AluSc SINE/Alu (4) 305 1 6

Figura A1.19Risultato ottenuto dall’applica-zione di BLAST nel confrontotra una sequenza genomicacontenente il gene cox4 esequenze EST.La freccia indica METCH consequenze EST appartenenti alcluster Unigene relativo algene noc4 (neighbor ofcox4).

Page 32: Appendice A - Esercitazioni di Bioinformatica

noma (vedere l’analisi con Spidey nell’Esercizio 8). Si osserva anche un match con se-quenze EST nella regione a monte del trascritto evidenziato dalla freccia.

Per capire se si tratta di un frammento di trascritto relativo a un gene noto possia-mo consultare la banca dati UniGene (http://www.ncbi.nlm.nih.gov/UniGene/)ricercando uno degli accession number individuati dall’analisi con BLAST (peresempio BG771720). L’interrogazione di UniGene mostra che la suddetta ESTappartiene al cluster relativo al gene NOC4, adiacente al gene cox4. Informazionipiù dettagliate relative a questo gene possono essere trovate visualizzando vari cross-referencing, in particolare quello alla banca dati OMIM.

Analisi funzionale delle ipotetiche proteine predette nell’analisi di sequenze genomiche

Questo esercizio è articolato in diverse sezioni che descrivono alcune tra le principalimetodiche bioinformatiche per la caratterizzazione funzionale delle proteine, in par-ticolare quelle ipotetiche predette dalla analisi delle sequenze genomiche.

A Ricerca di domini funzionali

Nel caso in cui non sia stato osservato un significativo grado di similarità con una pro-teina di cui sia nota la funzione si possono ricercare patterns aminoacidici specifici dideterminate famiglie di proteine (detti anche signatures) o regioni di similarità localecon domini noti. A questo scopo sono state sviluppate una serie di banche dati specia-lizzate che raccolgono tali elementi (per esempio PROSITE, PRODOM, PFAM, ecc.)(Paragrafi 2.6 e 5.3). Al fine di rendere più agevole la ricerca e di integrare le informa-zioni provenienti da diverse fonti è stata sviluppata la risorsa INTERPRO che con-sente di verificare la presenza nella nostra proteina di uno o più domini/pattern colle-zionati nelle banche dati sopra citate.

Ci si colleghi al sito InterProScan (http://www.ebi.ac.uk/interpro/scan.html) pereffettuare l’analisi di alcune delle proteine predette negli esercizi 6 o 7. L’output dellaanalisi condotta con InterProScan viene generalmente inviato per posta elettronica.Pertanto l’utente deve disporre di una casella e-mail. La cFigura A1.20 riporta l’outputprodotto da InterProScan sulla cox4 umana (NP_115998).

B Predizione di peptidi segnale

Al fine di verificare la probabile presenza di un peptide segnale specifico per l’indi-rizzamento della proteina al mitocondrio o ad altri compartimenti cellulari è possibi-le utilizzare il programma TARGETP (http://www.cbs.dtu.dk/services/TargetP/).L’analisi condotta sul precursore della cox4 umana (NP_001852) produce l’outputin cFigura A1.21 che mostra la predizione di un peptide segnale specifico dell’indi-rizzamento al mitocondrio.

C Ricerca di domini trasmembrana

Prima di effettuare una predizione della struttura secondaria delle proteine è oppor-tuno verificare la presenza di domini trasmembrana.

A questo scopo si possono utilizzare vari programmi. In questo esercizio si utilizze-

Esercizio 10

A • Esercitazioni di bioinformatica © 88-08-07967-8270

Figura A1.20Output prodotto da InterPro-Scan.

Page 33: Appendice A - Esercitazioni di Bioinformatica

rà il programma TMHMM (http://www.cbs.dtu.dk/services/TMHMM-1.0/) per ana-lizzare la cox4 umana (NP_001852). Il risultato di questa analisi mostrato in cFiguraA1.22 mostra la predizione di un dominio transmembrana nella regione 102-120 dellaproteina cox4.

D Predizione della struttura secondaria

Nel caso frequente in cui non sia nota la struttura terziaria della proteina in esame odi un suo omologo si possono ottenere informazioni rilevanti sulla struttura e funzio-ne della proteina effettuando una predizione della struttura secondaria. In realtà nonè questo il caso della proteina cox4 per cui è stata risolta la struttura dell’intero com-plesso multimerico della citocromo c ossidasi.

In questo esercizio si effettuerà la predizione della struttura secondaria di cox4utilizzando il programma JPRED (http://jura.ebi.ac.uk:8888/submit.html) (Paragra-fo 7.6.4). Per eseguire la predizione bisogna «incollare» la sequenza aminoacidica(solo la sequenza senza righe di intestazione) di cox4 (NP_001852) nell’appositacasella e cliccare su Run secondary structure prediction. L’output prodotto dal pro-

© 88-08-07967-8 A • Esercitazioni di bioinformatica 271

Figura A1.21Output prodotto dal program-ma TargetP.

Figura A1.22Output prodotto dal program-ma TMHMM.

Page 34: Appendice A - Esercitazioni di Bioinformatica

gramma segnalerà l’esistenza nella banca dati delle strutture cristallografiche (PDB)di sequenze simili a quella sottomessa e pertanto si consiglierà di effettuare un«homology modeling» per predire direttamente la struttura terziaria della proteina,certamente più informativa della sola struttura secondaria. Lo screening preliminaredella banca dati PDB può essere escluso a richiesta dell’utente.

Il programma JPRED segnala anche la presenza di domini coiled-coil (tipici deileucine-zipper) e del grado di accessibilità relativo di ogni aminoacido (nel caso inesame è riportata una B che corrisponde a buried che sta a indicare che la regione ènascosta all’interno della struttura e quindi ha bassa accessibilità al solvente).

Alternativamente, per la predizione della struttura secondaria di cox4 potrà essereutilizzato il programma PSIPRED (http://insulin.brunel.ac.uk/psipred/). La cFigu-ra A1.23 riporta l’output ottenuto da PSIPRED su cox4 (NP_001852).

Per accedere a un repertorio molto vasto di programmi di analisi per lo studio delleproteine molto utile è la consultazione del sito www.expasy.org. Su questo sito sonodisponibili molti programmi, tra i quali quelli che consentono la predizione di modifi-cazioni post-traduzionali delle proteine (per esempio NetPhos, per la predizione di si-ti di fosforilazione su Ser, Thr and Tyr). Un altro gruppo di programmi molto utili èdisponibile presso il CIRB di Bologna (http://gpcr.biocomp.unibo.it/predictors/). Si provi a utilizzare alcuni di questi strumenti su proteine di proprio interesse.

A • Esercitazioni di bioinformatica © 88-08-07967-8272

Figura A1.23Output prodotto dal program-ma PSIPRED nella predizionedella struttura secondaria del-la proteina cox4 umana.

Page 35: Appendice A - Esercitazioni di Bioinformatica

Consultazione di banche dati metaboliche

Al fine di ottenere informazioni sulla funzione di una proteina o sul complesso mul-tienzimatico cui appartiene si può consultare una banca dati metabolica comeKEGG (Tabella 2.1). Si selezioni Search and compute with KEGG e poi Search enzy-mes (matching EC numbers) in the metabolic PATHWAY database, quindi si effettuila ricerca inserendo l’EC number della proteina in esame (EC 1.9.3.1 per cox4).

Si otterranno in questo modo utili informazioni sia sul complesso della citocromoc ossidasi (formato da 13 peptidi) sia sull’intera catena respiratoria mitocondriale. Inparticolare viene mostrata una rappresentazione dei vari complessi coinvolti, tra cuiil complesso citocromo c ossidasi (in cui è anche possibile vedere la subunità IV quiin esame). Tale rappresentazione è mostrata in cFigura A1.24.

Ulteriori informazioni sulla funzione di una proteina si possono ottenere consul-tando il database LOCUSLINK dell’NCBI (per la cox4, entry 1327). Nella entry«locuslink» è riportato anche il cross-referencing alla corrispondente entry di UNI-GENE dove sarà possibile reperire fra le altre informazioni il profilo di espressionedel gene in vari tessuti così come determinato mediante la tecnica SAGE (SerialAnalysis of Gene Expression).

Predizione della struttura terziaria delle proteine

Questo esercizio si propone di guidare lo studente nella consultazione delle banchedati PDB e PDBsum (Paragrafo 7.3.1), e nell’uso dei più semplici strumenti per lapredizione basata su homology modeling e dei programmi per la visualizzazione del-le strutture tridimensionali (Paragrafo 7.4).

Qualora per la proteina in esame siano noti omologhi a struttura nota (colleziona-ti nella banca dati PDB) è possibile stabilire con grande accuratezza la strutturasecondaria sulla base di un semplice allineamento tra la sequenza target e il templatoa struttura nota. Inoltre, si può anche effettuare una predizione della struttura terzia-ria attraverso la tecnica dell’homology modeling (Paragrafo 7.7).

Il programma JPRED, utilizzato nell’Esercizio 10, informa l’utente sulla eventualepresenza di proteine omologhe a quella in esame, di cui sia stata già determinata lastruttura terziaria. Alternativamente si può effettuare una ricerca mediante BLASTdella proteina in esame contro la banca dati PDB (questa opzione è accessibile pres-so il sito BLAST dell’NCBI). Effettuando una ricerca di similarità tra il peptide uma-no della subunità 4 della citocromo c ossidasi (NP_001852) e la banca dati PDB siosserva la presenza dell’omologo bovino (PDB entry: 2OCC chain D) relativo alpeptide maturo (privo del target peptide).

La entry 2OCC si riferisce all’intero complesso della citocromo c ossidasi.

Esercizio 12

Esercizio 11

© 88-08-07967-8 A • Esercitazioni di bioinformatica 273

Figura A1.24Rappresentazione del com-plesso IV della catena respira-toria mitocondriale ottenutadal database KEGG.

Page 36: Appendice A - Esercitazioni di Bioinformatica

Al fine di visualizzare la struttura secondaria della catena D della COX può essereconsultata la banca dati PDBsum (http://www.biochem.ucl.ac.uk/bsm/pdbsum/).Ricercando la entry 2OCC si ottiene una scheda informativa molto dettagliata diquesta struttura, compresa la localizzazione degli elementi di struttura secondaria inciascuna subunità.

Noto l’allineamento tra la proteina a struttura nota e quella in esame si può desu-mere, per analogia, la sua struttura secondaria con elevata accuratezza dato che laconservazione a livello della struttura è di solito molto maggiore di quella a livellodella sequenza.

È anche possibile visualizzare la struttura terziaria se il browser utilizzato (peresempio Netscape o Explorer) è dotato di un plug-in apposito (per esempio RasMolo CHIME), altrimenti il plug-in può essere scaricato dalla rete e istallato.

Il database PDBsub fornisce anche il link al database CATH (Tabella 2.1) che for-nisce una classificazione strutturale di tutte le proteine a struttura nota sulla basedella classe (C), architettura (A), topologia (T) e appartenenza a un gruppo di omo-logia (H). Per tale ragione a ogni struttura è assegnato un codice a quattro cifre.

Esaminare la entry CATH relativa alla nostra cox4 (subunità D in 2OCC).Dato che per la cox4 umana esiste un omologo a struttura nota è possibile effettuare

una predizione della sua struttura terziaria attraverso l’applicazione di un programma dihomology modelling. Per questo scopo sono disponibili vari programmi, molti di tipocommerciale. Si utilizzerà in questo caso il programma SWISSMODEL, liberamente ac-cessibile sulla rete (http://www. e x p a s y.ch/swissmod/SWISS-MODEL.html). Una vol-ta collegati al sito di SWISS-MODEL si deve selezionare First Approach mode. Appareun modulo di richiesta nel quale bisogna indicare l’indirizzo della propria casella e-maile riportare la sequenza di cui si vuole effettuare la predizione. In questo caso si riportil’accession number della cox4 umana (P13073). I risultati della predizione vengono suc-cessivamente inviati alla casella di posta elettronica indicata durante la sottomissione. Ilmodello 3D è riportato in un file di tipo «pdb» allegato a una delle e-mail inviate dalserver è ha un codice identificativo alfanumerico (per esempio AAAa0QRyz). Il risultatodella predizione effettuata con SWISSMODEL potrà essere visualizzato utilizzandouno dei programmi di visualizzazione di strutture 3D come PDBVIEWER oppureRASMOL (Paragrafo 7.4.2) che dovranno essere istallati sul proprio PC come descrit-to più avanti in questo esercizio.

n Ricerca di strutture tridimensionali attraverso la banca dati PDB

La ricerca di proteine a struttura nota può anche essere effettuata consultando diret-tamente la banca dati PDB. Verrà ricercata la struttura tridimensionale del comples-so citocromo c ossidasi. Una volta connessi al sito PDB (http://www.pdb.org), sele-zionando «SearchLite» è possibile effettuare una ricerca per parole chiave: si digiteràcytochrome c oxidase, quindi si farà partire la ricerca. Si otterranno 18 strutture, cia-scuna corredata da una serie di informazioni come il codice identificativo, le moleco-le presenti, il metodo mediante il qual è stata ottenuta la struttura e, molto importan-te, la sua risoluzione. Selezionando il link EXPLORE relativo alla entry 2OCC dellacitocromo c ossidasi bovina nella forma ossidata, verrà mostrata una pagina cheriporta un sommario dettagliato circa la struttura selezionata.

Analizzando le informazioni riportate sotto la voce Compound:

Mol_Id: 1; Molecule: Cytochrome C Oxidase; Chain: A, B, C, D, E, F, G, H, I, J,K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z; Synonym: Ferrocytochrome C:Oxygen Oxidoreductase; Ec: 1.9.3.1; Other_Details: This Enzyme Is A HybridProtein Complex and Is A Homodimer. One Monomer Is Composed Of 13 Dif-ferent Subunits and Seven Metal Centers, Heme A, Heme A3, Cua, Cub, Mg,Na and Zn.

A • Esercitazioni di bioinformatica © 88-08-07967-8274

Page 37: Appendice A - Esercitazioni di Bioinformatica

si può notare che il complesso è omodimerico e ogni monomero è costituito da 13proteine, per un totale di 26 catene aminoacidiche indicate con le lettere mostratesotto la voce Chain. Un’altra informazione utile è il codice enzimatico Ec: 1.9.3.1 cheindica in modo univoco il complesso enzimatico (utilizzato nell’Esercizio 11 perinterrogare la banca dati metabolica).

Selezionando Download/Display File è possibile salvare sul proprio computer ilfile PDB selezionato che riporta le coordinate che descrivono la struttura del com-plesso citocromo c ossidasi bovina. Per far questo è sufficiente selezionare la X evi-denziata nella tabella relativa al «download»:

Download the Structure FileChoose from the following file and compression formats

file formatCompression PDB mmCIF

None X X

Unix compressed X X

GNU zipped («gzipped») X X

ZIPped X X

n I files PDB

Una volta salvato il file PDB sul proprio computer si provi ad aprirlo con un editor ditesto. I files PDB (Paragrafo 7.3) sono in formato flat-file dove la linea COMPND ri-porta informazioni circa il complesso enzimatico (le stesse informazioni già viste dopoavere seguito il link EXPLORE); la linea SOURCE riporta l’organismo, il tessuto e il ti-po cellulare da cui è stato estratto il complesso cristallizzato. Dopo una lunga serie di in-formazioni sulle caratteristiche del cristallo (indicate da REMARK), si trovano una se-rie di righe che iniziano con DBREF: si tratta dei riferimenti ad altre banche dati, peresempio la riga:

DBREF 2OCC D 4 147 SWS P00423 COX4_BOVIN 26 169

indica che la catena chiamata D della entry PDB 2OCC (quella che si sta analizzan-do) corrisponde alla entry P00423 della banca dati SwissProt e corrisponde alla cox4bovina.

Procedendo nella lettura del file PDB si trovano le sequenze delle subunità del com-plesso e le coordinate atomiche che sono per l’utente che consulta la banca dati in-comprensibili, ma che sono la parte del file necessaria per poter rappresentare grafica-mente la struttura.

Per visualizzare la struttura descritta in un file PDB non è suffciente un editor di te-sto; ma è necessario utilizzare un apposito programma in grado di leggere le coordina-te riportate nel file e di riprodurle graficamente. Tra i programmi più diffusi vengono ci-tati nuovamente Rasmol e PDBviewer.

n RasMol

Il programma RasMol può essere scaricato sul proprio computer dal sitoh t t p : / / w w w.bernstein-plus-sons.com/software/rasmol. Una volta collegati si può ef-fettuare il download del programma eseguibile (b i n a r i e s) e del file di H e l p c o m p a t i b i l icon la configurazione del computer su cui si sta installando il software.

A questo punto è possibile lanciare il programma: si aprono una finestra a sfondonero e una seconda finestra in cui è possibile inserire dei comandi mediante la lineadi testo. È utile lanciare anche l’help in modo da poter trovare informazioni suicomandi e sulle funzionalitá del programma.

© 88-08-07967-8 A • Esercitazioni di bioinformatica 275

Page 38: Appendice A - Esercitazioni di Bioinformatica

Selezionando (nella finestra nera) File e poi Open si apre il file PDB. A differenza diquello che succede aprendo il file con un editor di testo, aprendolo con RasMol siottiene una rappresentazione tridimensionale della struttura.

Tenendo premuto il tasto sinistro del mouse mentre lo si sposta, la struttura puòessere ruotata a proprio piacimento. Se invece si preme il tasto destro la strutturapuò essere traslata mantenendo lo stesso orientamento.

Si provi a selezionare le varie opzioni sotto le voci Display e Colours per vederecome cambia la visualizzazione della molecola.

Selezionando Display – Cartoons» e Colours – Structure si ottiene la rappresenta-zione 3D mostrata in cFigura A1.25 dove le alfa eliche sono rappresentate in colore, ifoglietti beta in giallo e le regioni coiled coil in grigio. Si provi a orientare la struttura inmodo simile a quella rappresentata in Figura A1.25, quindi, nella finestra di testo scri-vere select *d e poi colour blue: la catena D corrispondente a cox4 viene evidenziata inblu. Dettagli sui diversi comandi si possono ottenere dal file di help cliccando su «helpcommando» nella finestra dei comandi. Si confronti la struttura 3D con lo schema delcomplesso ottenuto consultando KEGG e mostrato in Figura A1.24.

n SwissModel

Il risultato dell’applicazione del programma SWISSMODEL, recapitato alla propriacasella di posta elettronica può essere salvato in un file e visualizzato con il program-ma RasMol. Se si apre questo file, mentre è già aperto il file 2OCC, si può provare aeffettuare un confronto tra le due strutture, che vengono ambedue visualizzate sulmonitor. Per agire su una o sull’altra struttura è necessario che l’una o l’altra sianoselezionate attraverso il comando File (cFigura A1.26 a).

Provare a orientare il modello come la catena «d» del complesso della citocromo cossidasi per apprezzare quanto le strutture siano simili (se non si riesce a visualizzarele molecole per intero si provi a digitare zoom 100 o zoom 70 nella finestra dei co-mandi). Il confronto tra le due strutture apparirà come mostrato in Figura A1.26 b.

A • Esercitazioni di bioinformatica © 88-08-07967-8276

Figura A1.25Rappresentazione 3D dellaentry PDB 2OCC prodotta daRasMol.

Page 39: Appendice A - Esercitazioni di Bioinformatica

n PDBviewer

Un altro programma largamente utilizzato per la visualizzazione delle strutture 3D èPDBviewer disponibile presso il sito Expasy (http://www.expasy.ch/spdbv/). Anchein questo caso il programma deve esser scaricato sul proprio PC per poter essere uti-lizzato. Sulla sinistra della pagina, selezionare DOWNLOAD, quindi la piattaformasu cui si intende istallare il programma (per esempio «pc»), e quindi self extractingarchive 3.7(808 Kb) nella pagina che viene visualizzata. Il programma viene salvatosul proprio computer.

Si lanci il file appena scaricato (con un doppio clic del mouse): si apre una fine-stra, selezionare il tasto Browse, scegliere la cartella in cui installare PDBviewer einfine premere Unzip.

Ci si sposti adesso nella cartella dove è stato installato il programma, vi si troveràuna cartella chiamata «spdbv», in cui si trova il programma spdbv.exe. Lanciato ilprogramma si apre una finestra con dei menu e delle icone (cFigura A1.27 a).

Selezionando Open PDB dal menu File è possibile aprire il file 2OCC.pdb. Sevengono mostrati degli avvisi digitare su «OK». Alla fine compare la struttura, ana-loga a quella rappresentata utilizzando RasMol. Dovrebbero essere visualizzate trefinestre: quella dei comandi mostrata in Figura A1.27 a, una finestra con la struttu-ra e una terza finestra chiamata Control Panel mostrata in Figura A1.27 b. Se que-st’ultima finestra non fosse presente selezionare il menu Window e quindi ControlPanel.

Si esamini in dettaglio il Control Panel: la prima colonna indica la catena proteica(A), la seconda indica la struttura secondaria (in questo caso per gli aminoacidi fenil-alanina-triptofano avendo una struttura ad alfa elica è riportata una «h»), e la terzal’aminoacido. La colonna show indica se il residuo corrispondente deve esseremostrato e la colonna accanto side indica se deve essere mostrata la catena laterale.Cliccando con il tasto sinistro del mouse sulla scritta show tutti i segni di spunta del-la colonna scompariranno e anche la struttura non sarà più visualizzata.

Si scorra la finestra del Control Panel fino a quando nella prima colonna comparela lettera «D», che corrisponde alla catena D del complesso. Selezionando una Dqualunque nella colonna verranno evidenziati tutti i residui corrispondenti a quellacatena (l’equivalente del comando «select *d» di RasMol).

Se adesso si preme con il tasto sinistro sulla scritta Ribn dovrebbe comparire unarappresentazione della struttura della sola catena D del complesso enzimatico.

I quadratini sulla destra mostrano il colore delle catene laterali della rappresenta-zione ribbon o di altri elementi; per selezionare quale elemento deve essere mostrato

© 88-08-07967-8 A • Esercitazioni di bioinformatica 277

A B

Figura A1.26Utilizzo del programmaRasMol. a Selezione di una particola-

re struttura; b confronto tra la struttura

3D della cox4 bovina pre-sente nella banca dati PDBe la struttura 3D della cox4umana predetta da SWIS-SMODEL.

Page 40: Appendice A - Esercitazioni di Bioinformatica

A • Esercitazioni di bioinformatica © 88-08-07967-8278

Figura A1.27Utilizzo del programmaSWISSPDBVIEWER. a Finestra dei menù; b finestra del «Control

Panel»; c selezione della rappresen-

tazione «ribbon» per lasubunità D della Citocro-mo c Ossidasi;

d rappresentazione «ribbon»della subunità D della Cito-cromo c Ossidasi.

A

B

C

D

Page 41: Appendice A - Esercitazioni di Bioinformatica

si deve selezionare la freccia nera sulla destra (Figura A1.27 c). Viene mostrata unaserie di opzioni: si selezioni Ribbon. A questo punto i quadratini mostrano il coloredella rappresentazione ribbon, che è quella attualmente mostrata. Se si preme con iltasto destro del mouse su un quadratino qualsiasi è possibile scegliere il colore dautilizzare per mostrare la struttura.

Se sono stati eseguiti tutti (e solo) i passaggi descritti dovrebbe comparire un’im-magine simile a quella riportata in Figura A1.27 d. Provare a orientare la strutturain modo simile alla rappresentazione mostrata.

Ora, in maniera simile a quanto già fatto usando Rasmol, aprire anche il modellodella struttura della cox4 ottenuto da SWISSMODEL. Come si può notare com-paiono diverse strutture sovrapposte alla catena D del complesso citocromo ossidasi.Cliccando sulla scritta «2OCC» in alto a sinistra nel Control Panel compare un elen-co di sigle tra cui TARGET, che rappresenta il modello della sequenza, 2OCC, che èla struttura del complesso, e altre strutture che sono gli «stampi» sui quali è statamodellata la struttura della cox4 umana (cFigura A1.28 a).

Il segno di spunta indica quale sequenza è mostrata nel Control Panel. Seleziona-re una a una tutte le sequenze (tranne 2OCC e TARGET) e togliere il segno di spun-ta accanto a «visible» nella parte alta del Control Panel: in questo modo vengonomostrate solo le due molecole di interesse.

Finora l’unica differenza rispetto a Rasmol (interfaccia a parte) consiste nellasovrapposizione automatica tra le due sequenze simili. È tuttavia possibile quantifi-care la differenza tra le due strutture sovrapposte, calcolando la distanza media tragli atomi espressa dal valore di RMS (root mean square). Per fare questo si selezionicalculate RMS nel menu Fit. Compare una finestra in cui è possibile selezionare lesequenze per le quali calcolare l’RMS: selezionare 2OCC e TARGET, e premere OK.

Compare una scritta (Figura A1.28 b) che indica il numero di atomi per i quali èstata calcolata la distanza e il valore di RMS. Ovviamente a valori minori di RMScorrispondono modelli più simili (per ulteriori dettagli Paragrafo 7.5).

Inoltre per imparare a utilizzare al meglio il program-ma è necessario leggere con attenzione la guida disponi-bile allo stesso indirizzo da cui è stato scaricato il pro-gramma e, soprattutto, esercitarsi provando le varieopzioni e funzioni disponibili. Un’ultima considerazio-ne deve essere fatta sulla versione del programma: perquesto esercizio è stata utilizzata la versione 3.7 istallatasu PC, utilizzando versioni precedenti o successive, opiattaforme diverse, è possibile che alcuni menu o alcu-ne funzioni siano leggermente diversi.

© 88-08-07967-8 A • Esercitazioni di bioinformatica 279

Figura A1.28Calcolo dell’RMS tra la struttu-ra 3D della cox4 bovina pre-sente nella banca dati PDB ela struttura 3D della cox4umana predetta da SWIS-SMODEL. a Selezione delle strutture da

confrontare; b calcolo del valore dell’RMS.

A

B