43
1 Cosè un database Una banca dati è una collezione di informazioni, organizzate in maniera da facilitare l’accesso casuale, la ricerca ed eventualmente l’utilizzo a fini statistici. Nelle banche dati più semplici, spesso definite sequenziali, i dati sono organizzati in una tabella, all’interno della quale, in ciascuna riga è conservato un elemento della banca (entry): nome, cognome, numero di telefono, indirizzo, città. A ciascun elemento, quindi, sono associate caratteristiche differenti conservate in colonne successive diverse. Questa impostazione e’ sufficiente nei casi più semplici e crea un tabulato, ma porta alla frequente ripetizione dello stesse informazioni in righe diverse (es. alcuni cognomi ed alcuni indirizzi simili e la città che è sempre la stessa e si ripete, come si vede in figura 1. Il modello relazionale, riportato in figura 2, supera questo limite separando le informazioni in tabelle diverse. Gli stessi dati di figura 1 sono organizzati in due tabelle corrispondenti a “persone” e “indirizzi”. Le entries presenti nelle due tabelle sono collegate da link tra

Cos è un database - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Cosa_sono_le... · 1 Cos’è un database Una banca dati è una collezione di informazioni,

Embed Size (px)

Citation preview

1

Cos’è un database Una banca dati è una collezione di informazioni, organizzate in maniera da facilitare l’accesso casuale, la ricerca ed eventualmente l’utilizzo a fini statistici.

Nelle banche dati più semplici, spesso definite sequenziali, i dati sono

organizzati in una tabella, all’interno della quale, in ciascuna riga è conservato un elemento della banca (entry): nome, cognome, numero di telefono,

indirizzo, città. A ciascun elemento, quindi, sono associate caratteristiche

differenti conservate in colonne successive diverse. Questa impostazione e’ sufficiente nei casi più semplici e crea un tabulato, ma porta alla frequente

ripetizione dello stesse informazioni in righe diverse (es. alcuni cognomi ed alcuni indirizzi simili e la città che è sempre la stessa e si ripete, come si vede

in figura 1.

Il modello relazionale, riportato in figura 2,

supera questo limite separando le informazioni in tabelle diverse. Gli stessi dati

di figura 1 sono organizzati in due tabelle corrispondenti a “persone” e “indirizzi”. Le entries presenti nelle due tabelle sono collegate da link tra

2

identificativi numerici (id) assegnati a ciascuna entry, che vengono definiti

relazioni. In figura 3

il processo viene ripetuto introducendo una nuova tabella, quella della città. Questo modello evita la ripetizione dei dati e permette una migliore

organizzazione dei dati stessi, perchè spinge ad identificare meglio le diverse entità presenti nella banca dati e permette di porre al database delle queries

con vincoli, per es. evidenziare tutti gli abitanti della stessa città che si chiamano Mario o che abitano nella stessa strada. Permettono, cioè, di ricavare

subset di informazioni, già presenti nel database, ma non facilmente

evidenziabili, creando in tal modo nuova informazione.

Cosa sono le Banche Dati Biologiche

In informatica, il termine database, tradotto in italiano con banca dati, base

di dati o anche base dati, indica un insieme di dati riguardanti uno stesso argomento, o più argomenti correlati tra loro, strutturata in modo tale da

consentire l'uso dei dati stessi (e il loro aggiornamento) da parte di applicazioni software.

La base di dati, oltre ai dati veri e propri, deve contenere anche le informazioni

sulle loro rappresentazioni e sulle relazioni che li legano.

In un sistema informatico, una base di dati può essere manipolata

direttamente dai programmi applicativi, interfacciandosi con il sistema operativo. Tale strategia era quella adottata universalmente fino agli anni

sessanta, ed è tuttora impiegata quando i dati hanno una struttura molto

semplice, o quando sono elaborati da un solo programma applicativo.

Tuttavia, a partire dalla fine degli anni sessanta, per gestire basi di dati

complesse condivise da più applicazioni, si sono utilizzati appositi sistemi

3

software, detti sistemi per la gestione di basi di dati (in inglese "Database

Management System" o "DBMS").

Una delle attività principali dei bioinformatici consiste nella progettazione,

costruzione e uso di banche dati di interesse biologico. Gli avanzamenti della biologia molecolare e dell'ingegneria genetica degli ultimi anni sono stati

accompagnati da tecnologie strumentali sempre più sofisticate. Tutto questo sta portando ad una enorme produzione di dati, inimmaginabile fino a poco

tempo fa.

Questa figura è stata tratta da un lavoro di Mark Boguski (www.sciencemag.org); si può osservare che stiamo vivendo un momento

molto particolare in cui la quantità di dati prodotti (sequenze di DNA nell'esempio) aumenta in modo molto più veloce rispetto al numero di

pubblicazioni scientifiche.

Il grafico si riferisce ai dati di sequenze di DNA che a loro volta corrispondono a geni e a proteine. Oltre ai dati di sequenze si stanno producendo molti altri dati

in modo sistematico, ad esempio sull'espressione genica mediante la tecnica dei chip di DNA (microarray), oppure di espressione e interazione proteica con

le tecniche della proteomica.

Non avrebbe senso aumentare il numero di pubblicazioni scientifiche perchè

non si può pensare che si possano leggere milioni di articoli diversi. E' quindi necessario disporre di nuovi sistemi di immagazzinamento e accesso

all'informazione. Questa esigenza trova una risposta nelle banche dati che nel settore biologico si stanno diffondendo moltissimo e sono diventate uno

strumento indispensabile per la ricerca e per la diffusione dei risultati.

Una banca dati biologica raccoglie informazioni e dati che possono essere derivati dalla letteratura o da analisi effettuate in laboratorio (analisi in vitro o

in vivo) oppure attraverso applicazioni di analisi bioinformatiche, dette analisi

4

in silico (si dice "in silico", in quanto i processori dei calcolatori sono costituiti

da silicio) e dalla letteratura scientifica. Le banche dati sono progettate come contenitori costruiti per immagazzinare dati in modo efficiente e razionale al

fine di renderli facilmente accessibili a tutti gli utenti: ricercatori, medici,

studenti, etc.

Entry

Ogni banca dati biologica ha un elemento principale attorno a cui viene costruita la entry, contenente informazioni sull’oggetto caratteristico della

banca dati (ad esempio: sequenze nucleotidiche o referenze bibliografiche) insieme a tutte le altre informazioni che si riferiscono a quella entry in

particolare). Una entry di una banca dati di sequenze nucleotidiche potrebbe contenere, oltre alla sequenza di una molecola di DNA, il nome dell’organismo

cui la sequenza appartiene, la lista degli articoli che riportano dati su quella sequenza, le caratteristiche funzionali (cioè si tratta di un gene o di una

sequenza non codificante) e ogni altra informazione ritenuta di interesse.

Esempio di entry:

In una banca dati di sequenze di acidi nucleici l’elemento centrale è la

sequenza nucleotidica di DNA o RNA a cui si associano annotazioni con le quali si classifica l’elemento come ad esempio il nome della specie, la

funzione, le referenze bibliografiche, ecc. In una banca dati dei promotori eucaristici l’elemento centrale è il

promotore. Ogni entry racchiude quindi le informazioni che caratterizzano l’elemento, cioè gli attributi dell’elemento centrale.

Per definire la struttura di una banca dati si definiscono gli attributi e il formato con cui queste informazioni verranno organizzate. La maggior parte della

banche dati biologiche possono essere usate dalla comunità scientifica in formato flat-file, cioè un file sequenziale in cui ogni classe di formazione è

riportata su una o più linee consecutive identificate da un codice a sinistra che caratterizza gli attributi annotati sulla linea.

Questo formato è molto utilizzato perché è molto leggibile e analizzabile con programmi che estraggono dalla banca dati informazioni specifiche. Prima tutte

le banche dati biologiche erano in formato flat-file, oggi invece si usano i DBMS ovvero i Database Management System per disegnare banche dati sempre più

complesse.

Cross-referencing

Uno dei problemi più grandi è il bisogno di avere accesso in modo immediato a informazioni distribuite fra varie banche dati.

5

Una soluzione è offerta dal cross-referencing (riferimento crociato) ovvero trovare

collegamento tra i dati attraverso delle righe che relazionano i dati annotati da una entry di una specifica banca dati con altri dati presenti in altre entries in altre banche

dati. Su internet questo meccanismo viene implementato con l’hypertext link, ovvero i link.

Esistono anche altre soluzioni più complesse come il rilascio dei dati in formato XML (eXtensible Markup Language) che è un linguaggio simile all HTML ma che si può

facilmente riportare a qualsiasi sistema

Nascita delle banche dati biologiche

1965: Margareth Dayhoff compila un atlante di proteine omologhe studiando le relazioni tra le sequenze primarie

Inizio anni 70: L’atlante viene reso pubblico in versione elettronica nella banca dati

NBRF.

E' questa la nascita della prima banca dati proteica. Ancora non ci sono dati di sequenziamento nucleotidico nella banca, sono tutti dati di natura biochimica classica, ma l’idea di rendere disponibili in modo libero dei dati accumulati e organizzati è alla

base del concetto che muove gli organizzatori e i curatori delle banche dati, e che muove anche i fondi per la loro gestione

Nasce inoltre la tecnologia del DNA ricombinante, che permette di manipolare le

sequenze nucleotidiche e di capire la struttura, la funzione e l’organizzazione del DNA.

Fine anni 70: pubblicazione dei primi dati genomici, con le prime sequenze nucleotidiche codificanti liberamente accessibili attraverso i rudimenti della rete

disponibili a quel tempo tra le varie università.

2001: il Consorzio Pubblico Internazionale e la Celera Genomics forniscono dati del genoma umano completo, aprendo la strada ai progetti di sequenziamento a tappeto.

Successivamente, l’approccio biotecnologico ha fornito una serie imponente di dati di natura proteomica grazie all’analisi spettrometrica e all’elettroforesi 2-D, ed una serie

altrettanto vasta di dati di trascrittomica grazie alla tecnologia dei microarrays.

Insieme ai dati nasce l’esigenza di sistemi di archiviazione e di ritrovamento facili e esaustivi, in modo da averli a disposizione in ogni istante, dato che sebbene ci siano tantissime informazioni, ognuna deve essere validata e confermata, essendo per la

maggior parte dati grezzi non rielaborati.

Conoscere il dato non significa capire il dato, serve sempre un approccio sperimentale classico perchè questo sia veramente verificato

Interrogazione delle banche dati

6

Lo scopo di interrogare una banca dati è quello di ottenere informazioni da

esse, attraverso sistemi informatici, e da altre banche dati cui è correlata.

Uno dei principali problemi legati alle banche dati biologiche è quello

dellanomenclatura. Non esiste uno standard nell’assegnazione di nomi ai geni; uno stesso gene può avere diversi nomi (Es. TRF2 è anche noto come

TLP o TLF), o uno stesso nome può individuare diversi geni (Es. TRF sta per TBP Related Factor ma anche per Transferrina o ancora per Telomeric Repeat

Binding Factor). Occorre quindi un modo per individuare univocamente i geni e le proteine, e per gestire la grande quantità di informazioni ad essi legate:

nelle banche dati primarie ogni elemento (gene, sequenza, etc) è individuato univocamente da un accession number.

Per realizzare l'estrazione di dati esistono vari sistemi fra cui i più efficienti

sono SRS ed ENTREZ. Altri sistemi altrettanto validi sono ACNUC eAceDB.

L’interrogazione di una banca dati può avvenire in maniera banale, inserendo il nome ricercato in una finestra di tipo text-search oppure tramite la

sottomissione di forms in cui inserire varie informazioni sulla nostra ricerca. La logica di criterio è quella booleana che effettua intersezioni (operatore AND),

somme (operatore OR), ed esclusioni (operatore BUT NOT), di insiemi di dati.

SRS

SRS (Sequence Retrieval System) è un sistema per la ricerca e l’estrazione di dati biologici via web. Esso consente di interrogare più banche dati differenti purché

abbiano almeno un informazione comune. SRS inoltre consente la navigazione attraverso varie banche dati sfruttando il cross-referencing. Può essere installato su

diversi server e interagire con altri server SRS o altre banche dati, con pochi accorgimenti.

Si può attivare una sessione cliccando su start, visualizzando così la top page in cui è possibile scegliere tra le varie banche dati. Una volta scelte le banche dati è possibile

effettuare una query riempiendo l’apposito form.

Completato il form e cliccando su submit query verranno visualizzati tutti i risultati con le varie possibilità di visualizzazione, inoltre sarà possibile salvare i dati con il

comando save.

Altri comandi utili sono link con cui si ottengono vari link ad altre banche dati per ottenere ulteriori informazioni, launch con cui è possibile lanciare un programma di analisi e projects con cui vengono salvati tutti i dati relativi alla sessione nel caso in

cui la stessa ricerca debba essere ripetuta più volte.

7

La home page di SRS:

Entrez

Entrez è un sistema disponibile via web per la ricerca e l’estrazione di dati da banche

dati di sequenze nucleotidiche o proteiche, dalla banca dati bibliografica Meline, dalla banca dati delle malattie mendeliane OMIM, o da risorse gnomiche. Tramite Entrez è

anche possibile esplorare la classificazione degli organismi come riportata inTaxonomy o su ogni altra banca dati specializzata sviluppata all’NCBI.

Entrez, a differenza di SRS, è una shell chiusa in cui non è possibile scaricare via internet, o ottenere un software che gestisce l’intero sistema, né è possibile duplicare

il sito su altri computer, né installare proprie banche dati personali. Per effettuare la ricerca bisogna scegliere una categoria e poi usare gli operatori logici AND, OR, BUT NOT.

Si può usare la funzione Limits per limitare la ricerca ad alcuni criteri. Il

comandoHistory visualizza tutti i risultati di una query relativi ad una categoria, che possono essere salvati col comando text.

Entrez è usato soprattutto da ricercatori in quanto è un sistema di riferimento per la

ricerca bibliografica sulla banca dati Medline che è la più completa banca dati bibliografica del settore bio-medico. L’NCBI ha incorporato Medline in Entrez chiamando il nuovo sistema formato da Entrez + Meline: PubMed. Poiché moltissime

8

banche dati hanno il cross-referencing a Medline è sempre possibile consultare la

letteratura correlata ai dati biologici annotati nelle banche dati specializzate.

La homepage di Entrez:

ACNUC

ACNUC è un sistema disponibile su mainframe con sistemi operativi linux o VMS.

Consente l’estrazione dei dati dalle banche dati di sequenze di acidi nucleici (EMBL o

GenBank) o proteiche (SWISSPROT). Si possono ricercare dati di una sola categoria per volta. I dati possono essere selezionati coi comandi Select o Find.

Coi comandi Names, Short e Info si possono visualizzare o stampare i risultati ottenuti

con select o find. ACNUC ha il vantaggio di poter estrarre sottosequenze omogenee definite attraverso le Feature tables.

Ecco la formulazione generale per l'esecuzione del comando Select in ACNUC:

"criterioA=value ET criterioB=value ET NO (criterioC=value OU criterioC=value)"

9

Qui invece la sintassi descrittiva del comando select in ACNUC per la ricerca di

sequenze umane codificanti globine con esclusione delle alpha e beta globine

"sp=homo sapiens" ET k=globin ET NO (k=alpha globin OU k=beta globin)

eDB

AceDB era stato sviluppato inizialmente per la gestione dei dati di mappaggio e sequenziamento del genoma Caenorhabditis elegans.

Oggi è adottato per altri progetti genomici. AceDB comprende programmi per la

strutturazione in formato AceDb di nuove banche dati per l’interrogazione e l’analisi dei dati in AceDB. Si può scaricare il pacchetto con questi programmi per

ricercare dei dati o anche per aggiornare il database via web.

Banche dati primarie e banche dati specializzate

Le banche dati possono essere di due tipi: primarie o specializzate.

Le banche dati primarie contengono informazioni e annotazioni molto generiche delle sequenze di acidi nucleici (DNA e RNA). Le principali banche dati primarie più importanti sono la EMBL datalibrary, la GenBank e la DDBJ.

Nel 1981 nasce nel Laboratorio Europeo di Biologia Molecolare ad Heidelberg

(Germania) l’EMBL-datalibrary, 519 entries con sequenze di DNA e RNA, l'autore è Kurt Stueber.

La EMBL datalibrary è la banca dati europea costituita nel 1980 nel laboratorio Europeo di Biologia Molecolare di Heidelberg (Germania) e comprende numerose fonti,

le seguenti:

10

La GenBank è la corrispondente banca americana costituita nel 1982 da Walter Goad

La DDBJ infine è la corrispondente giapponese della GenBank, nata nel 1986 dal National Institute of Genetics in Mishima (Giappone).

Fra le tre banche dati è stato stipulato un accordo internazionale per cui il contenuto dei dati di sequenza presenti nelle tre banche dati è quasi del tutto coincidente in

quanto gli aggiornamenti quotidiani apportati in ciascuna banca dati vengono automaticamente trasmessi alle altre due.

Le banche dati specializzate si sono sviluppate successivamente e raccolgono insiemi di dati omogenei dal punto di vista tassonomico e/o funzionale disponibili nelle

Banche dati Primarie e/o in Letteratura, o derivanti da vari approcci sperimentali,

11

rivisti e annotati con informazioni di valore aggiunto.

Un elenco dettagliato e aggiornato di tutte le banche dati biologiche disponibili e

operative si può ottenere consultando la compilazione di banche dati sviluppata da Baxevanis in concomitanza con la pubblicazione annuale del volume speciale pubblicato annualmente da Nucleic Acids Research.

Esistono anche banche dati a supporto di analisi sperimentali di routine. Ad esempio la

REBASE è una banca dati che elenca tutti i nomi degli enzimi di restrizione isolati.

Un esempio di entry proteica EMBL (flat-file)

ACCESSION: AAC74054

indica il numero di accesso

ORGANISM: Escherichia coli K12 Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia indica l’organismo a cui appartiene e la sua tassonomia.

12

13

14

Qualsiasi cosa è standardizzata, dai tags agli spazi ed ai segni di punteggiatura.

Questo permette ai programmi di RETRIEVAL, cioè di ricerca, di trovare rapidamente ciò che si cerca.

Banche dati di sequenze nucleotidiche

Le banche dati di sequenze nucleotidiche sono la EMBL, la GenBank e la DDBJ.

Poiché sono coincidenti (vedi banche dati primarie e specializzate) ne descriveremo solo una: la EMBL.

Le entries nella banca dati EMBL sono classificate in divisioni identificate da un codice

a 3 lettere annotato nella riga ID. Il raggruppamento nelle varie divisioni è basato prevalentemente sulla tassonomia tranne in alcuni casi come il gruppo delle EST (frammenti di sequenze espresse), delle HTG (sequenze derivate da progetti

genomici), e altre ancora.

Le banche dati di sequenze nucleotidiche (o primarie) sono aggiornate quasi via internet interamente dai ricercatori produttori di nuove sequenze.

15

Sono state organizzate nei primi anni in modo non molto accurato in termini di

annotazioni e ridondanza di informazioni. Per questo motivo le analisi statistiche sui campioni estratti in modo automatico sono poco attendibili.

In ogni caso il numero totale di specie differenti rappresentate nella banca dati EMBL

ammonta a circa 87000.

Banche dati di sequenze proteiche

Le banche dati proteiche sono il secondo grande aggregato di dati biologici. Esse raccolgono sia sequenze proteiche ottenute dalla sperimentazione della sequenza

amminoacidica, sia dalla traduzione di nucleotidiche. Qui si trovano i dati estratti dalle banche dati di acidi nucleici relativi a proteine che vengono poi accuratamente validati e arricchiti di informazioni specifiche.

Le banche dati di sequenze proteiche più importanti sono la SWISSPORT,

laTREMBL e la PIR

La PIR, Protein Information Resource è sviluppata in collaborazione fra due grossi

centri: la Georgetown University negli USA e il MIPS a Monaco di Baviera.

Questa è una banca dati valida per il livello di annotazioni e il livello di aggiornamento ma è poco integrata con altre banche dati.

La SWISSPORT è la banca dati di proteine di riferimento per tutti gli studi correlati in

silicio di proteine e patterns proteici.E' sviluppata in Svizzera a Ginevra dal gruppo di Amos Bairoch che afferisce all’istituto nazionale SIB.

La entry in SWISSPORT differisce per quella in EMBL soprattutto per le features che in questo caso descrivono la presenza nella proteina di amminoacidi modificati, regioni

peptidiche, domini strutturali, siti di splicing proteici, polimorfismi e altri segnali e dati rilevanti per la struttura della proteina. C’è grande cura per l’annotazione del nome

della proteina ma un problema è che spesso allo stesso gene vengono dati nomi differenti, rendendo difficile la ricerca per nome del gene. Per risolvere il problema è stato costituito un consorzio: Gene Ontology (GO). Sul sito del consorzio è disponibile

un dizionario con tutti i nomi dei geni.

In SWISSPROT sono riportate anche le informazioni relative ad alterazioni della proteina.; tali informazioni derivano da OMIM (On-line Mendelian Inheritance in Man).

L’aggiornamento di SWISSPROT avviene tramite l’EBI dove viene sviluppata un’altra banca dati di proteine, TREMBL, che altro non è che il risultato della traduzione

automatica in amminoacidi di tutte le sequenze annotate nella banca dati EMBL come sequenze codificanti di proteine. Una parte di queste sequenze costituisce la

16

SPTREMBL che si occupa delle proteine immunologiche,la REMTREMBL invece si

occupa delle proteine brevettate e a frammenti non caratterizzanti.

Se si vuole consultare contemporaneamente SWISSPROT e SPTREMBL si fa riferimento a SWALL che è una raccolta di sequenze proteiche ridondante e non accurata in tutti i suoi elementi

Banche dati di motivi e domini proteici

La comparazione per individuare caratteristiche strutturali e funzionali già riscontrate

in altre sequenze ed annotate in specifiche banche dati si può effettuare attraverso l’applicazione di tecniche di ricerca di similarità, oppure, nel caso in cui tale ricerca

non evidenzia sequenze simili a quelle in oggetto, attraverso l’applicazione di tecniche di ricerca di segnali (pattern recognition) basate su algoritmi più o meno complessi.

L’approccio pattern recognition consente di ritrovare segnali, motivi o domini

strutturali e funzionali che si conservano nel tempo anche quando le sequenze hanno subito una divergenza tale da aver perso in buona parte le caratteristiche di similarità globale.

I motivi sono combinazioni regolari di strutture secondarie. Possiedono determinate

funzioni biologiche. Esempi di motivi sono: elica-loop-elica, o zinc finger, o i motivi BH della famiglia BCL2.

I domini sono invece regioni ampie e discrete di una proteina in grado di assumere

una struttura terziaria (quindi di effettuare folding) fisicamente separata e distinguibile da altre parti della stessa molecola. A volte è possibile definire

funzionalmente un dominio quando questo definisce una particolare funzione della proteina

A questo proposito esistono diverse banche dati specializzate che annotano

informazioni relative a motivi e domini funzionali. Tra queste un gruppo cospicuo è stato integrato in InterPRO, una risorsa bioinformatica, sviluppata dall’EBI, che

consente di ricercare contemporaneamente su più banche dati, distribuite su calcolatori diversi e strutturate in modo differente, informazioni funzionali e strutturali relative ad una proteina o ad una famiglia di proteine.

La ricerca dei dati in InterPRO si può effettuare attraverso un sistema di semplice ricerca basato su componenti del DBMS Oracle o attraverso il sito SRS dell’EBI. Inoltre attraverso il software InterPROscan è possibile ricercare motivi strutturali e funzionali

annotati nelle banche dati integrate in InterPRO al fine di caratterizzare dal punto di vista funzionale nuove proteine derivate da progetti di sequenziamento genomico.

Le banche dati integrate in InterPRO sono :

PROSITE, Pfam, PRINTS, ProDom,SMART e TIGRFAMs.

Ognuna di queste banche dati è stata prodotta a partire da dati di sequenze proteiche annotati in SWISSPROT e TREMBL, che sono la fonte primaria per i dati disponibili

attraverso InterPRO. A causa della mancanza di una concordanza nella definizione dei

17

domini, delle famiglie, dei motivi e dei patterns, la navigazione in InterPRO non è del

tutto immediata, è quindi necessario analizzare con cura e attenzione i risultati ottenuti, documentandosi direttamente sul sito riguardo l’organizzazione dei dati

all’interno di ciascuna banca dati.

La home page di InterPRO:

PROSite

E’ un database di famiglie e domini proteici comprensiva di pattern e motivi (signatures) che identificano e rendono riconoscibili e classificabili le proteine. La

ricerca in prosite comprende anche altri database strutturali e di classificazione.

18

ProDom

ProDom è un database che raccoglie i dati relativi a famiglie di proteine generate automaticamente dall' applicazione di PSI-Blast, una versione di gapped-Blast che,

confrontando una sequenza proteica detta sequenza sonda, in un database di proteine, raccoglie un multi-allineamento di tutte le sequenze proteiche per le quali Blast ha determinato uno score più alto di una certa soglia detta threshold.

Il risultato è un profilo generato a partire dal multi-allineamento trovato, il quale viene

poi utilizzato per rilanciare Blast su tutto il database di proteine per individuare nuove sequenze correlate a quelle già allineate. Le nuove sequenze trovate vengono

aggiunte al multi-allineamento al fine di ottimizzare ulteriormente il profilo. Questa procedura si ripetute finché non si raggiunge una certa convergenza. Ad ogni iterazione l’utente può decidere di eliminare sequenze incluse che ritiene non essere

adatte alla propria ricerca.

ProDOM è generato a partire da profili ottenuti dal multi-allineamento di famiglie di proteine annotate in PfamA. Infine ProDOM ha recentemente introdotto un nuovo

sottoinsieme definito ProDOMCG che annota domini proteici di organismi per i quali è stato sequenziato il genoma completo.

Pfam

19

Pfam è una banca dati di famiglie di proteine accomunate da elementi strutturali e

funzionali. Ogni entry in Pfam è formata da un tipo che può essere famiglia, dominio, repeat o motivo.

Il tipo famiglia raggruppa le sequenze proteiche che hanno in comune gli stessi

domini; Il tipo dominio definisce una unità strutturale che può essere presente in famiglie differenti; Il tipo repeats raggruppa elementi funzionali attivi e presenti in

copie multiple in proteine globulari; Il tipo motivi include pattern componenti blocchi strutturali non associati a proteine globulari.

Ogni dominio in Pfam ha dei limiti ottenuti dal database SCOP, un database gerarchico delle strutture di proteine nel quale si trovano le classificazioni dei domini strutturali.

Poiché una stessa funzione proteica può essere caratterizzata da più domini, i links fra Pfam e SCOP possono essere molti a molti. Le famiglie di proteine non classificabili

secondo i criteri su citati, ma che comunque sono state prodotte automaticamente attraverso l’applicazione di PSI-BLAST e quindi annotate in ProDOM, sono annotate in Pfam nel sottoinsieme Pfam-B, un database meno accurato ma comunque di supporto

all’analisi proteomica.

Pfam annota anche gruppi di proteine classificate per la presenza di regioni non definibili come domini, come per esempio gli elementi trans-membrana, i peptidi di

segnale, regioni a struttura random e regioni a bassa complessità: questi patterns sono determinati attraverso l’applicazione di softwares specifici quali TMHMM, SignalP,

ncoil e SEG e sono annotati nella sezione Non Pfam regions.

Prints

PRINTS è un database che raccoglie sequenze proteiche in clusters definiti da un

Fingerprint comune, cioè un insieme di più motivi conservati e dedotti dall’osservazione di un multi-allineamento ottenuto applicando algoritmi per la ricerca di similarità locali; Il multi-allineamento prodotto non include gaps.

I clusters sono classificati in una forma gerarchica di superfamiglie, famiglie

e sottofamiglie. Il numero di famiglie annotate in PRINTS è ridotto rispetto a Pfam e ProDOM in quanto i dati, prodotti in modo automatico, successivamente sono rivisti manualmente e annotati con dati biologici derivati dalla letteratura e da ulteriori

analisi.

PRINTS può essere interrogato utilizzando un semplice sistema di ricerca testuale secondo criteri diversificati oppure è possibile effettuare una ricerca di similarità tramite Blast o applicare software specifici quali Fpscan, MulScan, GraphScan e

FingerScan che ricercano, con modalità differenziate, in una nuova sequenza di cui di voglia caratterizzare la struttura e la funzione, fingerprints già annotati in PRINTS.

20

SMART

SMART (Simple Modular Architecture Research Tool) è una risorsa Web che raccoglie

dati relativi a domini proteici e consente la ricerca di domini in nuove sequenze proteiche.

SMART per ogni famiglia di proteine associate a un dominio, annota informazioni sulla funzione sulla localizzazione cellulare, sulla struttura terziaria in cui è coinvolto il

dominio e su relazioni filogenetiche fra le specie da cui sono derivati le proteine componenti la famiglia. Le informazioni vengono annotate a mano dopo accurate

valutazioni. SMART raccoglie anche informazioni correlate a OMIM per quei domini dove sono state

riscontrate mutazioni associate a fenotipi patologici. SMART cura particolarmente domini associati a elementi mobili presenti nei genomi eucarioti e annota anche gli

elementi intrinsechi quali i peptidi segnale, gli elementi transmembrana e le regioni a struttura random.

TIGRFAMs

TIGRFAMs è una collezione di famiglie di proteine prodotta mediante annotazione biologica di semplici multi-allineamenti proteici o di profili ottenuti

dalla ottimizzazione di multi-allineamenti attraverso Hidden Markov Models.

Un’ultima banca dati da citare non integrata in InterPRO ma con cross-referencing a InterPRO, è ClusTR , un database di cluster di proteine

multiallineate, prodotti automaticamente a partire dagli accoppiamenti fra tutte le proteine annotate in SWISSPROT + TREMBL. Il database è sviluppato

dall’EBI

Banche dati di strutture proteiche

La conoscenza di motivi strutturali delle proteine è di grande importanza per la comprensione funzionale delle biosequenze. Per dati strutturali di una proteina si intendono la distribuzione spaziale degli atomi componenti gli amminoacidi e quindi

degli amminoacidi stessi.

Tali dati corrispondono alle coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X o mediante applicazione di tecniche di spettroscopia NMR su

proteine cristallizzate.

21

L’unica banca dati che raccoglie tutte tali informazioni è la banca dati PDB che a

gennaio 2002 riportava più di 16.000 strutture proteiche.

Tale banca dati è un riferimento unico per tutti gli studi strutturali. I produttori di nuovi dati possono sottomettere nuovi dati utilizzando il sistema web ADIT (AutoDep

Input Tool).

Presso il sito del PDB sono disponibili dati statistici relativi al numero di strutture e alla loro distribuzione nelle varie classi di macromolecole. Nell’ambito dei dati strutturali le banche dati di notevole importanza sono: MMDB, CATH, DSSP, SCOP, MSDB.

Banche dati biologiche per il sistema immunitario

L’immunologia è una branca della moderna ricerca biomedica che si basa, tra le altre cose, sullo studio funzionale e strutturale delle macromolecole biologiche e sull’analisi

di variabilità molecolare associata alle risposte immunitarie.

Alcuni dei più rilevanti database nel settore immunologico sono: IMGT, MHCpep, FIMM e MPID.

IMGT è il database internazionale di ImmunoGenetica e accoglie dati relativi alle

ImmunoGlobuline, ai recettori delle cellule T(TCR) e al maggiore complesso di istocompatibilità di classe I e II. Il database riporta dati relativi alle sequenze, ai

genomi, alle strutture e alla variabilità delle macromolecole immunologiche umane e di altri vertebrati. Il sito di IMGT consente di accedere al database per effettuare ricerca di dati, ricerca di similarità e altre specifiche analisi in silico. Il database

contiene anche un sottodatabase IMGT/HLA esclusivo per il complesso HLA. IMGT è sviluppato in Francia dal gruppo di M.P.Lefranc a Montpellier ma in stretta

collaborazione con l’EBI e con il gruppo SWISSPORT.

I peptidi generati dal processamento di proteine antigeniche legano le molecole costituenti il complesso di maggiore istocompatibilità (MHC) che li presenta sulla

superficie cellulare per il riconoscimento dei recettori delle cellule T. Tali peptidi sono definiti epitopi T-cell e sono caratterizzati da una estrema variabilità composizionale associata anche alla variabilità delle molecole MHC.

MHCpep è un database che annota i dati di sequenza dei peptidi che legano molecole

di MHC di uomo, topo, e in minima parte anche di ratto e di altri primati. Ogni entry è associata a uno specifico peptide che lega uno specifico allele MHC. Sono annotate

anche informazioni sull’attività di legame e sui metodi con cui i peptidi sono stati determinati. Infine ciascun peptide è correlato attraverso le linee di cross-referencig alla banca dati SWISSPROT in modo da mettere in relazione il peptide con la

corrispondente proteina sorgente. L’aggiornamento di MHCpep è bloccato a luglio

22

1998; dati più recenti possono essere ottenuti dal database FIMM.

FIMM è un database di antigeni, molecole MHC, peptidi associati alle molecole MHC e

dati correlati a patologie. A differenza di MHCpep che è un database disponibile in formato flat-file, scaricabile dalla rete e quindi consultabile a misura delle esigenze dell’utente, FIMM è strutturato in un pacchetto chiuso, secondo gli schemi delle

cosiddette data-warehouse che consentono la ricerca e l’analisi dei dati esclusivamente secondo percorsi pre-progettati dal produttore del pacchetto stesso.

Per esempio non è possibile estrarre l’intero database o un intero sottoinsieme del database come per esempio tutti i peptidi leganti MHC di classe I, ma è solo possibile consultare il database ed effettuare analisi molto mirate e specifiche.

MPID (MHC Peptide Interactions DB) annota informazioni relative alle correlazioni

sequenza-struttura-funzione per i peptidi che legano MHC. MPID riporta in particolare tutte le strutture delle proteine contenenti peptidi che legano i complessi MHC e

informazioni slla caratterizzazione strutturale delle interazioni complesso-peptidi. Le strutture sono dedotte dal database PDB

Banche Dati mitocondriali

Gli organismi eucariotici contengono nel citoplasma delle loro cellule organuli di

vario tipo fra cui i mitocondri, il cui ruolo è di assoluta importanza in moltissimi processi metabolici e di funzionalità della cellula. Le numerose e interessanti

proprietà del mitocondrio fra cui le piccole dimensioni del suo genoma hanno favorito numerosi studi e anche grandi e coordinati progetti di sequenziamento

dei genomi mitocondriali di vari organismi. Numerose informazioni sono disponibili tramite le banche dati specializzate come le seguenti:

GOBASE (Organelle Genome Database) è una risorsa genomica che

raccoglie dati sui genomi di cloroplasti e mitocondri. I nomi dei geni sono annotati secondo un vocabolario controllato definito da esperti.

MITOMAP (Human Mitochondrial Genome Database) è un report

aggiornato ai dati pubblicati di tutte le variazioni riscontrate sul DNA mitocondriale di soggetti affetti da patologie e su soggetti i cui campioni

sono stati prelevati per studi di genetica di popolazione. I dati sono annotati in forma tabellare e possono essere estratti attraverso l’utilizzo

di un sistema di interrogazione semplice. Non è presenta alcuna relazione tra i dati per cui non è possibile effettuare statistiche sulla

frequenza di variabilità di ciascun sito del genoma in cui siano state riscontrate e annotate mutazioni.

Human MitBASE è una banca dati nata per raccogliere in un'unica risorsa integrata i dati sul mitocondrio di tutti gli organismi eucariotici. I

dati sono organizzati in base a ogni individuo, alla sua origine geografica e alla sua descrizione dei dati clinici associati. Ogni entry raccoglie

moltissime informazioni associate all’individuo e ciò implica un notevole

23

dispendio di risorse umane e una difficoltà di mantenimento della banca

dati stessa, che risulta meno aggiornata rispetto a MITOMAP.

HrvBase è una banca dati che raccoglie i multi-allineamenti delle

sequenze relative alle regioni di controllo del genoma mitocondriale dei

primati.

MITOP raccoglie informazioni su geni correlati alla funzionalità del

mitocondrio di uomo, topo, lievito, Caenorhabditis elegans e Neurospora crassa. Ogni entry è associata a una proteina della quale sono annotate

la classe funzionale, il codice dell’enzima, il complesso proteico di appartenenza della proteina, il peso molecolare, il punto isolettrico, etc.

MitoNuc una banca dati di geni nucleari di metazoi per il mitocondrio. I dati sono estratti da SWISSPROT come sequenze mitocondriali di

metazoi e vengono quindi accuratamente controllati e annotati con informazioni specifiche. Per quanto riguarda le proteine umane è

riportata la localizzazione del gene sul genoma umano ottenuta attraverso analisi effettuate su Ensembl.

AMmtDB è la banca dati dei multi-allineamenti di geni codificati da genomi mitocondriali di Metazoi. Ogni entry è gene e classe-tassonomica

specifica.

MITOCHONDRIOME è un sito web che raccoglie banche dati mitocondriali e informazioni correlate. Attraverso tale sito si accede alle

banche dati Human_MitBase, MITONUC e AMmtDB oltre a dati ottenuti dall’analisi di variabilità e complessità di geni e egenomi mitocondriali di

metazoi.

PLMitRNA è una banca dati di molecole e geni di tRNA identificati nei

mitocondri di tutte le piante verdi. Informazioni caratterizzanti il gene o la molecola sono annotate e possono esssere utilizzate per la ricerca dei

dati. I tRNA possono essere selezionati per nome della specie o per raggruppamento tassonomico. Il multiallineamento di ciascun cluster di

tRNA omologhi è anche disponibile.

Risorse Genomiche

Il progresso dei risultati ottenuti dai progetti genomici ha dato un grande grande impulso alla bioinformatica.

Le risorse genomiche sono siti dove è possibile reperire dati relativi al

mappaggio e al sequenziamento genomico ed eventualmente altre informazioni

correlate. Le tipologie di tali risorse sono:

Risorse integrate dove sono disponibili dati relativi a tutti i genomi attualmente in fase di studio (Entrez_Genomes o EBI_Genome)

Risorse relative ai genomi di determinate categorie di organismi

24

Risorse organismo specifiche che hanno la caratteristica comune di

poter scaricare sul proprio computer la sequenza dell’intero genoma o di parti di esse individuate dalla localizzazione cromosomiale o da uno

specifico marker. E' poi sempre possibile effettuare ricerche di similarità

di sequenza contro l’intero genoma o parti di esso mediante l’applicazione dei metodi FASTA e/o Blast.

Banche Dati di Geni

Numerose Banche Dati di geni sono stati sviluppate a partire prevalentemente da dati genomici o comunque da dati annotati nelle banche dati primarie.

Ricordiamo tra gli altri: LocusLink, RefSeq,UniGENE, COGs,GENES ed

euGENES. LocusLink è uno dei database sviluppati all’NCBI nell’attività di

annotazione curata dei dati genomici. Vengono annotati, per ogni locus genetico (ogni elemento funzionale di un genoma), il nome ufficiale ed

eventuali sinonimi, il codice della classificazione internazionale degli enzimi, se trattiamo degli enzimi, il link a OMIM, gli Accession_numbers

delle sequenze nucleotidiche associate al locus e annotate nelle banche

dati primarie e il link alle banche dati RefSeq e UniGene. COGs riporta una compilazione di geni ortologhi codificanti proteine

relativi a organismi completamente sequenziati oppure clusters di geni paraloghi conservati in almeno 3 organismi differenti e significativamente

distanti fra loro; queste ultime condizioni assicurano l’appartenenza delle proteine paraloghe a un dominio comune ancestrale.

GENES annota le informazioni relative a tutti i geni identificati sui genomi completi sia di procarioti sia di eucarioti.

EuGENES è ancora una banca dati di geni e genomi relativi a 7 organismi eucariotici e descrive circa 150.000 geni noti, predetti o non

classificati.

Banche dati di patterns nucleotidici

Insieme alle banche dati dei geni abbiamo le banche dati di patterns nucleotidici o di regioni funzionali del gene associati a specifiche funzioni regolatorie e di controllo: EPD, TRANSFAC, UTRdb, TRANSTERM,

TRANSCOMPEL

EPD è una delle prime banche dati specializzate progettata, annota le

info bibliografiche e sperimentali sui promotori eucariotici

25

TRANSFAC è la banca dati dei fattori di trascrizione che annota dati sui

fattori proteici e sui corrispondenti siti di legame sul DNA coinvolto nell’attivazione e la regolazione della Trascrizione. Dal suo sito è possibile

ottenere una scheda in formato flat-file con le caratteristiche

dell'elemento.

UTRdb svolge un ruolo importante poiché annota tutte le sequenze non tradotte dei messaggeri eucariotici derivate dalla banca dati primaria

EMBL.

TRASTERM è la banca dati degli elementi che regolano la traduzione e le

modificazioni post-traduzionali. Gli elementi sono classificati dal punto di vista funzionale e strutturale, raggruppando gli elementi in categorie

TRANScompel è la banca dati degli elementi compositi coinvoli nella regolazione della trascrizione. Elementi regolatori compositi (CE)

annotano due siti di legame situati in posizioni vicine nella unità trascrizionale e che legano due distinti fattori di trascrizione ma

controllano in modo combinato la regolazione della trascrizione.

Banche Dati del trascrittoma

In questi ultimi anni si stanno realizzando le banche dati del trascrittoma,

ovvero dell’insieme di tutti i trascritti di un dato organismo ottenuti attraverso il sequenziamento delle EST (Expressed Sequenze Tags) o dei cDNA completi.

Alcune tra le più importanti sono dbEST e UniGENE.

dbEST raccoglie tutta la mole di dati relativi alle EST, ottenute tramite il sequenziamento parziale di cloni di cDNA

UniGENE raggruppa sequenze geniche trascritte dedotte da sequenziamento di cDNA o di EST di uomo, topo, ratto, Drosophila,

Anopheles, danio renio, Arabidopsis e altri organismi modello, in clusters teoricamente corrispondenti a un singoolo gene, attraverso criteri di

similarità o provenienza da uno stesso clone

26

Banche Dati di profili di espressione

La tecnologia dei microarrays permette in un solo esperimento di quantificare i trascritti di un intero genoma (il trascrittoma) e quindi di confrontare la

variabilità di espressione di ciascun gene in tessuti diversi, in individui diversi, in stati patologici diversi. In pratica consente di associare il livello di

espressione di un gene al corrispondente fenotipo. Molte delle altre risorse dei profili di espressione sono invece prodotte in modo non coordinato.

Si è dato quindi avvio a progetti coordinati per la raccolta di questi dati, progetti che si stanno concretizzando nella realizzazione di tre banche

dati:GEO, ArrayExpress e KEGG/Expression

GEO (Gene Expression Omnibus) è sviluppato all’NCBI come risorsa eterogenea per la sottomissione e il retrieval di dati correlati a

esperimenti basati sulla tecnologia dei microarrays e preposti allo studio di espressione di geni e di ibridizzazione fra genomi. I dati sono

classificati in 3 categorie: platform (dati su tutte le sonde molecolari identificative di ciascuno spot per l’allestimento di un microarray),

samples (dati sulle molecole che devono essere analizzate) e series (tutti

i dati relativi a un esperimento).

ArrayExpress è l’equivalente europeo di GEO e raccoglie dati eterogenei su profili di espressione. E’ strutturato utilizzando il DMBS Oracle

secondo una definizione a oggetti. Riporta tutti i dati su interi

esperimenti e anche le immagini grezze del profilo come viene prodotto dall’esperimento. Il database può essere interrogato attraverso un

sistema semplice di ricerca testuale ed è interfacciato al sistema Expression Profiler che consente di analizzare i profili di espressione e di

effettuare confronti tra differenti esperimenti. Le informazioni annotate in ArrayExpress sono raggruppabili in tre grandi categorie: Experiment,

Array e Protocol.

KEGG/Expression è un database che raccoglie dati sui profili di

espressione ottenuti con la tecnica dei microarrays in vari laboratori giapponesi.

Banche Dati di polimorfismi e mutazioni

L’annotazione nelle banche dati di eventi generativi di mutazioni e polimorfismo è di rilevante importanza sia per studi di genetica di popolazione

sia per studi di associazione fra mutazione e fenotipi con diversificate

27

manifestazioni cliniche.

Il termine mutazione indica la differenza puntuale riscontrata in un campione

rispetto al genoma di riferimento a causa di disfunzioni di un gene e quindi di

manifestazioni di fenotipi patologici. Il terminepolimorfismo invece indica l’evento che lascia inalterata la funzionalità del gene. Una variazione che in una

popolazione si riscontra con una frequenza superiore all’ 1% è considerata polimorfismo. Recentemente è stato introdotto un nuovo termine o meglio

acronimo: SNP (Single Nucleotdice Polymorphism) e che dovrebbe indicare tutti i polimorfismi associati al cambiamento di un solo nucleotide.

Per studiare la variabilità popolazionale in modo coordinato è stato creato il

database HGVbase, che annota tutti i dati derivati da studi di variabilità popolazionale. Parallelamente è nato il database dbSNPs che annota dati di

SNPs, ma anche polimorfismi di regioni e mutazioni associate all’insorgenza di una specifica patologia.

Altre banche dati disponibili nell’ambito della variabilità sono HGDM, OMIM, Pharmacogenetics e Genes and Diseases

HGMD ( Human Gene Mutation Database) raccoglie dati sulle mutazioni riportate come causa di alterazioni e disfuzioni di geni nucleari in malattie ereditarie. Non vengono annotate mutazioni somatiche o del

DNA mitocondriale, inoltre sono annotate solo mutazioni sperimentalmente determinate sul DNA e non sulla proteina. Ogni

mutazione è annotata una sola volta nella banca dati per evitare

confusioni tra mutazioni frequenti e ereditarie. Questo impedisce però di effettuare valutazioni statistiche di variabilità in base ai dati annotati in

HGMD.

OMIM (Online Mendeliam Inheritance in Man) raccoglie informazioni

correlate alle malattie genetiche di origine Mendeliana. Sono raccolti dati non solo sulle malattie genetiche di origine autosomica ma anche sulle

malattie associate ad alterazioni dei cromosomi X e Y del mitocondrio. Sono curate le annotazioni dei dati attraverso l’uso di un vocabolario

controllato relativo ai nomi dei geni. Genes and Disease è una risorsa di dati sviluppata in base alla

patologia, da cui si arriva al gene e a informazioni correlate annotate in altre banche dati fra cui OMIM.

Pharmacogenetics è una risorsa creata da una rete di laboratori di ricerca per la raccolta integrata di dati genomici, clinici e descrittivi del

fenotipo derivati da studi di farmacogenomica.

28

Banche Dati di pathways metabolici

Questi tipi di banche dati studiano i processi metabolici. L’idea è quella di realizzare network di dati biologici nei quali siano annotati i processi di

interazione fra le molecole, per favorire la comprensione dei processi di regolazione dell’espressione genica e i processi post-traduzione relativi al

trasporto e al metabolismo delle proteine. Esempi ne sono le banche datiKEGG, EcoCyc, ENZYME e Ligand.

ENZYME riporta in una struttura gerarchica la classificazione internazionale degli enzimi. Ogni entry rporta un id corrispondente all’EC

number, il nome dell’enzima e i suoi sinonimi, l’attività catalitica, gli eventuali cofattori, il cross-referencing alla banca dati delle proteine e

alla banca dati OMIM.

Ligand è la banca dati dei composti chimici e delle reazioni coinvolte nei

processi metabolici.

EcoCyc è un database di un organismo modello, l’Escherichia coli, che

annota dati non solo genomici e proteomici, ma anche quelli relativi ai processi metabolici, al trasporto e alla regolazione dell’espressione dei

geni di Escherichia coli. Vengono annotati una grande quantità di geni la cui funzione è stata determinata sperimentalmente, quindi è un’ottima

risorsa per predire nuovi geni in genomi di altri organismi microbici. Questa banca dati è un valido modello utilizzabile come strumento

didattico per lo studio e l’approfondimento delle scienze Biochimiche.

KEGG è l’enciclopedia di Kyoto di geni e genomi ed è una risorsa

integrata di banche dati correlate ai genomi completamente sequenziati o in fase di completamento. Lo scopo di tale banca dati è creare una rete

tra le varie classi di dati per la comprensione dei meccanismi preposti alla funzionalità delle cellule e degli organismi a partire dai dati genomici.

I database integrati in KEGG sono SSDB, Genes, Pathways, Kegg/Expression e Ligand.

Banche Dati mitocondriali

Gli organismi eucariotici contengono nel citoplasma delle loro cellule organuli di vario tipo fra cui i mitocondri, il cui ruolo è di assoluta importanza in moltissimi

processi metabolici e di funzionalità della cellula. Le numerose e interessanti proprietà del mitocondrio fra cui le piccole dimensioni del suo genoma hanno

29

favorito numerosi studi e anche grandi e coordinati progetti di sequenziamento

dei genomi mitocondriali di vari organismi. Numerose informazioni sono disponibili tramite le banche dati specializzate come le seguenti:

GOBASE (Organelle Genome Database) è una risorsa genomica che raccoglie dati sui genomi di cloroplasti e mitocondri. I nomi dei geni sono

annotati secondo un vocabolario controllato definito da esperti.

MITOMAP (Human Mitochondrial Genome Database) è un report

aggiornato ai dati pubblicati di tutte le variazioni riscontrate sul DNA mitocondriale di soggetti affetti da patologie e su soggetti i cui campioni

sono stati prelevati per studi di genetica di popolazione. I dati sono annotati in forma tabellare e possono essere estratti attraverso l’utilizzo

di un sistema di interrogazione semplice. Non è presenta alcuna relazione tra i dati per cui non è possibile effettuare statistiche sulla

frequenza di variabilità di ciascun sito del genoma in cui siano state riscontrate e annotate mutazioni.

Human MitBASE è una banca dati nata per raccogliere in un'unica risorsa integrata i dati sul mitocondrio di tutti gli organismi eucariotici. I

dati sono organizzati in base a ogni individuo, alla sua origine geografica e alla sua descrizione dei dati clinici associati. Ogni entry raccoglie

moltissime informazioni associate all’individuo e ciò implica un notevole dispendio di risorse umane e una difficoltà di mantenimento della banca

dati stessa, che risulta meno aggiornata rispetto a MITOMAP.

HrvBase è una banca dati che raccoglie i multi-allineamenti delle sequenze relative alle regioni di controllo del genoma mitocondriale dei primati.

MITOP raccoglie informazioni su geni correlati alla funzionalità del mitocondrio di uomo, topo, lievito, Caenorhabditis elegans e Neurospora

crassa. Ogni entry è associata a una proteina della quale sono annotate la classe funzionale, il codice dell’enzima, il complesso proteico di

appartenenza della proteina, il peso molecolare, il punto isolettrico, etc.

MitoNuc una banca dati di geni nucleari di metazoi per il mitocondrio. I dati sono estratti da SWISSPROT come sequenze mitocondriali di

30

metazoi e vengono quindi accuratamente controllati e annotati con

informazioni specifiche. Per quanto riguarda le proteine umane è riportata la localizzazione del gene sul genoma umano ottenuta

attraverso analisi effettuate su Ensembl.

AMmtDB è la banca dati dei multi-allineamenti di geni codificati da genomi mitocondriali di Metazoi. Ogni entry è gene e classe-tassonomica specifica.

MITOCHONDRIOME è un sito web che raccoglie banche dati mitocondriali e informazioni correlate. Attraverso tale sito si accede alle

banche dati Human_MitBase, MITONUC e AMmtDB oltre a dati ottenuti dall’analisi di variabilità e complessità di geni e egenomi mitocondriali di

metazoi.

PLMitRNA è una banca dati di molecole e geni di tRNA identificati nei mitocondri di tutte le piante verdi. Informazioni caratterizzanti il gene o

la molecola sono annotate e possono esssere utilizzate per la ricerca dei dati. I tRNA possono essere selezionati per nome della specie o per

raggruppamento tassonomico. Il multiallineamento di ciascun cluster di tRNA omologhi è anche disponibile.

Link utili EBI (European Bioinformatics Institute):

http://www.ebi.ac.uk/

NCBI (National Center for Biotechnology Information): http://www.ncbi.nlm.nih.gov/

SRS (Sequence Retrieval System):

http://srs.ebi.ac.uk/

MitBASE (banca dati integrata di sequenze di DNA mitocondriale):

http://www3.ebi.ac.uk/Research/Mitbase/mitbase.pl

Human MitBASE (banca dati di varianti di DNA mitocondriale Umane associate a studi di genetica di popolazione e a studi sulle patologie mitocondriali):

http://srs.ebi.ac.uk/srs6bin/cgi-bin/wgetz?-page+LibInfo+-

lib+HUMAN_MITBASE

MITONUC (banca dati di geni nucleari coinvolti nella Biogenesi del

Mitocondrio):

31

http://bio-www.ba.cnr.it:8000/BioWWW/#MitoNuc

Wikipedia, l'enciclopedia libera:

http://it.wikipedia.org

BANCHE DATI BIBLIOGRAFICHE

MEDLINE (Medical Literature, Analysis, and Retrieval System Online)

MeSH (Medical Subject Headings )

Differenza tra PubMed e Medline

database di NLM delle citazioni su riviste e abstract che coprono 4500 riviste

pubblicate negli USA e in altri 70 paesi a partire dal 1966. Per poter accedere a Medline tramite web si utilizza PubMed.

Oltre a fornire accesso a Medline, Pubmed fornisce accesso ad altre info (citazioni fuori argomento)

Ricerche bibliografiche

PubMed (NCBI)

NLM GAteway Journals Databases (NCBI)

BOOKSHELF: collezione di testi biomedici; possibilità di ricerca online.

Gene Ontology

vocabolario descrittivo controllato delle funzioni molecolari, dei processi metabolici e delle localizzazioni cellulari di ciascun gene e del suo prodotto

indirizzo. http://www.geneontology.org/

BANCHE DATI ACIDI NUCLEICI

Banche dati primarie

EMBL:

http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/

GenBank:

http://www.ncbi.nlm.nih.gov/Genbank/index.html

DDBJ:

32

http://www.ddbj.nig.ac.jp/

BANCHE DATI GENOMICHE

GDB http://www.gdb.org/

MGI http://www.informatics.jax.org/

SGD http://www.yeastgenome.org//

Banche dati derivate: malattie genetiche

OMIM Online Mendelian Inheritance in Man

indirizzo: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM

FAQ: http://www.ncbi.nlm.nih.gov/Omim/omimfaq.html

esempio: http://www.ncbi.nlm.nih.gov/Omim/omimhelp.html#QuickstartTutorial

BANCHE DATI DI GENI E TRASCRITTI

UniGene database di sequenze geniche trascritte dedotte da cDNA ed EST (ricavate dai databases primari) raggruppate in cluster che teoricamente

corrispondono ad un singolo gene.

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene

LocusLink: database degli elementi funzionale del genoma (loci genetici).

RIMOSSO NEL 2005

http://www.ncbi.nlm.nih.gov/LocusLink/

RefSeq: Dati di sequenze nucleotidiche associati a: genoma, cromosoma,

regione genomica, mRNA, proteina Ad ogni entry è associata la sequenza più completa fra le ridondanti

http://www.ncbi.nlm.nih.gov/RefSeq/

dbEST: http://www.ncbi.nlm.nih.gov/dbEST/

BANCHE DATI DI MUTAZIONI E POLIMORFISMI

HGVbase: Annota i dati derivati da studi di variabilità della popolazione

ricavate dalla sottomissione degli autori o attraverso la consultazione della

33

letteratura

indirizzo: http://hgvbase.cgb.ki.se/

dbSNPs : annotazione di Single Nucleotide Polymorphisms; riporta anche

polimorfismi di regioni e mutazioni associate all'insorgenza di una specifica patologia, basandosi sul principio che la variazione della sequenza sia associata

a fenotipi ereditabili. Si vuole accelerare la scoperta di geni-malattia.

DIFFERENZA DA OMIM: non si basa sull'analisi di pedigree, ma sulla tipizzazione di DNA ottenuti da un campione casuale di individui (più facile).

http://www.ncbi.nlm.nih.gov/SNP/

HGMD (Human gene Mutation Databases)

indirizzo: http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html

BANCHE DATI DI REGIONI FUNZIONALI

UTRdb: database delle regioni non tradotte dei trascritti (regolazione dei processi post-trascrizionali, compartimentazione dei trascritti, stabilità)

Promemoria: diversi link utili in

http://www.ba.itb.cnr.it/BIGHome/ita/Sezione.htm

indirizzo: http://bighost.area.ba.cnr.it/BIG/UTRHome/

EPD (Eukaryotic Promotor Database) : collezione di promotori eucariotici per la

POL II annotati e non ridondanti, il cui codone d'inizio trascrizione è stato determinato sperimentalmente.

indirizzo: http://www.epd.isb-sib.ch/

TRANSFAC : Banca dati dei fattori di trascrizione. Annota i dati sui fattori proteici e i corrispondenti siti di legame sul DNA coinvolti nell'attivazione o

regolazione della trascrizione

indirizzo: http://www.gene-regulation.com/

TRANSTERM : Banca dati degli elementi che regolano la traduzione e le

modificazioni pos-trascrizionali. Ricavato dalla banca primaria GenBank

indirizzo: http://cbcb.umd.edu/software/transterm/

BANCHE DATI DI SEQUENZE PROTEICHE

SWISS-PROT: http://us.expasy.org/sprot/

34

banca dati di riferimento per analisi in silico. Le annotazioni sono: AC; nome;

dati generali (features: aminoacidi modificati, regioni peptidiche di isoforme, domini strutturali, siti di splicing proteici, polimorfismi ecc.; informazioni su

malattie ereditarie (OMIM). Cross-link con altre banche dati (Pfam ,PRINTS,

ProDom, SMART, PROSITE, ecc)

The UniProt Knowledgebase consists of:

UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a

protein, its domains structure, post-translational modifications, variants, etc.),

a minimal level of redundancy and high level of integration with other databases

UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that

contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot.

TrEMBL contains the translations of all coding sequences (CDS) present in the EMBL Nucleotide Sequence Database, which are not yet integrated into

SwissProt.

PIR Protein Infromation Resource : http://pir.georgetown.edu/pirwww/

PIR offers a wide variety of resources mainly oriented to assist the propagation

and standarization of protein annotation. Among these are: PIRSF, which provides curated protein families with rules for functional site and protein

name; iProLink, that supports text mining in the area of literature-based database curation, named entity recognition, and protein ontology

development; and iProClass, which contains value-added annotation reports for UniProt proteins.

UNIPROT: http://www.pir.uniprot.org/

UniProt (Universal Protein Resource) is the world's most comprehensive catalog of information on proteins. It is a central repository of protein

sequence and function created by joining the information contained in Swiss-Prot, TrEMBL, and PIR.

INTERPRO

consorzio di database; integra numerose banche dati proteiche (PROSITE, Pfam,PRINTS,ProDom,SMART,TIGRFAMs).

Consente di ricercare contemporaneamente informazioni funzionali e strutture relative ad una proteina o a una famiglia di proteine su più banche dati

distribuite anche su calcolatori differenti e strutturate in modo differente. La ricerca dei dati può essere fatta attraverso il sito SRS dell'EBI.

Attraverso il software InterPROScan è possibile ricercare motivi strutturali e

35

funzionali annotati nelle banche dati integrate in InterPRO al fine di

caratterizzare dal punto di vista funzionale nuove proteine derivate a progetti di sequenziamento genomico

indirizzo: http://www.ebi.ac.uk/interpro/

BANCHE DATI DI DOMINI PROTEICI

PROSITE Patterns amminoacidici. L'entry è divisa in due parti:

1) PDOCxx: documentazione: funzionalità del pattern ; bibliografia NiceSite View (PSxx): annotazione del pattern (secondo regole della sequenza

consenso); tutte le entry in SWISSPROT dove il pattern è localizzato (per ogni entry SWISSPROT riportato la funzionalità riscontrata in letteratura (T)=True

(F)=false (P)=potential ; cross-reference in SWISSPROT e PDB

indirizzo: http://us.expasy.org/prosite/

Pfam banca dati di famiglie di proteine accomunate da elementi strutturali e

funzionali . Si divide in due parti:

PfamA: Ogni entry è caratterizzata da:

- famiglia: sequenze proteiche accomunate dagli stessi domini

- dominio: unità strutturale che può essere presente in famiglie differenti - repeats raggruppa elementi funzionali attivi e presenti in multi copia in

proteine globulari - motivi pattern componenti blocchi strutturali non associati a proteine

globulari PfamB:

famigli proteiche ottenute automaticamente (PSI-BLAST e annotate in ProDOM)

Questa parte del database è memo accurata della PfamA

indirizzo: http://www.sanger.ac.uk/Software/Pfam/

ProDOM famiglie proteiche generate automaticamente da PSI_BLAST; il

database è generato a partire da multiallineamento di famiglie di proteine annotate in PfamA

indirizzo: http://prodes.toulouse.inra.fr/prodom/current/html/home.php

SMART Raccoglie dati relativi a domini proteici e consente la ricerca di domini in nuove sequenze proteiche

Sono annotate per ogni famiglia di proteine associate ad un dominio informazioni quali:

- funzione - localizzazione cellulare

36

- struttura terziaria (del dominio)

- relazioni filogenetiche tra le specie da cui sono derivate le proteine

indirizzo: http://smart.embl-heidelberg.de/

PRINTS Raccoglie sequenze proteiche in cluster definiti da un comune

Fingerprint (fingerprint è l'insieme di più motivi conservati e dedotti dal multiallineamento utilizzando similarità locale)

I cluster ottenuti definiscono: - superfamiglie

- famiglie

- sottofamiglie associa a queste famiglie la loro funzionalità.

E' un database ridotto rispetto a Pfam e proDOM, ma i dati sono vagliati in manuale e annotati con dati biologici derivati dalla letteratura e da ulteriore

analisi

indirizzo: http://bioinf.man.ac.uk/dbbrowser/PRINTS/

BANCHE DATI DI STRUTTURE PROTEICHE

PDB

È la principale banca dati delle strutture proteiche.

Struttura di una proteina: distribuzione spaziale degli atomi che compongono la proteina (coordinate atomiche determinate con analisi cristallografiche con

raggi X o NMR indirizzo: http://www.rcsb.org/pdb/

Altre banche dati di struttura ricavate da PDB: MMDB (Molecular Modeling DataBase) (NCBI)

Strutture ricavate da PDB escludendo i modelli teorici e validate da diverse procedure.

Contiene inoltre una definizione uniforme di strutture secondarie ecc.

indirizzo: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure

DSSP (Dictionary of Protein Secondary structure)

Ad ogni entry di PDB sono associate le informazioni sulle relative strutture secondarie

indirizzo: http://www.cmbi.kun.nl/gv/dssp/

HSSP (Homology derived Secondary Structure of Proteins) Contiene informazioni per costruire modelli di proteina a struttura non nota ma

che abbiano una buona identità di sequenza.

indirizzo: http://www.sander.ebi.ac.uk/hssp/

37

FSSP (Fold classification based on Structure Structure alignment of Protein):

classificazione della struttura sulla base della loro similarità (ricavato in modo automatico dal programma DALI)

indirizzo: http://www.embl-ebi.ac.uk/dali/

SCOP (Structural Classification Of Protein): Organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di

similarità strutturale. Si base sui singoli domini raggruppandoli in famigli di domini simili. Queste

famiglie sono organizzate in superfamiglie che sono raggruppate a loro volta in

fold. I fold simili sono organizzati in classi: Classi: alpha, beta, alpha/beta, alpha + beta (in base alla struttura secondaria

della proteina) Fold

Superfamiglie Famiglie

Domini

indirizzo: http://scop.mrc-lmb.cam.ac.uk/scop/

CATH (Class Architecture,Topology, Homologus superfamilies)

Simile a SCOP ma le strutture sono ricavate con il programma SSAP.

indirizzo: http://www.biochem.ucl.ac.uk/bsm/cath/

BANCHE DATI MITOCONDRIALI

MITOMAP

http://www.mitomap.org/

GOBASE

http://megasun.bch.umontreal.ca/gobase/

HUMAN MITOCHONDRIAL PROTEIN DATABASE

http://bioinfo.nist.gov:8080/examples/servlets/index.html

SISTEMI DI INTERROGAZIONE DELLE BANCHE DATI BIOLOGICHE

SRS (Sequence Retrievel System): ( http://srs.ebi.ac.uk o http://bighost.area.ba.cnr.it/srs6/)

Consente di interrogare contemporaneamente più banche biologiche Sfruttando i meccanismi di cross-referencing consente la navigazione tra

38

banche di dati differenti

Può essere installato su qualsiasi server e può essere integrato con altre banche dati

Una volta scelte la/le banche dati si può fare l'interrogazione con le

- Standard Query Form: la relativa Query Page consente di selezionare i dati impostando 4 differenti criteri usando AND, OR, BUT NOT. All'interno di ciascun

criterio è possibile selezionare più valori combinandoli con '&' (AND), '|' (OR), '!' (BUT NOT)

- Extended Query Form: si adatta agli attributi delle banche prescelte. Consente di utilizzare tutti i criteri possibili di selezione che accumunano tali

banche utilizzando gli stessi operatori della Standard Query Form. Dal menù View è possibile selezionare le banche e i campi desiderati da

visualizzare Si possono salvare i dati sul proprio PC con lo stesso criterio adottato per la

visualizzazione. Altre funzioni di SRS:

Result: si visualizzano i risultati delle varie selezioni fatte in una sezione. Link: si ottengono dati presenti in altre banche correlati ai dati alla query

prescelta

Launch: (non sempre presente) consente di applicare programmi di analisi ai dati di sequenza associati alla query (Blast, Fasta, Clustaw, ecc)

Projects: consente di salvare in un file tutte le fasi delle sessioni SRS per poi riutilizzarlo in sessioni successive consentendo di aggioranre i dati associati al

progetto previa selezione dalla top page delle banche dati coinvolte.

Entrez Ricerca ed estrazione dei dati da bache dati di sequenze nucleotidiche o

proteiche, dalla banca dati bibliografica Medline, dalla banca dati delle malattie mendeliane OMIM o da risorse genomiche. Possibilità di esplorare ogni altra

banca sviluppata all'NCBI (es. la classificazione degli organismi riportata in

Taxonomy ) A differenza di SRS, Entrez è una shell chiusa, non è possibile scaricare il

software che gestisce il sistema, quindi non è possibile duplicare Entrez in altri computer e non è possibile integrarlo con dati personali.

Ricerca dati previa scelta della categoria: nucleotide, protein, PubMed, genomes ecc.) usando gli operatori booleani.

La ricera può essere ottimizzata mediante la funzione Limits che consente di limitare la ricerca a solo alcuni criteri o a sottoinsiemi selezionati di dati.

Consente di effettuare una navigazione fra le diverse banche disponibili. Con il comando History si visualizzano tutte le query selezionate nell'ambito di

una categoria di dati (nucleotide, protein, ecc) I dati ottentuti e associati a ciascuna query possono essere visualizzati e

salvati sul proprio PC.

RISORSE GENOMICHE INTEGRATE

ENSEMBL

39

http://www.ensembl.org

Raccolta e annotazioni di dati genomici: - umano

- topo - pesce zebra (Danio retrio)

- Anopheles gambiae Riporta dati sul mappaggio dei geni e polimorfismi

È possibile visualizzare ed estrarre dati relativi ai geni come i suoi trascritti, le sue proteine, domini funzionali delle proteine, mutazioni o SNPs e correlazione

con le malattie genetiche. E' possibile effettuare una ricerca di similarità con una sequenza mediante

BLAST i cui risultati sono visualizzati sui cromosomi con differenti colori. I dati presenti in Ensembl possono essere completamente scaricati in locale

GENOME BROWSER

http://genome.ucsc.edu/

MIRROR ITALIANO: http://genome.cribi.unipd.it/

Link utili

SRS italiano: http://bighost.area.ba.cnr.it/srs6/

Come usare le banche dati

I seguenti files formato "pdf " sono tratti dal sito http://www.ceebt.embo.org"Continuing Education for European Biology Teachers" e mostrano come utilizzare le banche dati SwissProt, OMIM e PubMed nel dettaglio.

(vedere file Pdf a parte)

1. Swiss Prot

2. OMIM 3. PubMed

GLOSSARIO (voci tratte da Wikipedia)

Genoma: è l'insieme dei geni di un organismo vivente.

L'informazione genetica è portata dalla molecola di Acido desossiribonucleico (DNA) che,

associato aproteine, è il principale costituente dei cromosomi degli Eucarioti. L'insieme dei

cromosomi, o comunque delle molecole di DNA, determina il patrimonio genetico. Il DNA è

latore dell'informazione ereditaria il cui meccanismo d'azione è stato ampiamente decifrato

grazie allo studio degli Acidi nucleici.

40

Il patrimonio genetico strutturale è scritto nella catena del DNA con un codice detto Codice

genetico che mette in corrispondenza le quattro basi azotate che entrano nella composizione

del DNA stesso con gli amminoacidi. Ciascuna parola del codice è costituita da una serie di tre

basi detta tripletta. Ognuna di esse indica agli organi effettori (RNA e ribosomi) che deve

essere preso un determinato amminoacido e legato alla catena polipeptidica che si sta

costruendo. Da ciò si coglie che il fenomeno genetico fondamentale, a livello cellulare, è la sintesi delle proteine.

Proteoma: Il termine proteoma, coniato da Mark Wilkins nel 1995 (1), è usato per descrivere

l'insieme delle proteine di un organismo o di un sistema biologico, ovvero le proteine prodotte

dalgenoma. Il termine è stato applicato a diversi tipi di sistemi biologici. Esiste un proteoma

cellulare, che è un insieme di proteine trovate in un particolare tipo di cellule in particolari

condizioni ambientali, come ad esempio sotto esposizione ad una stimolazione ormonale. Può

anche essere utile considerare il proteoma completo di un organismo, che può essere

immaginato come l'insieme globale delle proteine di tutti i proteomi cellulari. Questo è, grosso

modo, l'equivalente proteico del genoma. Il termine "proteoma" è stato usato anche per

riferirsi all'insieme delle proteine di un sistema biologico sub-cellulare: ad esempio l'insieme

delle proteine di un virus può essere detto proteoma virale.

Il proteoma è più grande del genoma, specialmente negli eucarioti, perché ci sono

più proteine chegeni. Ciò è dovuto all'accoppiamento dei geni ed alle modificazioni post-traslazionali come laglicosilazione o la fosforilazione.

Il proteoma mostra almeno due livelli di complessità che mancano al genoma. Mentre il

genoma è definito da una sequenza di nucleotidi, il proteoma non si limita alla somma delle

sequenze di proteine presenti. La conoscenza del proteoma richiede di conoscere, oltre alle strutture delle proteine del proteoma, anche le interazioni funzionali tra le proteine stesse.

Lo studio del proteoma è detto Proteomica. Esso è stato a lungo praticato con la separazione

delleproteine per mezzo della elettroforesi bidimensionale su gel. Nella prima dimensione,

le proteine sono separate per punto isoelettrico, che distingue le proteine sulla base del loro

pH. Nella seconda dimensione le proteine sono separate per massa molecolare usando l'SDS-

PAGE. Il gel è colorato conCoomassie Blue o argento per visualizzare le proteine. Le macchie sul gel sono proteine che sono migrate in posizioni specifiche.

Lo spettrometro di massa ha migliorato la proteomica. La tecnica nota come Peptide mass

fingerprinting identifica una proteina scindendola in brevi segmenti peptidici e successivamente

deducendo l'identità della proteina confrontando le masse dei peptidi con quelle di un database

di riferimento. La spettrometria di massa, d'altra parte, può fornire informazioni sulle sequenze

dapeptidi singoli isolandoli, trattandoli con un gas inerte e quindi catalogando i frammenti ioniciprodotti.

In Silico: La locuzione latina in silico, tradotta letteralmente, significa nel silicio.

La locuzione, comparsa di recente in letteratura scientifica, è usata per indicare fenomeni

biologici riprodotti in una simulazione matematica al computer, invece che in provetta o in un

essere vivente. Infatti il silicio, è la sostanza di cui sono fatti i componenti elettronici all'interno

della quasi totalità dei computer, anche se il concetto di simulazione matematica non ha niente

a che fare con il silicio. Al contrario, se il fenomeno biologico si riproduce in provetta, si dice "in

vitro", mentre se si riproduce in un essere vivente si dice "In vivo".

La ricerca scientifica in silico è ovviamente il frutto della recente informatizzatione della ricerca.

Inbiologia hanno assunto un importanza fondamentale le basi di dati che contengono i dati

disequenziamento del DNA e i livelli di espressione genica di un gene. Inoltre sono stati creati

numerosiprogrammi informatici per l'analisi e l'interpretazione di dati sperimentali. La

ricerca in silico consiste dunque nell'uso di tali programmi e raccolte di dati allo scopo di

41

ricavare nuove informazioni dalla comparazione, interpretazione, analisi ed interconnessione

dei dati.

Nucleotidi: I nucleotidi sono i monomeri che formano i polimeri DNA e RNA a seconda che lo

zucchero sia desossiribosio o ribosio. Sono costituiti da un gruppo fosfato, da uno zucchero

pentosio (desossiribosio o ribosio appunto) e da una base azotata. I nucleotidi sono

degli esteri fosforici deinucleosidi, costituiti da tre subunità: una base azotata (purina o

pirimidina), uno zucchero a cinque atomi di carbonio (pentosio) e un gruppo fosfato. Il

pentosio può essere ribosio o desossiribosio. Il nucleotide è inoltre il monomero costitutivo degli acidi nucleici (DNA e RNA).

La presenza del residuo fosforico conferisce carattere fortemente acido ai nucleotidi (per

questo noti anche come acido adenilico o acido guanilico). L'aggiunta di uno o di due altri

residui fosforici nella catena (fosforilazione ossidativa) produce i nucleoside-di- e trifosfati (NDP e NTP), i quali svolgono un ruolo fondamentale nel metabolismo energetico della cellula.

Mirror: In Informatica il termine mirror viene utilizzato per indicare una copia esatta di un insieme di dati.

L'utilizzo più conosciuto di questo termine lo si trova nei mirror dei server internet: un intero

sito (pagine HTML ma anche semplici file binari) viene copiato su di un altro computer per

essere reso accessibile anche da altre fonti. Il motivo principale dell'utilizzo dei mirror sta nel

sovraccarico del sito originale che spesso non possiede una banda sufficiente per l'utenza a cui

è destinato. Attraverso questo meccanismo (il cui aggiornamento viene svolto

automaticamente a intervalli regolari) una stessa risorsa può essere disponibile a un maggior numero di utenti.

Amminoacidi: in chimica gli amminoacidi (o aminoacidi) sono molecole che nella loro

struttura recano sia il gruppo funzionale dell'ammina (-NH2) che quello dell'acido carbossilico (-COOH).

In biochimica il termine amminoacidi si riferisce più spesso agli L-α-amminoacidi, cioè quelli il

cui gruppo amminico ed il cui gruppo carbossilico sono legati allo stesso atomo di carbonio (chiamato appunto carbonio α) in configurazione L

Peptidi: sono molecole di peso ≤5000 dalton, costituiti da una catena di

pochi amminoacidi (fino a 100 circa), che si uniscono tra di loro attraverso un legame

peptidico. A loro volta queste catene peptidiche si uniscono formando le proteine.

Tra i peptidi troviamo l'ossitocina (ormone neuroipofisario), le bradichinine (antinfiammatorio

tissutale), gli ormoni (o fattori) ipotalmici (che favoriscono/inibiscono la sintesi di ormoni ipofisiari),ilglutatione, le encefaline (analgesici naturali prodotti nel Sistema nervoso centrale).

Splicing: Il termine splicing (saldatura) indica, nella lingua inglese, la maturazione del trascritto primario dei geni discontinui.

La maggior parte dei geni eucariotici conta regioni presenti nel mRNA maturo (esoni) e altre

non presenti (introni). Alcuni introni sono presenti anche nei geni degli archeobatteri, mentre

sono assenti in quelli degli eubatteri. Dopo la trascrizione da parte della RNA polimerasi il

trascritto primario va incontro a numerose modificazioni. Prima fra tutte l’eliminazione degli

introni, denominata splicing.

Fingerprint: La fingerprint (impronta digitale) in informatica è una

sequenza alfanumerica o stringadi bit di lunghezza prefissata che identifica in maniera univoca

un certo file. Viene utilizzata per garantire l'autenticità e la sicurezza dei file ma soprattutto per identificare rapidamente file distribuiti in rete tramite sistemi di file-sharing.

42

Eucariota: Il termine eukaryota (o eucariote, eucariota, o eukarya) deriva dalla fusione dei

due termini greci "Eu", bene e "Carion", nucleo.

Le cellule, in base alla loro organizzazione interna, possono essere distinte in due grandi

categorie: le cellule procariote, esclusive dei Procarioti (rappresentati dal regno Monera), e le

cellule eucariote, che sono invece caratteristiche di organismi viventi più evoluti, gli

Eucarioti.Tali organismi sono classificati nei rimanenti quattro regni dei viventi

(Protisti, Piante, Funghi e Animali).

Il dominio Eukaryota comprende organismi, mono- o pluricellulari, costituiti da cellule

eucariote che hanno come caratteristica principale la presenza di un nucleo, ben definito e

isolato dal resto della cellula tramite l'involucro nucleare, nel quale è racchiuso la maggior

parte del materiale genetico, ilDNA (una parte è contenuta nei mitocondri).

Queste cellule presentano una dimensione maggiore (solitamente il loro asse maggiore è

compreso fra i 10 e i 50 µm) e sono dotate di un citoplasma compartimentato da membrane

interne che delimitano degli organuli specializzati. Ognuno degli organuli immersi nel citoplasma è deputato a svolgere una particolare funzione.

Gli organuli presenti in tutte le cellule eucariote sono un nucleo, diversi mitocondri, le cisterne

delreticolo endoplasmatico e dell'apparato di Golgi, vacuoli (vescicole temporanee tra cui

i lisosomi). Sono presenti aggregati complessi come i ribosomi, e varie fibre proteiche che costituiscono il citoscheletro.

Gli Eucarioti si distinguono dai Procarioti anche per numerose caratteristiche a livello molecolare quali, ad esempio:

diverse proprietà delle sequenze genomiche regolatrici geni organizzati in "introni ed esoni" con conseguente processamento (splicing) del

trascritto primario trascrizione e traduzione di un trascritto sono eventi separati nello spazio e nel tempo i trascritti eucariotici non sono (quasi) mai policistronici, ossia portano una sola ORF percentuale di DNA non codificante molto più elevata DNA associato ad istoni diversa percentuale di G-C nel genoma presenza di colesterolo nella membrana cellulare.

Solo negli Eucarioti si ha riproduzione sessuale: le cellule eucariote presentano due modi di

divisione: la mitosi e la meiosi. Tutte le cellule possono dividersi attraverso il processo di mitosi, ma solo quelle diploidi possono subire la meiosi.

Cromosoma: in biologia, il cromosoma è un corpuscolo che appare nel nucleo di una cellula eucariota durante la mitosi o la meiosi.

In greco "chroma" significa "colore" e soma significa "corpo". Essi sono colorati da sostanze

apposite, perché siano visibili al microscopio. Sono costituiti da un filamento di DNA e da

proteine.

I cromosomi sono spesso presenti in coppie, 23 nella specie umana, di cui 22 coppie sono

cromosomi omologhi (cioè simili) detti autosomi ed una coppia di cromosomi diversi che sono i

cromosomi sessuali. Tutti i cromosomi sono portatori dei caratteri ereditari. Le cellule che

hanno coppie di cromosomi omologhi sono dette diploidi (2n), mentre sono definite aploidi (n)

quelle che possiedono solo un cromosoma per tipo.

I nuclei delle cellula eucariotica contengono un materiale che si colora intensamente con certi

coloranti istologici e viene quindi detto cromatina. Durante l'interfase la cromatina non rivela

43

alcuna struttura, se non la differenziazione tra una componente maggioritaria più lassa

(eucromatina) e una più condensata (eterocromatina).

Durante la divisione cellulare la cromatina si suddivide in un numero ben definito di corpiccioli

con la dimensione maggiore dell'ordine del micrometro: i cromosomi. Nella cellula appena

formata, i cromosomi hanno forma di bastoncelli: l'unica struttura evidente al microscopio è una strozzatura detta centromero.

Nella metafase i cromosomi hanno una forma a X, dovuta al fatto che si sono quasi

completamente duplicati e risultano formati da due cromatidi identici, uniti per il centromero che si divide per ultimo.

Al microscopio ottico, i cromosomi sono distinguibili tra loro per le dimensioni e per la "forma",

ossia per la posizione del centromero. Ulteriori distinzioni si possono effettuare con opportuni

trattamenti chimici, che evidenziano un bandeggio: l'alternanza di bande con diversa

pigmentazione.

Numero e struttura dei cromosomi costituiscono il cariotipo, ben evidenziabile (e fotografabile) durante la metafase, in cui i cromosomi si dispongono nella piastra metafasica.

La cromatina è costituita permanentemente da DNA e proteine. Il Dna è avvolto attorno a

cilindretti formati dai quattro tipi di istoni, proteine basiche: tale fibra fondamentale si chiama cromonema ed è ulteriormente avvolta in strutture di ordine superiore.