BASI DI DATI BIOLOGICHE - 3. Principali Basi di Dati Biologiche Alcune delle principali Basi di Dati Biologiche: Di sequenze: NCBI. Di proteine: Protein

BASI DI DATI BIOLOGICHE - 3

Principali Basi di Dati Biologiche

Alcune delle principali Basi di Dati Biologiche:Alcune delle principali Basi di Dati Biologiche:

Di sequenze:Di sequenze:NCBI.NCBI.

Di proteine:Di proteine:Protein Data Bank.Protein Data Bank.

Di annotazioni:Di annotazioni:Ensembl.Ensembl.

Di analisi:Di analisi:microarray.microarray.

Protein Data Bank (PDB)

Archivio globale di dati strutturali relativi a Archivio globale di dati strutturali relativi a macromolecole biologiche.macromolecole biologiche.

Istituita nel 1971.Istituita nel 1971.

Dal 1980 esplosione del numero di strutture grazie ai Dal 1980 esplosione del numero di strutture grazie ai progressi nell’ambito delle tecniche utilizzate progressi nell’ambito delle tecniche utilizzate (principalmente NMR).(principalmente NMR).

Dai primi anni 90 deposito ed accesso ai dati via www.Dai primi anni 90 deposito ed accesso ai dati via www.

PDB – Il deposito dei dati (1)

Il deposito dei dati avviene attraverso ADIT (AutoDep Il deposito dei dati avviene attraverso ADIT (AutoDep Input Tool); i dati devono rispettare un dizionario Input Tool); i dati devono rispettare un dizionario (mmCIF) di 1700 termini.(mmCIF) di 1700 termini.

Appena ricevuti, i dati entrano a far parte del “core Appena ricevuti, i dati entrano a far parte del “core database”.database”.

Successivamente, vengono controllati attraverso un Successivamente, vengono controllati attraverso un certo insieme di interazioni con i submitter.certo insieme di interazioni con i submitter.

PDB – Il deposito dei dati (2)

Vengono registrate:Vengono registrate:

le coordinate della struttura;le coordinate della struttura;

informazioni generali sulla struttura (pubblicazioni, informazioni generali sulla struttura (pubblicazioni, organismi, ...);organismi, ...);

informazioni specifiche (informazioni specifiche (dati della NMR, processo di dati della NMR, processo di acquisizione del dato, ...).acquisizione del dato, ...).

Interazione con PDB

PDB – La base di dati (1)

Le basi di ati che costituiscono PDB sono:Le basi di ati che costituiscono PDB sono:

Il “core relational database” (Sybase), che contiene i Il “core relational database” (Sybase), che contiene i dati sperimentali primari e i dati relativi alle coordinate.dati sperimentali primari e i dati relativi alle coordinate.

I dati finali (curati) presenti come file di testo (ASCII).I dati finali (curati) presenti come file di testo (ASCII).

La “base di dati” POM (Property Object Model), che La “base di dati” POM (Property Object Model), che comprende oggetti indicizzati che descrivono proprietà comprende oggetti indicizzati che descrivono proprietà native (coordinate atomiche) o derivate (strutture native (coordinate atomiche) o derivate (strutture secondarie calcolate).secondarie calcolate).


Il “Biological Macromolecule Crystallization Database” Il “Biological Macromolecule Crystallization Database” (Sybase), che contiene informazioni ricavate dalla (Sybase), che contiene informazioni ricavate dalla letteratura.letteratura.

La base di dati LDAP usata per indicizzare i campi La base di dati LDAP usata per indicizzare i campi testuali del PDB in formato strutturato.testuali del PDB in formato strutturato.


PDB - Un esempio

http://www.rcsb.org/pdb/http://www.rcsb.org/pdb/

Cercare cyclin.Cercare cyclin.

Scaricare il risultato.Scaricare il risultato.

Ensembl - Caratteristiche generali

Scopo del progetto Ensembl è mettere assieme il Scopo del progetto Ensembl è mettere assieme il mosaico dei segmenti di DNA creati dal mosaico dei segmenti di DNA creati dal sequenziamento del genoma umano.sequenziamento del genoma umano.

Utilizza sequenze ricavate dalle basi di dati pubbliche Utilizza sequenze ricavate dalle basi di dati pubbliche per alimentare una pipeline di analisi.per alimentare una pipeline di analisi.

Determina in maniera semi-automatica geni e Determina in maniera semi-automatica geni e caratteristiche rilevanti delle sequenzecaratteristiche rilevanti delle sequenze

Presenta i risultati attraverso il www.Presenta i risultati attraverso il www.

Ensembl - L’architettura

Ensembl - Contenuto

GeniGeniNoti da altri esperimenti;Noti da altri esperimenti;

Predetti da Ensembl.Predetti da Ensembl.

Altre caratteristiche:Altre caratteristiche:SNPs;SNPs;

Repeats;Repeats;

Homologies.Homologies.

Ensembl - Identificatori

In progetti di questo tipo è essenziale definire un In progetti di questo tipo è essenziale definire un vocabolario di nomi comuni affinché un dato elemento vocabolario di nomi comuni affinché un dato elemento possa essere identificato univocamente (i.e., nomi dei possa essere identificato univocamente (i.e., nomi dei geni).geni).

E’, inoltre, di fondamentale importanza disporre di E’, inoltre, di fondamentale importanza disporre di identificatori stabili per le sequenze (pur riconoscendo identificatori stabili per le sequenze (pur riconoscendo la necessità della gestione delle versioni).la necessità della gestione delle versioni).

Gli identificatori specifici di Ensembl sono del tipo: Gli identificatori specifici di Ensembl sono del tipo: ENSG0000XXXX , ENST00000XXXX, ...ENSG0000XXXX , ENST00000XXXX, ...

Ensembl – La base di dati (1)

Le singole basi di dati vengono costruite in più passiLe singole basi di dati vengono costruite in più passiCreazione dello schema;Creazione dello schema;

Caricamento dei dati di sequenza (DNA, clone, ...);Caricamento dei dati di sequenza (DNA, clone, ...);

Costruzione di geni;Costruzione di geni;

Analisi dei geni.Analisi dei geni.

Ensembl – La base di dati (2)

Viene utilizzato MySQL. Le basi di dati possono essere Viene utilizzato MySQL. Le basi di dati possono essere scaricate dal sito di Ensembl.scaricate dal sito di Ensembl.

Ogni organismo ha più basi di dati:Ogni organismo ha più basi di dati:Core;Core;

Desease;Desease;

......

Il Core mantiene le informazioni d'interesse.Il Core mantiene le informazioni d'interesse.

Ensembl -Le tabelle della base di dati

Dividiamo le tabelle in 3 gruppi:Dividiamo le tabelle in 3 gruppi:tabelle fondamentali;tabelle fondamentali;

caratteristiche ed analisi;caratteristiche ed analisi;

ID mapping.ID mapping.

Le tabelle fondamentali - 1

assembly: Descrive come i contig si uniscono per assembly: Descrive come i contig si uniscono per creare la sequenza del cromosoma. Mantiene un creare la sequenza del cromosoma. Mantiene un mapping tra le locazioni sul cromosoma e locazioni sui mapping tra le locazioni sul cromosoma e locazioni sui contig.contig.

assembly_exception: Fornisce informazioni aggiuntive assembly_exception: Fornisce informazioni aggiuntive su una data sezione della precedente tabella. su una data sezione della precedente tabella.

attrib_type: Mantiene gli attributi riconducibili ad una attrib_type: Mantiene gli attributi riconducibili ad una sequenza.sequenza.

Tabelle fondamentali - 2

dna: Contiene le sequenze di DNA; è in rapporto 1:1 dna: Contiene le sequenze di DNA; è in rapporto 1:1 con i Contig.con i Contig.

exon: Mantiene informazioni sugli esoni, è associato ai exon: Mantiene informazioni sugli esoni, è associato ai trascritti mediante una chiave esterna.trascritti mediante una chiave esterna.

exon_stable_id: Identificatori stabili.exon_stable_id: Identificatori stabili.

exon_transcript: Mantiene la relazione tra trascritti ed exon_transcript: Mantiene la relazione tra trascritti ed esoni.esoni.


gene: Permette di creare una relazione tra geni e gene: Permette di creare una relazione tra geni e trascritti.trascritti.

prediction_exon, prediction transcript: Informazione su prediction_exon, prediction transcript: Informazione su esoni e trascritti predetti.esoni e trascritti predetti.

seq_region: Informazioni sulle regioni delle sequenze; seq_region: Informazioni sulle regioni delle sequenze; fa riferimento al DNA e al sistema di coordinate.fa riferimento al DNA e al sistema di coordinate.

seq_region_attrib: Informazioni sugli attributi di una seq_region_attrib: Informazioni sugli attributi di una data regione; mantiene riferimenti a attib_type.data regione; mantiene riferimenti a attib_type.


supporting_feature: giustifica il processo di predizione supporting_feature: giustifica il processo di predizione con collegamenti ad allineamenti della sequenza con con collegamenti ad allineamenti della sequenza con DNA o proteine.DNA o proteine.

transcripts: Informazioni sui trascritti.transcripts: Informazioni sui trascritti.

translation: Descrive quale parte degli esoni viene translation: Descrive quale parte degli esoni viene usate nella traduzione.usate nella traduzione.

Caratteristiche ed Analisi - 1

analysis: Descrive programmi e basi di dati utilizzati per analysis: Descrive programmi e basi di dati utilizzati per creare una feature su un dato pezzo di una sequenza.creare una feature su un dato pezzo di una sequenza.

dna_align_feature: Descrive un allineamento rispetto dna_align_feature: Descrive un allineamento rispetto ad una sequenza ottenuto attraverso un BLAST.ad una sequenza ottenuto attraverso un BLAST.

map: Registra nomi di mappe per le quali sono map: Registra nomi di mappe per le quali sono disponibili informazioni sui marker.disponibili informazioni sui marker.

marker: Le informazioni sul Marker.marker: Le informazioni sul Marker.


marker_feature: Descrive le posizioni dei marker.marker_feature: Descrive le posizioni dei marker.

marker_map_location: Mette in Relazione i marker e la marker_map_location: Mette in Relazione i marker e la mappa.mappa.

misc_attrib: Lega attributi a feature.misc_attrib: Lega attributi a feature.

misc_feature: Mette in relazione l'attributo e la misc_feature: Mette in relazione l'attributo e la sequenza.sequenza.

misc_set: Definisce insiemi di feature.misc_set: Definisce insiemi di feature.


prediction_transcript: Trascritti predetti (genscan, prediction_transcript: Trascritti predetti (genscan, SNAP).SNAP).

protein_align_feature: Come per gli allineamenti di protein_align_feature: Come per gli allineamenti di DNA.DNA.

protein_feature: Descrive le caratteristiche delle protein_feature: Descrive le caratteristiche delle traduzionitraduzioni

ID mapping

gene_archive: Mantiene l'elenco dei geni modificati o gene_archive: Mantiene l'elenco dei geni modificati o cancellati tra una release e l'altra.cancellati tra una release e l'altra.

mapping_session: Mappa gli stable ID tra le varie basi mapping_session: Mappa gli stable ID tra le varie basi di dati.di dati.

peptide_archive: Contiene i peptidi per traduzioni peptide_archive: Contiene i peptidi per traduzioni cancellate o modificate.cancellate o modificate.

stable_id_event: Stabilisce cosa sia accaduto ad uno stable_id_event: Stabilisce cosa sia accaduto ad uno stable ID (cancellazioni, creazioni, relazioni tra stable stable ID (cancellazioni, creazioni, relazioni tra stable ID).ID).

Altre Basi di Dati Biologiche

TRANSFOG: una base di dati “limite”, in cui tutto è TRANSFOG: una base di dati “limite”, in cui tutto è basato sul programma di ricerca dei fattori basato sul programma di ricerca dei fattori trascrizionali.trascrizionali.

BASE: una base di dati per la gestione di analisi di BASE: una base di dati per la gestione di analisi di MicroArray (una descrizione completa dell'esperimento MicroArray (una descrizione completa dell'esperimento dall'estrazione all'immagine).dall'estrazione all'immagine).

Quanti e quali sono i DB biologici?

http://www3.oup.co.uk/nar/database/http://www3.oup.co.uk/nar/database/

per la lista in ordine alfabetico:per la lista in ordine alfabetico:http://www3.oup.co.uk/nar/database/http://www3.oup.co.uk/nar/database/a/a/

Documents

BASI DI DATI BIOLOGICHE - 3. Principali Basi di Dati Biologiche Alcune delle principali Basi di Dati Biologiche: Di sequenze: NCBI. Di proteine: Protein