of 27/27
BASI DI DATI BIOLOGICHE - 3

BASI DI DATI BIOLOGICHE - 3. Principali Basi di Dati Biologiche Alcune delle principali Basi di Dati Biologiche: Di sequenze: NCBI. Di proteine: Protein

  • View
    220

  • Download
    2

Embed Size (px)

Text of BASI DI DATI BIOLOGICHE - 3. Principali Basi di Dati Biologiche Alcune delle principali Basi di Dati...

  • Slide 1
  • BASI DI DATI BIOLOGICHE - 3
  • Slide 2
  • Principali Basi di Dati Biologiche Alcune delle principali Basi di Dati Biologiche: Di sequenze: NCBI. Di proteine: Protein Data Bank. Di annotazioni: Ensembl. Di analisi: microarray.
  • Slide 3
  • Protein Data Bank (PDB) Archivio globale di dati strutturali relativi a macromolecole biologiche. Istituita nel 1971. Dal 1980 esplosione del numero di strutture grazie ai progressi nellambito delle tecniche utilizzate (principalmente NMR). Dai primi anni 90 deposito ed accesso ai dati via www.
  • Slide 4
  • PDB Il deposito dei dati (1) Il deposito dei dati avviene attraverso ADIT (AutoDep Input Tool); i dati devono rispettare un dizionario (mmCIF) di 1700 termini. Appena ricevuti, i dati entrano a far parte del core database. Successivamente, vengono controllati attraverso un certo insieme di interazioni con i submitter.
  • Slide 5
  • PDB Il deposito dei dati (2) Vengono registrate: le coordinate della struttura; informazioni generali sulla struttura (pubblicazioni, organismi,...); informazioni specifiche ( dati della NMR, processo di acquisizione del dato,...).
  • Slide 6
  • Interazione con PDB
  • Slide 7
  • PDB La base di dati (1) Le basi di ati che costituiscono PDB sono: Il core relational database (Sybase), che contiene i dati sperimentali primari e i dati relativi alle coordinate. I dati finali (curati) presenti come file di testo (ASCII). La base di dati POM (Property Object Model), che comprende oggetti indicizzati che descrivono propriet native (coordinate atomiche) o derivate (strutture secondarie calcolate).
  • Slide 8
  • PDB La base di dati (2) Il Biological Macromolecule Crystallization Database (Sybase), che contiene informazioni ricavate dalla letteratura. La base di dati LDAP usata per indicizzare i campi testuali del PDB in formato strutturato.
  • Slide 9
  • PDB La base di dati (3)
  • Slide 10
  • PDB - Un esempio http://www.rcsb.org/pdb/ Cercare cyclin. Scaricare il risultato.
  • Slide 11
  • Ensembl - Caratteristiche generali Scopo del progetto Ensembl mettere assieme il mosaico dei segmenti di DNA creati dal sequenziamento del genoma umano. Utilizza sequenze ricavate dalle basi di dati pubbliche per alimentare una pipeline di analisi. Determina in maniera semi-automatica geni e caratteristiche rilevanti delle sequenze Presenta i risultati attraverso il www.
  • Slide 12
  • Ensembl - Larchitettura
  • Slide 13
  • Ensembl - Contenuto Geni Noti da altri esperimenti; Predetti da Ensembl. Altre caratteristiche: SNPs;Repeats;Homologies.
  • Slide 14
  • Ensembl - Identificatori In progetti di questo tipo essenziale definire un vocabolario di nomi comuni affinch un dato elemento possa essere identificato univocamente (i.e., nomi dei geni). E, inoltre, di fondamentale importanza disporre di identificatori stabili per le sequenze (pur riconoscendo la necessit della gestione delle versioni). Gli identificatori specifici di Ensembl sono del tipo: ENSG0000XXXX, ENST00000XXXX,...
  • Slide 15
  • Ensembl La base di dati (1) Le singole basi di dati vengono costruite in pi passi Creazione dello schema; Caricamento dei dati di sequenza (DNA, clone,...); Costruzione di geni; Analisi dei geni.
  • Slide 16
  • Ensembl La base di dati (2) Viene utilizzato MySQL. Le basi di dati possono essere scaricate dal sito di Ensembl. Ogni organismo ha pi basi di dati: Core;Desease;... Il Core mantiene le informazioni d'interesse.
  • Slide 17
  • Ensembl -Le tabelle della base di dati Dividiamo le tabelle in 3 gruppi: tabelle fondamentali; caratteristiche ed analisi; ID mapping.
  • Slide 18
  • Le tabelle fondamentali - 1 assembly: Descrive come i contig si uniscono per creare la sequenza del cromosoma. Mantiene un mapping tra le locazioni sul cromosoma e locazioni sui contig. assembly_exception: Fornisce informazioni aggiuntive su una data sezione della precedente tabella. attrib_type: Mantiene gli attributi riconducibili ad una sequenza.
  • Slide 19
  • Tabelle fondamentali - 2 dna: Contiene le sequenze di DNA; in rapporto 1:1 con i Contig. exon: Mantiene informazioni sugli esoni, associato ai trascritti mediante una chiave esterna. exon_stable_id: Identificatori stabili. exon_transcript: Mantiene la relazione tra trascritti ed esoni.
  • Slide 20
  • Tabelle fondamentali - 3 gene: Permette di creare una relazione tra geni e trascritti. prediction_exon, prediction transcript: Informazione su esoni e trascritti predetti. seq_region: Informazioni sulle regioni delle sequenze; fa riferimento al DNA e al sistema di coordinate. seq_region_attrib: Informazioni sugli attributi di una data regione; mantiene riferimenti a attib_type.
  • Slide 21
  • Tabelle fondamentali - 4 supporting_feature: giustifica il processo di predizione con collegamenti ad allineamenti della sequenza con DNA o proteine. transcripts: Informazioni sui trascritti. translation: Descrive quale parte degli esoni viene usate nella traduzione.
  • Slide 22
  • Caratteristiche ed Analisi - 1 analysis: Descrive programmi e basi di dati utilizzati per creare una feature su un dato pezzo di una sequenza. dna_align_feature: Descrive un allineamento rispetto ad una sequenza ottenuto attraverso un BLAST. map: Registra nomi di mappe per le quali sono disponibili informazioni sui marker. marker: Le informazioni sul Marker.
  • Slide 23
  • Caratteristiche ed Analisi - 2 marker_feature: Descrive le posizioni dei marker. marker_map_location: Mette in Relazione i marker e la mappa. misc_attrib: Lega attributi a feature. misc_feature: Mette in relazione l'attributo e la sequenza. misc_set: Definisce insiemi di feature.
  • Slide 24
  • Caratteristiche ed Analisi - 3 prediction_transcript: Trascritti predetti (genscan, SNAP). protein_align_feature: Come per gli allineamenti di DNA. protein_feature: Descrive le caratteristiche delle traduzioni
  • Slide 25
  • ID mapping gene_archive: Mantiene l'elenco dei geni modificati o cancellati tra una release e l'altra. mapping_session: Mappa gli stable ID tra le varie basi di dati. peptide_archive: Contiene i peptidi per traduzioni cancellate o modificate. stable_id_event: Stabilisce cosa sia accaduto ad uno stable ID (cancellazioni, creazioni, relazioni tra stable ID).
  • Slide 26
  • Altre Basi di Dati Biologiche TRANSFOG: una base di dati limite, in cui tutto basato sul programma di ricerca dei fattori trascrizionali. BASE: una base di dati per la gestione di analisi di MicroArray (una descrizione completa dell'esperimento dall'estrazione all'immagine).
  • Slide 27
  • Quanti e quali sono i DB biologici? http://www3.oup.co.uk/nar/database/ per la lista in ordine alfabetico: http://www3.oup.co.uk/nar/database/http://www3.oup.co.uk/nar/database/a/ http://www3.oup.co.uk/nar/database/