166
Basi di dati biologiche (Teoria) 1

Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

  • Upload
    vothuy

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Basi di dati biologiche (Teoria)

1

Page 2: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati biologiche - Introduzione

2

Il concetto di informazione e’ strettamente connesso a quello di dato e di struttura.

Il dato e’ un osservabile (insieme di numeri, caratteri, simboli…)

La struttura e’ l’ organizzazione ordinata di dati che ne consente l’apprendimento.

Una banca dati e’ l’insieme di dati elementari, omogenei, ordinati e fruibili. In

altre parole: e’ una collezione organizzata di dati

Esempio: elenco telefonico. L’informazione e’ strutturata in campi (nome, cognome ecc.).

Ogni persona con i propri dati e’ un record.

Page 3: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati biologiche - Introduzione

3

I dati biologici necessitano di

un’organizzazione. Primo tentativo:

Margaret Dayhoff (1925-1983): raccolse,

nel 1965, le sequenze di 65 proteine (lavoro

pioneristico per il tempo!)

Le tecniche di sequenziamento rapido ed i

progetti –omici hanno prodotto una quantita’

esplosiva di dati, anche di sequenze

L’avvento di Internet ha facilitato di gran

lunga l’acquisizione e la distribuzione

dell’informazione biologica in banche dati.

Page 4: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati biologiche - Introduzione

3D

EXPRESSION

MAPPING

>sp|P56478|IL7_RAT

MFHVSFRYIFGIPPLILVLLPVTSSD

CHIKDKDGKAFGSVLMISINQLDKMT

GTDSDCPNNEPNFFKKHLCDDTKEAA

FLNRAARKLRQFLKMNISEEFNDHLL

RVSDGTQTLVNCTSKEEKTIKEQKKN

DPCFLKRLLREIKTCWNKILKGSI

SEQUENCES

LS125-4 R14523 CYC223

FUNCTION

LITERATURE ONTOLOGIES

• Sono collezioni di dati:

• strutturati

• indicizzati

• aggiornati

• interconnessi

• …

• I database biologici sono legati a strumenti per:

• recuperare records al loro interno

• aggiornare il database

• combinare le informazioni

• Ci sono 6 principali categorie di basi di dati biologiche :

• basi di dati di sequenze:

• DNA

• RNA

• Proteine

• basi di dati per il mapping

• geni

• cromosomi

• …

• Strutture 3D (PDB)‏

• trascrittomica

• funzionali(KEGG)‏

• per la letteratura (PubMed), ontologies (GO),‏…

ONTOLOGIA: modo formale di rappresentare la conoscenza

Page 5: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati biologiche - Introduzione

Nucleic Acids Research Database summary contiene > 1800 database

classificati nelle seguenti categorie:

•Nucleotide Sequence Databases

•RNA sequence databases

•Protein sequence databases

•Structure Databases

•Genomics Databases (non-vertebrate)

•Metabolic and Signaling Pathways

•Human and other Vertebrate Genomes

•Human Genes and Diseases

•Microarray Data and other Gene Expression Databases

•Proteomics Resources

•Other Molecular Biology Databases

•Organelle databases

•Plant databases

•Immunological databases

•Cell biology

http://www.oxfordjournals.org/our_journals/nar/database/c/

Page 6: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Alcuni database di interesse biologico

AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,BioMagResBank,BIOMDB, BLOCKS,BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc …!!!!

Come ci si orienta?

Page 7: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - introduzione

• Principio generale della biologia:

Le banche dati si strutturano e si integrano

per favorire lo studio di questo processo.

Tre enti al mondo sono i principali

DNA RNA

cDNA

ESTs

phenotype

genomic

DNA

databases

protein

sequence

databases

protein

Page 8: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Database di sequenze primarie

• Database pubblici che collezionano tutte le sequenze pubblicate: – GenBank (US National

Center for Biology information; 1982) http://www.ncbi.nlm.nih.gov/Genbank/

– EMBL (European Molecular Biology Laboratory; 1982) http://www.ebi.ac.uk/embl/

– DDBJ (DNA Data Bank of Japan; 1986) http://www.ddbj.nig.ac.jp/

A partire dal 1992 i tre database condividono tutte le sequenze. Download

ftp://ftp.ncbi.nih.gov/genbank ftp://ftp.ebi.ac.uk/pub/databases/embl/ ftp://ftp.ddbj.nig.ac.jp/database/

Page 9: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati – dati di sequenza

• Che dati si possono trovare? • Principalmente sono presenti

• sequenze (nucleotidi, amminoacidi)

• strutture

• L’uso della rappresentazione dei dati biologici di

varia natura come sequenze è la forma di gran lunga

più diffusa.

Sequenza del gene corrispondente alla proteina BAX (RefSeq: NM_001193517.1)

Page 10: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - dati di sequenza

• Che dati si possono trovare? – Sequenze di DNA:

• formate da 4 tipi di lettere: • a (adenina), c (citosina), g (guanina), t (timina)

– esempio: atggtacat..., tag, taa, tga …

– Sequenze di RNA: • formate da 4 tipi di lettere: • a (adenina), c (citosina), g (guanina),u (uracile)

– esempio: aucgcuaa, auucg, … – Per convenzione sono rappresentate con lettere minuscole (ma non

sempre…)

– Sequenze proteiche: • formate da 20 lettere • corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I,K, L, M, N, P, Q, R, S, T, V,

W, Y

– esempio: MPIVDTGSVAPLSAAEK…, TAG,... – Per convenzione sono rappresentate con lettere maiuscole

Page 11: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - dati di sequenza • Il formato FASTA - Pearson

– Rappresentazione mediante testo di sequenze nucleotidiche o peptidiche (lettere MAIUSCOLE).

– La prima riga (di lunghezza arbitraria) è preceduta da “>” e rappresenta la descrizione della sequenza.

– Le linee precedute da “>” o “;” sono considerate di commento e non vengono interpretate come dato di sequenza

– Le linee successive (ciascuna di 80 caratteri) rappresentano la sequenza. – Un file fasta può avere estensione (non c’è uno standard)

• .fasta o .fas (generica) • .fna (acidi nucleici) • .ffn (regione codificante del genoma) • .faa (aminoacidi) (.mpfa per sequenza mutiple) • .frn (RNA non codificante)

Esempio di sequenza FASTA Schemi per formati di intestazione FASTA

Page 12: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

LOCUS AB001325 1442 bp mRNA linear PRI 17-SEP-2005

DEFINITION Homo sapiens AQP3 mRNA for aquaporine 3, partail cds.

ACCESSION AB001325 D25280

VERSION AB001325.1 GI:1854373

KEYWORDS .

SOURCE Homo sapiens (human)

ORGANISM Homo sapiens

Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;

Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;

Catarrhini; Hominidae; Homo.

REFERENCE 1

AUTHORS Ishibashi,K., Sasaki,S., Saito,F., Ikeuchi,T. and Marumo,F.

TITLE Structure and chromosomal localization of a human water channel

(AQP3) gene

JOURNAL Genomics 27 (2), 352-354 (1995)

PUBMED 7558005

REFERENCE 2 (bases 1 to 1442)

AUTHORS Ishibashi,K.

TITLE Direct Submission

JOURNAL Submitted (28-OCT-1996) Kenichi Ishibashi, Tokyo Medical and Dental

University, 2nd Internal Medicine; Yushima 1-5-45, Bunkyo-ku, Tokyo

113, Japan (Tel:03-5803-5223, Fax:03-5803-0132)

COMMENT On Feb 28, 1997 this sequence version replaced gi:915195.

FEATURES Location/Qualifiers

source 1..1442

/organism="Homo sapiens"

/mol_type="mRNA"

/db_xref="taxon:9606"

/clone="HUM-AQP3"

/tissue_type="kidney"

gene 1..1442

/gene="AQP3"

CDS 61..939

/gene="AQP3"

/note="water channel"

/codon_start=1

/product="aquaporin 3"

/protein_id="BAA19237.1"

/db_xref="GI:1854374"

/translation="MGRQKELVSRCGEMLHIRYRLLRQALAECLGTLILVMFGCGSVA

QVVLSRGTHGGFLTINLAFGFAVTLGILIAGQVSGAHLNPAVTFAMCFLAREPWIKLP

IYTLAQTLGAFLGAGIVFGLYYDAIWHFADNQLFVSGPNGTAGIFATYPSGHLDMING

FFDQFIGTASLIVCVLAIVDPYNNPVPRGLEAFTVGLVVLVIGTSMGFNSGYAVNPAR

DFGPRLFTALAGWGSAVFTTGQHWWWVPIVSPLLGSIAGVFVYQLMIGCHLEQPPPSN

EEENVKLAHVKHKEQI"

ORIGIN

1 ccggggatcc acgcgcgccg ccacccctgc ccgcccgaca gcgccgccgc ctgccccgcc

61 atgggtcgac agaaggagct ggtgtcccgc tgcggggaga tgctccacat ccgctaccgg

121 ttgctccgac aggcgctggc cgagtgcctg gggaccctca tcctcgtgat gtttggctgt

181 ggctccgtgg cccaggttgt gctcagccgg ggcacccacg gtggtttcct caccatcaac

241 ctggcctttg gctttgctgt cactctgggc atcctcatcg ctggccaggt ctctggggcc

301 cacctgaacc ctgccgtgac ctttgccatg tgcttcctgg ctcgtgagcc ctggatcaag

361 ctgcccatct acaccctggc acagacgctg ggagccttct tgggtgctgg aatagttttt

421 gggctgtatt atgatgcaat ctggcacttt gccgacaacc agctttttgt ttcgggcccc

481 aatggcacag ccggcatctt tgctacctac ccctctggac acttggatat gatcaatggc

541 ttctttgacc agttcatagg cacagcctcc cttatcgtgt gtgtgctggc cattgttgac

601 ccttacaaca accccgtccc ccgaggcctg gaggccttca ccgtgggcct ggtggtcctg

661 gtcattggca cctccatggg cttcaactcc ggctatgccg tcaaccctgc ccgggacttt

721 ggcccccgcc tttttacagc ccttgcgggc tggggctctg cagtcttcac gaccggccag

781 cattggtggt gggtgcccat cgtgtcccca ctcctgggct ccattgcggg tgtcttcgtg

841 taccagctga tgatcggctg ccacctggag cagcccccac cctccaacga ggaagagaat

901 gtgaagctgg cccatgtgaa gcacaaggag cagatctgag tggcaagggc catctcccac

961 tccgctgccc tggccttgag catccactga ctgtccaagg ccactcccaa gaagcccccc

1021 ttcacgatcc accctttcag gctaaggagc tccctatcta ccctcacccc acgaagacag

GenBank File Format

header

features

DNA sequence

Page 13: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GenBank Flat file format

13

Il formato GenBank Flat file contiene un header con dei metadati:

Locus

name

Sequence

length

Molecule

type Division

Page 14: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GenBank Flat file format

14

Il formato GenBank Flat file contiene un header con dei metadati:

1. PRI - primate sequences 2. ROD - rodent sequences 3. MAM - other mammalian sequences 4. VRT - other vertebrate sequences 5. INV - invertebrate sequences 6. PLN - plant, fungal, and algal sequences 7. BCT - bacterial sequences 8. VRL - viral sequences 9. PHG - bacteriophage sequences 10. SYN - synthetic sequences 11. UNA - unannotated sequences 12. EST - EST sequences (expressed sequence tags) 13. PAT - patent sequences 14. STS - STS sequences (sequence tagged sites) 15. GSS - GSS sequences (genome survey sequences) 16. HTG - HTG sequences (high-throughput genomic sequences) 17. HTC - unfinished high-throughput cDNA sequencing 18. ENV - environmental sampling sequences

Il database genbank è

suddiviso in 18 divisioni

Page 15: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GenBank Flat file format

15

Il formato GenBank Flat file contiene un header con dei metadati:

Descrizione della sequenza

Page 16: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GenBank Flat file format

16

Il formato GenBank Flat file contiene un header con dei metadati:

Identificatore univoco della sequenza

Page 17: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GenBank Flat file format

17

Il formato GenBank Flat file contiene un header con dei metadati:

Versione

Numero identificatore della sequenza (cambia

se cambia in qualche modo la sequenza

Page 18: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GenBank Flat file format

18

Il formato GenBank Flat file contiene un header con dei metadati:

Nome scientifico dell’organismo

Page 19: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GenBank Flat file format

19

Il formato GenBank Flat file contiene un header con dei metadati:

Eventuali riferimenti bibliografici

Page 20: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GenBank Flat file format

20

Il formato GenBank Flat file contiene un header con dei metadati:

Features: informazioni su

geni e altre regioni di

rilevanza biologica

Regione corrispondente ad un gene (dalla base 687 alla base 3158)

Regione corrisondente ad una regione codificante una proteina

Id della proteina codificata

Traduzione della sequenza nucleotidica in sequenza amminoacidica

Page 21: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GenBank Flat file format

21

L’ultima parte del file contiene

la sequenza nucleotidica

Page 22: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - dati di sequenza • Il formato XML (eXtensible Markup Language)

– Replica la struttura logica del record nella banca dati – I tag permettono di delimitare e definire campi e sottocampi

<?xml version='1.0' encoding='UTF-8'?>

<uniprot xmlns="http://uniprot.org/uniprot" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://uniprot.org/uniprot http://www.uniprot.org/support/docs/uniprot.xsd">

<entry dataset="Swiss-Prot" created="1995-02-01" modified="2011-01-11" version="120">

<accession>Q07812</accession>

<accession>A8K4W1</accession>

<accession>P55269</accession>

<accession>Q07814</accession>

<accession>Q07815</accession>

<accession>Q8WZ49</accession>

<accession>Q9NR76</accession>

<accession>Q9NYG7</accession>

<accession>Q9UCZ6</accession>

<accession>Q9UCZ7</accession>

<accession>Q9UQD6</accession>

<name>BAX_HUMAN</name>

<protein>

<recommendedName>

<fullName>Apoptosis regulator BAX</fullName>

</recommendedName>

<alternativeName>

<fullName>Bcl-2-like protein 4</fullName>

<shortName>Bcl2-L-4</shortName>

</alternativeName>

</protein>

<gene>

<name type="primary">BAX</name>

<name type="synonym">BCL2L4</name>

</gene>

<organism>

<name type="scientific">Homo sapiens</name>

<name type="common">Human</name>

<dbReference type="NCBI Taxonomy" id="9606" key="1"/>

<lineage>

<taxon>Eukaryota</taxon>

<taxon>Metazoa</taxon>

<taxon>Chordata</taxon>

<taxon>Craniata</taxon>

<taxon>Vertebrata</taxon>

<taxon>Euteleostomi</taxon>

<taxon>Mammalia</taxon>

<taxon>Eutheria</taxon>

<taxon>Euarchontoglires</taxon>

<taxon>Primates</taxon>

<taxon>Haplorrhini</taxon>

<taxon>Catarrhini</taxon>

<taxon>Hominidae</taxon>

<taxon>Homo</taxon>

</lineage>

</organism>

<reference key="2">

[…]

<feature type="turn">

<location>

<begin position="147"/>

<end position="149"/>

</location>

</feature>

<feature type="helix">

<location>

<begin position="150"/>

<end position="154"/>

</location>

</feature>

<feature type="helix">

<location>

<begin position="159"/>

<end position="164"/>

</location>

</feature>

<feature type="helix">

<location>

<begin position="171"/>

<end position="188"/>

</location>

</feature>

<evidence key="EC1" category="curator" type="Literature" attribute="PubMed=8358790" date="2010-07-01"/>

<evidence key="EC2" category="curator" type="Literature" attribute="PubMed=10772918" date="2010-07-01"/>

<evidence key="EC3" category="curator" type="Literature" attribute="PubMed=8521816" date="2010-07-01"/>

<evidence key="EC4" category="curator" type="Literature" attribute="PubMed=11259440" date="2010-07-01"/>

<evidence key="EC5" category="curator" type="Literature" attribute="PubMed=12732850" date="2010-07-01"/>

<evidence key="EC6" category="curator" type="Literature" attribute="PubMed=15071501" date="2010-07-01"/>

<evidence key="EC7" category="curator" type="Literature" attribute="PubMed=20300062" date="2010-07-01"/>

<evidence key="EC8" category="curator" type="Literature" attribute="PubMed=11106734" date="2010-07-01"/>

<evidence key="EC9" category="curator" type="Literature" attribute="PubMed=10228148" date="2010-07-01"/>

<evidence key="EC10" category="curator" type="Literature" attribute="PubMed=11912183" date="2010-07-01"/>

<evidence key="EC11" category="curator" type="Literature" attribute="PubMed=19413330" date="2010-07-01"/>

<evidence key="EC12" category="curator" type="Literature" attribute="PubMed=9531611" date="2010-07-01"/>

<evidence key="EC13" category="curator" type="Literature" attribute="PubMed=7475270" date="2010-07-01"/>

<sequence length="192" mass="21184" checksum="6C0CDB0A7DEE4994" modified="1995-02-01"version="1">

MDGSGEQPRGGGPTSSEQIMKTGALLLQGFIQDRAGRMGGEAPELALDPVPQDASTKK

LSECLKRIGDELDSNMELQRMIAAVDTDSPREVFFRVAADMFSDGNFNWGRVVALFYF

ASKLVLKALCTKVPELIRTIMGWTLDFLRERLLGWIQDQGGWDGLLSYFGTPTWQTVTIF

VAGVLTASLTIWKKMG</sequence>

</entry>

<copyright>Copyrighted by the UniProt Consortium, see http://www.uniprot.org/termsDistributed

under the Creative Commons Attribution-NoDerivs License</copyright>

</uniprot>

Page 23: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

• Offre accesso a TANTE risorse di vario tipo: – Sequenze geniche e proteiche – Strutture terziarie – Genomi completi – Pathways – EST (expressed sequence tags) – Profili trascrittomici – Cataloghi tassonimici – …

• accesso a numerosi database attraverso il sistema Entrez: – GenBank – Swissprot – PubMed – GEO – …

Page 24: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

• Poiché i dati sono condivisi tra le principali banche dati, iniziamo da NCBI (www.ncbi.nlm.nih.gov)

Dati sull’ereditarietà dei

caratteri e su disordini

genetici

Tassonomie

Page 25: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

• Una ricerca qualunque dall’home page apre ENTREZ, interfaccia per l’accesso ai database presenti in NCBI

Page 26: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

PubMed è l’interfaccia di accesso a

MEDLINE.

Con I suoi

• 20 milioni di record fino agli anni ‘50

• 4600 riviste da più di 70 paesi

E’ la banca dati per la letteratura

biomedica più completa.

(Accessibile anche tramite EBI tramite

CiteXplore)

Page 27: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Nucleotide Database di sequenze nucleotodiche primario.

•EST (expressed sequence tag) • GSS (genome sequence surveys altre sequenze, BactArtifChromosome, YeastArtifChromosome,...)

Database di sequenze nucleotidiche secondari:

• RefSeq (sistema di identificazione) • Unigene (sequenze raggruppate)

Gene è orientato ai geni, ai loci

Page 28: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Protein è la sezione focalizzata sulle

proteine, alle quali possono

corrispondere strutture

PubChem dedicato ai composti chimici

Page 29: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Qui i genomi completi con riferimenti alla

ricerca effettuata, varianti genomiche,

ecc

Informazioni su profili di espressione genica in

diverse condizioni, modifiche post-traduzionali

GEO (Gene Expression Omnibus) repository

Page 30: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

30

Database con informazioni riguardanti la salute umana: • letteratura • informazioni sui test genetici disponibili • Varianti di sequenza con significato clinico • …

Page 31: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

…E molto altro!

Page 32: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Page 33: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

In fondo alla pagina links molto utili:

Page 34: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

NCBI Banche dati primarie

GenBank è la banca dati di tutte le sequenze in NCBI (sincronizzata con

EMBL e DDBJ)

Le sequenze derivano da diverse fonti e tipi:

Geni (regioni di regolazione, esoni, introni: unità ereditarie)

EST (Expressed Sequence Tags)

brevi segmenti di DNA trascritti e sequenz. da cDNA (ottenuto da

mRNA retrotrascritto)

STS (sequence tagged site, dove l’informazione genetica è mappata

fisicamente)

GSS (Genome Survey Sequence, vettori come BactArtifChromosome, YeastArtifChromosome o

sequenze solo parzialmente sequenziate)

HTGS (High Throughput Genomic Sequence, sequenze prodotte da tecniche di

seconda generazione per il sequenziamento veloce, messe qui in “preview”)

Sequenze di proteine (sezione nr, non redundant)

Così tanto materiale ha provocato l’esigenza di ordine: Unigene e RefSeq

Page 35: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

NCBI Banche dati secondarie

35

Unigene

Ha lo scopo di raggruppare le EST in insiemi non ridondanti tutti riferiti

allo stesso locus.

Integra anche informazioni trascrittomiche (tessuti, condizioni)

Si combina con la ricerca su homoloGene per trovare omologhi tra specie

diverse

Revisioni curate derivate dai database di sequenze primari

Page 36: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

RefSeq è stato ideato per far corrispondere a ciascun trascritto

normalmente prodotto da un gene e a ciascuna proteina una sequenza di

riferimento, un identificatore (accession number).

Altri esempi di identificatori NON RefSeq sono:

X02775 GenBank/EMBL/DDBJ nucleotidic sequence

Rs7079946 dbSNP (single nucleotide polymorphism)

N91759.1 An expressed sequence tag

AAC02945 GenBank protein

Q28369 SwissProt protein

1KT7 Protein Data Bank structure record

Refseq fornisce un identificatore per la sequenza di riferimento, curato dal

personale dell’NCBI

NCBI Banche dati secondarie

Page 37: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

I formati principali degli id RefSeq sono:

Complete genome/chromosome/plasmid NC_######

Genomic contig (segmenti sovrapposti di DNA segments che

rappresentano una sequenza consenso) NT_######

mRNA (DNA format) NM_###### e.g. NM_006744

Protein NP_###### e.g. NP_006735

E molti altri: Accession Molecule Method Note

AC_123456 Genomic Mixed Alternate complete genomic

AP_123456 Protein Mixed Protein products; alternate

NC_123456 Genomic Mixed Complete genomic molecules

NG_123456 Genomic Mixed Incomplete genomic regions

NM_123456 mRNA Mixed Transcript products; mRNA

NM_12345689 mRNA Mixed Transcript products; 9-digit

NP_123456 Protein Mixed Protein products;

NP_123456789 Protein Curation Protein products; 9-digit

NR_123456 RNA

Accession Molecule Method Note

NT_123456 Genomic Automated Genomic assemblies

NW_123456 Genomic Automated Genomic assemblies

NZ_ABCD12345678 Genomic Automated Whole genome shotgun data

XM_123456 mRNA Automated Transcript products

XP_123456 Protein Automated Protein products

XR_123456 RNA Automated Transcript products

YP_123456 Protein Auto. & Curated Protein products

ZP_12345678 Protein Automated Protein products

Banche dati - NCBI

Page 38: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

• Un primo esempio di ricerca: emoglobina

– Una delle prime proteine ad essere studiata (anni ’30 e ’40, da Mulder, Liebing et al.)

– La mioglobina, una globina (struttura globulare a 8 eliche) che lega l’ossigeno nei tessuti muscolari, è stata la prima proteina la cui struttura tridimensionale è stata risolta tramite cristallografia

John Kendrew, 1962,

Nobel Prize for Chemistry

(w. Max Perutz)

Page 39: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI • Un primo esempio di ricerca: emoglobina

– L’emoglobina è un tetramero (due domini alfa e due beta negli adulti) è il

principale trasportatore di ossigeno nei vertebrati. Assieme alla mioglobina è stata usata nei primi studi sugli allineamenti multipli.

– Negli anni ’80 con le prime tecniche di sequenziamento è stata localizzata in due loci, uno sul cromosoma 16 (subunità alfa) e 11 (subunità beta). I due geni sono regolati sia in base all’età che in base ai diversi tessuti.

Page 40: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

• Un primo esempio di ricerca: emoglobina

Page 41: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Seguire‏il‏link‏a‏“Gene”

Page 42: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Entrez Gene (ex LocusLink) è un portale curato che descrive loci genetici

nomenclatura

alias

accession numbers

fenotipi

OMIM (ereditarietà dei caratteri)

cluster UniGene

HomoloGene

mappatura sul genoma

collegamenti esterni

Page 43: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

• Intestazione: Entrez Gene

• Nota: “Official Symbol” HBB

per la beta globina

•In generale, trova ad offi 113

entries

Page 44: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Limitiamoci alla ricerca in Homo

Sapiens

Page 45: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Cliccando la specie si aggiorna

automaticamente la stringa di

ricerca

•Con il limite Homo Sapiens le

entries sono solo 39

Page 46: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Entrez Gene

(inizio dell’entry)

Sulla dx in basso:

numerosi link a

database esterni

Page 47: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Entrez Gene (continua…)

Regioni genomiche…

Page 48: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Entrez Gene (continua…)

E informazioni bibliografiche

Page 49: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI Entrez Gene (…continua…):

GeneRif (intended to facilitate access to publications documenting

experiments that add to our understanding of a gene and its function)

Page 50: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI E ancora Fenotipi, Variazione Genica, Pathways per Biosistemi e

Interazioni note con altri geni)

Page 51: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI Entrez Gene (…continua…):

Ontologia

Ontologia (fondamentale per

sistemi automatici di

apprendimento)

Classificazione e organizzazione

dei dati in categorie predefinite così

da agevolare l’individuazione di

analogie e caratteristiche primarie.

Può essere di diversi tipi, ma la

principale distingue:

1.Funzione molecolare

2.Localizzazione cellulare

3.Processo biologico

Page 52: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Entrez Gene

(…continua…

Quasi fine

pagina):

Catalogazione

RefSeq

Page 53: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Restringe il campo di ricerca, inserendo ad es. la stringa:

equus caballus AND hemoglobin alpha

La banca dati ci mostrerà una lista di sequenze proteiche i cui campi di

descrizione contengono entrambe le parole. Quindi le sequenze proteiche

del cavallo che non contengono nella descrizione la parola hemoglobin

non vengono selezionate.

Operatore AND (&)‏

1 AND 2 1 2

Page 54: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Estende il campo di ricerca, digitando ad esempio:

homo sapiens OR mus musculus

Otterremo una lista di sequenze i cui campi contengono la parola homo

sapiens o la parola mus musculus.

L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme

delle sequenze che incontrano le nostre esigenze.

Operatore OR (|)‏

1 OR 2 1 2

Page 55: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Restringe il campo di ricerca, inserendo:

homo sapiens BUT NOT hemoglobin

Richiederemo sequenze i cui campi contengono la parola homo sapiens

ma non la parola hemoglobin.

Operatore NOT (!)‏

1 NOT 2 1 2

Page 56: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

• Gli operatori booleani si possono combinare, vengono letti da sinistra a

destra. Per questo sono utili le parentesi.

• Ad esempio: globin AND promoter OR enhancer produce quasi 5000 hits. Ma

se si scrive globin AND (promoter OR enhancer) se ne ottengono circa 70.

• Altre possibilità sono:

– Specificare un organismo (human, nella query: human[ORGN]

– Usare l’asterisco: glob* restituisce tutte le entry che contengono

una stringa che inizia per “glob”

– Usare le virgolette “”. La ricerca di “toxin B1” restituirà le entries

che contengono esattamente la stringa intera.

– Ecc. ecc.

Page 57: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Esempio di applicazione:

Ricerca di una sequenza nucleotidica

Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici.

Un esempio è il Mycobacterium Tuberculosis, agente responsabile della

tubercolosi.

La domanda che ci si pone è:

Ci sono sequenze nucleotidiche nel M.Tuberculosis con la

caratteristica‏“Penicillin-binding”?

Passi:

1. Cerchiamo nella banca dati nucleotidica tutte le sequenze per “Penicillin-

binding” (nota la stringa e non le due parole singolarmente)

2. Cerchiamo solo le sequenze di M.Tubercolosis.

3. Combiniamo i due criteri di selezione.

Page 58: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Criterio di selezione

Numero di sequenze

Selezionare limits per Il 2° punto e successivamente

“advanced”

Cerchiamo sequenze nucleotidiche

Page 59: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Con limits abbiamo alcune opzioni per restringere la ricerca. Ma con advanced è molto più mirata.

Page 60: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

History “ricorda” la ricerca fatta e il numero di Items trovati

Ogni ricerca precedente ha un suo ID numerico

Ora possiamo aggiungere l’organismo (new field)

Page 61: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Scegliere HISTORY per combinare i criteri

Page 62: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Numero di sequenze

Sintassi per combinare le ricerche

Page 63: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI

Il numero finale di sequenze è

drasticamente ridotto

Page 64: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI HomoloGene: la risorsa ideale per individuare gruppi

di geni omologhi negli eucarioti presenti in NCBI

Page 65: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Entrez Protein (1/2) Contiene diverse

Informazioni su proteine • 147 aminoacidi

• PRI: primates

• NP_000509 (protein accession

number)

• NM_000518.4 (mRNA, RefSeq)

• Riferimenti bibliografici

• Sequenza FASTA (Opzione

Display)

Banche dati di proteine: NCBI Protein

Page 66: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - Proteine

Entrez Protein (2/2) Contiene diverse

Informazioni su proteine

• Siti di modificazione post-

traduzionalee (AA94, AA121)

• Riferimenti ad altri database

• Sequenza aminoacidica (1 lettera)

E’ un record non molto ricco dal punto di vista dei dati delle proteine…

Page 67: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot Uniprot è il più completo database centralizzato per le sequenze

proteiche.

E’ organizzato su 3 livelli:

1) Uniprot Knowledge Base Swiss-Prot (curato)

TrEMBL (automatico)

2) UniProt Reference clusters (UniRef) Cluster di proteine che condividono il 50%, 90%, 100% di identità di sequenza

3) UniProt Archive (UniParc)

Archivio di sequenze proteiche stabile, non ridondante, da diverse fonti

Dal 2002 Uniprot si è fuso con PIR, un’altra importante

risorsa per le sequenze proteiche

Page 68: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot - Homepage

68

Casella di ricerca

Accesso alle diverse informazioni in Uniprot

Page 69: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – Esempio di ricerca

69

Page 70: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot Ricerca ristretta a proteine di uomo

70

Page 71: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

71

Tavola con i contenuti disponibili

Page 72: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

72

Page 73: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

73

Page 74: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

74

Page 75: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

75

Page 76: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

76

Page 77: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

77

Page 78: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

78

Link a PDB (protein data bank), database di strutture proteiche

Page 79: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

79

Page 80: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

80

Page 81: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

81

Link ad altri database di sequenze (EMBL,GeneBank, DDBJ), varianti,

Wikipedia, ecc…

Page 82: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Uniprot – esempio di una entry

82

Page 83: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - Proteine ExPASy (Expert Protein Analysis System)

E’ una risorsa curata, espressione del SIB (Swiss Institute of Bioinformatics). Principalmente dedicata alle proteine ma include tools anche per altri ambiti quali system biology, population genetics, imaging ecc…

La risorsa principale che ha prodotto è SwissProt (confluita in Uniprot)

Rimane un punto di riferimento per molti tools

Page 84: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - NCBI dbSNP (single nucleotide polimorfism)

Page 85: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di ricerca

85

Page 86: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di ricerca

86

Filtri

Page 87: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di ricerca

87

Organismo

Page 88: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di ricerca

88

Classe della variante

Page 89: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di ricerca

89

Significato clinico

Page 90: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di ricerca

90

Classe della funzione

Page 91: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – applicazione di filtri

91

Numero totale di varianti ridotto a 21 da oltre 1400

Notare che viene visualizzata anche l’espressione completa della ricerca

Page 92: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

92

Page 93: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

93

Dati generali dello SNP: Organismo, genoma di riferimento, validazione, riferimenti bibliografici

Page 94: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

94

Page 95: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

95

Alleli

Page 96: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

96

Collegamento ad OMIM: compendio di geni umani e fenotipi

Page 97: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

97

Collegamento a ClinVar (Clinical Variants): raccolta di informazioni che collegano le varianti con la loro relazione con la salute umana.

Page 98: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

98

Frequenza dell’allele minore nella popolazione e numero di soggetti su cui è stata visto l’allele minore

Page 99: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

99

Variation viewer mostra la variante in un contesto genomico

Page 100: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – Link a Variation Viewer

100

Visualizzazione delle varianti in un contesto genomico

Page 101: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – Link a Variation Viewer

101

Visualizzazione delle varianti in un contesto genomico

Varianti di interesse clinico

Page 102: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – Link a Variation Viewer

102

Visualizzazione delle varianti in un contesto genomico

Grandi varianti strutturali in dbVar

Page 103: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – Link a Variation Viewer

103

Visualizzazione delle varianti in un contesto genomico

Varianti in dbSNP

Page 104: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – Link a Variation Viewer

104

Cliccando sui rettangolini posso vere quali altri varianti cliniche sono presenti nel gene

Page 105: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

105

Sommario di tutte le sottomissioni riguardanti questa SNP

Page 106: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

106

Sequenza fasta e link ad altri db (sequenze ed altro) in NCBI

Page 107: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

dbSNP – esempio di una entry

107

Dati di frequenza nelle popolazioni

Alleli rari sono potenzialmente importanti le frequenze sono state

abbassate da una selezione “purificatrice”

Page 108: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - OMIM

Catalogo di geni umani e disordini genetici

http://www.omim.org/

•Precedentemente presso l’NCBI ora

ha una pagina web dedicata.

•Risorsa importante per la ricerca

biomedica.

•Compendio di geni umani e fenotipi

•Raccoglie informazioni dalla

letteratura scientifica con link alle

risorse bibliografiche e strumenti di

analisi genomica.

•Aggiornato giornalmente

Page 109: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Banche dati - OMIM

• OMIM si focalizza principalmente su:

– malattie o fenotipi mendeliani a singolo gene (Es.: fibrosi cistica, anemia falciforme,…)

– Malattie complesse con un contributo significativo da parte di un singolo gene

– Sindromi da duplicazioni e delezioni ricorrenti

109

Page 110: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Statistiche di OMIM

110

Quasi 23,000 entry a Marzo 2015

Page 111: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Homepage di OMIM

Link a diverse risorse

Ricerca di base

Page 112: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Esempi di ricerca su OMIM

112

Autocompletamento

Page 113: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – risultati della ricerca

113

Cliccare per aprire

Page 114: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

114

Link alla sezioni della pagina

Page 115: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

115

Relazione gene-fenotipo

Page 116: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

116

Location

Page 117: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Omim – location

117

Genes in the same region

Page 118: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

118

Phenotype mapping key

• Phenotype map key 1: the disorder has been placed on the map based on its

association with a gene, but the underlying defect is not known.

• Phenotype map key 2: the disorder has been placed on the map by linkage;

no mutation has been found.

• Phenotype map key 3: the molecular basis for the disorder is known; a

mutation has been found in the gene.

• Phenotype map key 4: a contiguous gene deletion or duplication syndrome;

multiple genes are deleted or duplicated causing the phenotype.

Page 119: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

119

Gene/Locus ID in OMIM

Page 120: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Gene

120 Tutte le relazioni gene-fenotipo per il locus HBB

Page 121: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Gene

121 Tutte le relazioni gene-fenotipo per il locus HBB

Page 122: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Gene

122

Varianti alleliche

Mutations are cataloged in OMIM in the Allelic Variants section of gene entries (see 1.2). For most genes, only

selected mutations are included. Criteria for inclusion include the first mutation to be discovered, high population

frequency, distinctive phenotype, historic significance, unusual mechanism of mutation, unusual pathogenetic

mechanism, and distinctive inheritance (e.g., dominant with some mutations, recessive with other mutations in the

same gene). Most of the allelic variants represent disease-causing mutations. A few polymorphisms are included,

many of which show a positive correlation with particular common disorders. http://www.omim.org/help/faq

Page 123: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

123

Descrizione del fenotipo

Page 124: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

124

Caratteristiche cliniche

Page 125: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

125

Modalità di diagnosi

Page 126: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

126

Gestione clinica

Page 127: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

127

Page 128: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Visualizzazione di una entry

128

Page 129: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Links

129

Lista di identificatori dell’International Classification of Diseases (ICD) e Systematized Nomenclature of Medicine (SNOMed)

Page 130: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Links

130

Page 131: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Links

131

Page 132: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Links

132 Link al database di proteine Uniprot

Page 133: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Links

133 Link al database di trial clinici

Page 134: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Links

134 Link al Genetic Testing Registry (GTR)

Page 135: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – risultati della ricerca

135

Cliccando su Gene Map è possibile visualizzare i geni corrispondenti alla ricerca eseguite

Page 136: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – Gene map

136

Page 137: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – risultati della ricerca

137

Cliccando su Clinical Synopsis è possibile accedere direttamente a delle sinopsi cliniche

Page 138: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

OMIM – clinical synopsis

138

Page 139: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

The central dogma of molecular biology

DNA

RNA

PROTEIN

Replication

Transcription

Translation

Genes are transcribed from DNA into mRNA, which leaves the nucleus

and is translated to protein. A gene actively transcribed is said to be

expressed. 139

Page 140: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Database di dati di espressione

• Gene Expression Ominbus (GEO) database – NCBI

• http://www.ncbi.nlm.nih.gov/geo/ • EMBL-EBI microarray database (ArrayExpress)

• https://www.ebi.ac.uk/arrayexpress/ • Stanford Microarray Database (SMD)

• http://smd.princeton.edu • caARRAY (outdated)

– https://cabig-stage.nci.nih.gov/community/tools/caArray • The Cancer Genome Atlas (TCGA)

– http://cancergenome.nih.gov/ • PlexDB (unified gene expression resource for

plants and plant pathogens) – http://www.plexdb.org/

Page 141: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GEO

Page 142: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GEO organization C

ura

ted

U

ser

su

bm

itte

d

Page 143: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Platforms (GPLxxx) A Platform record is composed of a summary description of the array or sequencer

and, for array-based Platforms, a data table defining the array template. A Platform

may reference many Samples that have been submitted by multiple submitters.

Page 144: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Platform data table

Page 145: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Platform data table header

Page 146: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Samples (GSMxxx) A Sample record describes the conditions under which an individual Sample was

handled, the manipulations it underwent, and the abundance measurement of each

element derived from it. A Sample entity must reference only one Platform and may be

included in multiple Series.

Page 147: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Sample data

Page 148: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Series (GSExxx) A Series record links together a group of related Samples and provides a focal

point and description of the whole study.

Page 149: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

GEO Datasets and Profiles

• GEO Profiles This database stores individual gene expression and molecular abundance profiles assembled from the Gene Expression Omnibus (GEO) repository. Search for specific profiles of interest based on gene annotation or pre-computed profile characteristics. GEO Profiles facilitates powerful searching and linking to additional information sources.

• GEO DataSets This database stores curated gene expression and molecular abundance DataSets assembled from the Gene Expression Omnibus (GEO) repository. Enter search terms to locate experiments of interest. DataSet records contain additional resources including cluster tools and differential expression queries.

Page 150: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Repository Browser

Page 151: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Repository Browser It’s possible to browse the repository at different levels

Page 152: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Repository Browser Data can be browsed by Series

Page 153: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Repository Browser Data can be browsed by Series, Samples

Page 154: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Repository Browser Data can be browsed by Series, Samples, Platforms

Page 155: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Repository Browser Data can be browsed by Series, Samples, Platforms and Datasets

Page 156: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Datasets

Page 157: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Expression profiles Filters

Page 158: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Filtering expression profiles

Page 159: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Profile of a specific gene

Sample Title Value Rank

GSM562208 Control, biological rep1 6.24609 56

GSM562209 Control, biological rep2 6.75805 61

GSM562210 Control, biological rep3 6.45933 59

GSM562211 Dark, biological rep1 5.88078 52

GSM562212 Dark, biological rep2 5.92748 53

GSM562213 Dark, biological rep3 5.98739 54

GSM562214 Light, biological rep1 7.72981 74

GSM562215 Light, biological rep2 8.29298 81

GSM562216 Light, biological rep3 8.27405 81

You can also go back to the

information related to each

specific sample analized

Page 160: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di
Page 161: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Profile neighbors Connects Profiles that show a similar expression pattern to the chosen Profile within a DataSet

Page 162: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Profile neighbors

Page 163: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Profile data can be downloaded

Page 164: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Profile data can be downloaded

Page 165: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Pathways

Page 166: Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di