Upload
internet
View
113
Download
0
Embed Size (px)
Citation preview
Bancos de dados
Prof. Dr. Francisco Prosdocimi
Relational database
Banco de dados
Tabela
Campos
Relações
Chave-primária
Conceitos importantes
A linguagem SQL
Outra linguagem?
Criando uma tabela e definindo campos
A magia do comando SELECT
A cláusula WHERE
mysql> select * from bovEST_BLAST where (similarity > 70 and e_value < 1e-20) order by similarity DESC limit 40;
+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+| q_id | s_id | similarity | ali_length | mismatches | gap_openings | q_init | q_end | s_init | s_end | e_value | score |+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+| RE087RA01.esd | Chr18 | 100 | 308 | 0 | 0 | 384 | 691 | 43689822 | 43689515 | 3e-172 | 611 || RE087RA01.esd | Chr18 | 100 | 75 | 0 | 0 | 241 | 315 | 43691823 | 43691749 | 3e-33 | 149 || RE087RA01.esd | Chr18 | 100 | 69 | 0 | 0 | 85 | 153 | 43694415 | 43694347 | 1e-29 | 137 || RE087RB10.esd | Chr5 | 100 | 179 | 0 | 0 | 105 | 283 | 56439425 | 56439247 | 3e-95 | 355 || RE087RB10.esd | Chr5 | 100 | 133 | 0 | 0 | 283 | 415 | 56438471 | 56438339 | 7e-68 | 264 || RE087RC01.esd | Chr3 | 100 | 179 | 0 | 0 | 106 | 284 | 42018973 | 42018795 | 9e-96 | 355 || RE087RC02.esd | Chr10 | 100 | 125 | 0 | 0 | 313 | 437 | 99740206 | 99740330 | 2e-63 | 248 || RE087RC02.esd | Chr10 | 100 | 104 | 0 | 0 | 212 | 315 | 99739617 | 99739720 | 8e-51 | 206 || RE087RC02.esd | Chr10 | 100 | 92 | 0 | 0 | 117 | 208 | 99738535 | 99738626 | 1e-43 | 182 || RE087RC03.esd | Chr10 | 100 | 110 | 0 | 0 | 325 | 434 | 99740206 | 99740315 | 2e-54 | 218 || RE087RC03.esd | Chr10 | 100 | 104 | 0 | 0 | 224 | 327 | 99739617 | 99739720 | 7e-51 | 206 || RE087RC03.esd | Chr10 | 100 | 92 | 0 | 0 | 129 | 220 | 99738535 | 99738626 | 1e-43 | 182 || RE087RC05.esd | Chr5 | 100 | 158 | 0 | 0 | 172 | 329 | 24199827 | 24199984 | 9e-83 | 313 || RE087RC05.esd | Chr5 | 100 | 136 | 0 | 0 | 436 | 571 | 24201779 | 24201914 | 1e-69 | 270 || RE087RC05.esd | Chr5 | 100 | 67 | 0 | 0 | 107 | 173 | 24199155 | 24199221 | 2e-28 | 133 || RE087RC06.esd | Chr5 | 100 | 170 | 0 | 0 | 323 | 492 | 108223843 | 108223674 | 6e-90 | 337 || RE087RC06.esd | Chr5 | 100 | 137 | 0 | 0 | 491 | 627 | 108223120 | 108222984 | 3e-70 | 272 || RE087RC08.esd | Chr19 | 100 | 356 | 0 | 0 | 130 | 485 | 36886303 | 36886658 | 0 | 664 || RE087RC10.esd | Chr14 | 100 | 103 | 0 | 0 | 146 | 248 | 1077123 | 1077021 | 6e-50 | 204 || RE087RC10.esd | Chr11 | 100 | 103 | 0 | 0 | 146 | 248 | 93831389 | 93831287 | 6e-50 | 204 || RE087RC11.esd | Chr7 | 100 | 91 | 0 | 0 | 103 | 193 | 33783452 | 33783362 | 6e-43 | 180 || RE087RD01.esd | Chr14 | 100 | 103 | 0 | 0 | 155 | 257 | 1077123 | 1077021 | 6e-50 | 204 || RE087RD01.esd | Chr11 | 100 | 103 | 0 | 0 | 155 | 257 | 93831389 | 93831287 | 6e-50 | 204 || RE087RD04.esd | Chr8 | 100 | 198 | 0 | 0 | 252 | 449 | 100369996 | 100369799 | 1e-106 | 392 || RE087RD05.esd | Chr7 | 100 | 91 | 0 | 0 | 368 | 458 | 39281415 | 39281505 | 8e-43 | 180 || RE087RD07.esd | Chr14 | 100 | 219 | 0 | 0 | 151 | 369 | 23348458 | 23348676 | 3e-119 | 434 || RE087RD07.esd | Chr14 | 100 | 101 | 0 | 0 | 541 | 641 | 23349620 | 23349720 | 9e-49 | 200 || RE087RD07.esd | Chr14 | 100 | 75 | 0 | 0 | 368 | 442 | 23349004 | 23349078 | 3e-33 | 149 || RE087RE01.esd | Chr13 | 100 | 332 | 0 | 0 | 112 | 443 | 51325163 | 51324832 | 3e-172 | 611 || RE087RE02.esd | Chr19 | 100 | 125 | 0 | 0 | 204 | 328 | 56707552 | 56707428 | 4e-63 | 248 || RE087RE02.esd | Chr19 | 100 | 62 | 0 | 0 | 142 | 203 | 56710310 | 56710249 | 2e-25 | 123 || RE087RE05.esd | Chr2 | 100 | 241 | 0 | 0 | 275 | 515 | 131052933 | 131052693 | 3e-132 | 478 || RE087RE05.esd | Chr2 | 100 | 79 | 0 | 0 | 145 | 223 | 131053063 | 131052985 | 1e-35 | 157 || RE087RE09.esd | Chr19 | 100 | 106 | 0 | 0 | 100 | 205 | 13495533 | 13495428 | 1e-51 | 210 || RE087RF01.esd | Chr3 | 100 | 195 | 0 | 0 | 86 | 280 | 14725822 | 14726016 | 7e-105 | 387 || RE087RF01.esd | Chr3 | 100 | 180 | 0 | 0 | 279 | 458 | 14729898 | 14730077 | 6e-96 | 357 || RE087RF01.esd | Chr3 | 100 | 119 | 0 | 0 | 457 | 575 | 14730286 | 14730404 | 2e-59 | 236 || RE087RF01.esd | Chr3 | 100 | 74 | 0 | 0 | 575 | 648 | 14730866 | 14730939 | 1e-32 | 147 || RE087RF02.esd | Chr5 | 100 | 133 | 0 | 0 | 282 | 414 | 56438471 | 56438339 | 7e-68 | 264 || RE087RF02.esd | Chr5 | 100 | 107 | 0 | 0 | 413 | 519 | 56437590 | 56437484 | 2e-52 | 212 |+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+40 rows in set (14.36 sec)
Bancos de dados Biológicos
Prof. Dr. Francisco Prosdocimi
Bancos de dados
• Servem para organizar a informação biológica e disponibilizá-la de maneira simples aos pesquisadores
• Bancos mais comunsSequência, estrutura, protein-protein interaction, domínios, assinaturas, famílias gênicas, evolutivos, paper-específicos
Conceitos básicos
• O conceito de curadoria de sequências
• Bancos de dados primários– Genbank, PDB, EMBL
• Bancos de dados secundários– Swissprot, RefSeq, COG,
KEGG
National Center for Biotechnology Information
O NCBI fornece acesso a genomas completos de mais
de 5.700 organismos. Genomas significam tanto sequências completas de organismos quanto os que
estão em processo de sequenciamento.
http://www.ncbi.nlm.nih.gov
Os bancos de dados do NCBI
• PubMed
• GenBank• GenPept• Genome• dbGSS• dbEST• dbSNP
GenBank
• Genbank, ddBJ, EMBL• Identificadores
– gI, accession number
• Formatos– FASTA, GenBank– http://
www.ncbi.nlm.nih.gov/nuccore/187830767?report=genbank&log$=seqview
>gi|187830767|ref|NM_000546.4| Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...)
Taxonomy
• Permite verificar o número de sequências de nucleotídeos, proteínas e genomas de espécies
• Contém a classificação taxonômica completa das espécies– Incluindo categorias não-
lineanas
BLAST databases• Peptide Sequence Databases
– Nr: All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF – Refseq: RefSeq protein sequences from NCBI's Reference Sequence Project. – Swissprot: Last major release of the SWISS-PROT protein sequence database (no updates). – Pat: Proteins from the Patent division of GenPept. – Pdb: Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank. – Month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30
days. – env_nr: Protein sequences from environmental samples.
• Nucleotide Sequence Databases – Nr: All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST,
GSS, STS, PAT, WGS). No longer "non-redundant". – refseq_rna, refseq_genomic– Est: Database of GenBank + EMBL + DDBJ sequences from EST Divisions
• est_human, est_mouse, est_others– gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR
sequences. – Pat: Nucleotides from the Patent division of GenBank. – Month: All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days. – Dbsts: Database of GenBank+EMBL+DDBJ sequences from STS Divisions . – Chromosome: A database with complete genomes and chromosomes from the NCBI Reference Sequence
project.. – Wgs: A database for whole genome shotgun sequence entries. – env_nt: Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine
Drainage projects.
Trace Archive
• Contém os dados brutos de sequenciamento para diversas espécies
• O pesquisador pode fazer o download e realizar o base-calling da maneira como preferir
• Arquivos pesados (dados brutos)
• Obsoleto...– short read archive
RefSeq
• Banco de dados de sequências de referência para genomas
• Apresenta uma única cópia para cada gene no genoma– É o verdadeiro NR
• Dividido em genoma, cDNA e proteína (NC, NM e NP)
• Contém sequências de splicing alternativo
Níveis de curadoria RefSeq
• Predita: automática – cDNA com ORF sem função descrita
• Provisória: manual – proteína com função conhecida ou inferida – o melhor representante do GenBank, mais anotado
• Revisada: manual – compilação sobre o gene e seus transcritos – sequência, propriedades, nomenclatura, referências,
retirada de vetor, adição de UTRs, domínios conservados, descrição da função do gene, links
dbEST• Contém sequências de ESTs
(e ORestes) de diversos organismos
dbGSS
• Contém sequências genômicas single-passed para diversos organismos
UniGene
• Contém clusters de ESTs formados a partir de similaridades usando o algoritmo megaBLAST
• Reúne variantes de splicing no mesmo identificador
• Cataloga variantes de splicing por tecido
• Organização das sequências do GenBank em um conjunto de aglomerados
• Cada aglomerado do UniGene contém as sequências que representam um gene único
• E também informações relacionadas, como em que tecidos o gene é expresso, etc.
• E também onde está mapeado
UniGene
MegaBLAST gera o UniGene
Todas ESTs contra todas
Detecção de homologia
> 96% de identidade
> 70% do potencial
Aglomerar
GEO database
• Contém dados de experimentos de microarray
COG
• Cluster of Orthologous Groups– 66 genomas bacterianos
• Best Hits cruzados entre 3 organismos
• Genes bacterianos agrupados por função biológica
• KOG, eucariotos
CDD, conserved domains
• Banco de dados de domínios
• NCBI-curated domains
• Baseado nas bases de dados:– Pfam, SMART, COG, PRK,
TIGRFAM
• Permite mostrar a arquitetura de domínios de uma sequência quando o usuário faz um BLAST
• Utiliza o RPS-blast
Go to => NCBI
Outros serviços NCBI
• Serviços educacionais– http://www.ncbi.nlm.nih.gov/Education/
• NCBI Handbook– http://www.ncbi.nlm.nih.gov/books/bv.fcgi?
call=bv.View..ShowTOC&rid=handbook.TOC&depth=2
• ORF finder• Muito mais...
– Coffe break http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=coffeebrk
SwissPROT
• Banco de dados de sequências de proteínas mais curado e mais utilizado no mundo
• Europeus não usam NCBI
TrEMBL
• Complemento não anotado ao SwissPROT
• Não houve curadoria manual
• Anotação automática
Famílias protéicas
• A maioria das proteínas pode ser agrupada em famílias com base na similaridade entre suas sequências– Similaridade intra-espécies– Evidência de ancestralidade comum
• Proteínas da mesma família costumam ter funções moleculares e biológicas semelhantes → inferência biológica
• Inferência de função– Similaridade de sequência– Análise filogenética
Famílias e alinhamentodkk1
dkk3
Prokinecitin/Intestinal toxin
Lipase protein cofactor
Dickkopf N-terminal domainColipaseColipase C-terminal domain
Pfam :
dkk2
Assinaturas ou domínios protéicos
• Obtidos através da análise de regiões que se mantém constantes em grupos de sequências similares alinhadas
• Distingue membros de famílias dos não-membros
• Auxilia a atribuição de funcionalidades moleculares e biológicas
Identificação de famílias por expressões regulares
Montando uma expressão regular
Expressão regular
Expressão regular para a família
Uso de expressões regulares• Identificação de padrões de
famílias• Identificação de promotores,
sítios para a ligação do ribossomo (consenso de kosak)
• Problemas– Pequenas diferenças em um
membro da família pode retirá-lo do grupo
– Lembrete: a vida não apresenta regras rígidas
– Programas com base estatística ou baseados em inteligência artificial
Prosite
Prosite INFO
Prosite INFO
pFAM
• Cadeias de Markov: não se acessa o estado, porém um observação probabilística do estado
Bancos de dados de domínios
InterPRO
KEGG
• Kyoto Encyclopedia of Genes and Genomes
• Permite anotar a presença de enzimas e completar vias bioquímicas
• Visão integrada do metabolismo
KEGG pathways
• Enzimas/proteínas encontradas são marcadas em verde
Gene Ontology
• Primeira ontologia criada em biologia molecular, 2000• Consórcio para a padronização da anotação gênica• Vocabulário padrão para a descrição de genes em
três categorias– Processo biológico– Função molecular– Localização celular
Human, mouse, worm, fly, etc...
Processo biológico
Função molecular
Localização Celular
Além do Gene Ontology
• OBO foundry: The open biomedical ontologies
• Anatomy ontologies
BaliBASE
• Banco de dados de alinhamentos múltiplos
• Curado manualmente
• Visão integrada do metabolismo
Proteômica
• Swiss-2D-page• Banco de dados de
géis bidimensionais
Codon Usage DB
• Preferência em códons sinônimos
• Utilização preferencial de certos códons por aminoácidos
• Diferença por organismo/organela
Lembrete
• Muitos bancos de dados estão disponíveis para FTP– Faça o download e instale na sua máquina– Bancos de dados locais e pesquisa-
específicos ajudam no desenvolvimento e análise de dados
• Instale no MySQL mais próximo– Monte suas tabelas e faça seus selects!– PERL + SQL (a biblioteca DBI)
Conclusões
• Há bancos de dados em bioinformática para praticamente qualquer tipo de abordagem em biologia molecular
• Stein, 2009
• O papel central da bioinformática na pesquisa genômica moderna
• NAR, duas edições por ano
• É preciso conhecer os serviços, mais cedo ou mais tarde, você pode precisar