46
© Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006 Análisis de genomas

Embed Size (px)

Citation preview

Page 1: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de genomas

Page 2: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Puntos a tratar:

Interés de los proyectos genomas La secuenciación de genomas

Bases de datos de genomas

Anotación de genomas

Genómica comparativa

Visualizadores del genoma humano

What's Next?

Análisis de Genomas

Page 3: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Cada genoma completo suministra una fuente inagotable de información biológica:

Conocimiento del número total de genes

Conocimiento de la estructura de genes, regiones reguladoras y otros elementos funcionales

Principios sobre la organización básica del organismo (clases funcionales,...)

Conocer funciones básicas de los genes conservados en distintas especies (léxico biología molecular)

Organización secuencia en los cromosomas (saco de genes o sistema integrado información)

Evolución genoma (conservación orden de genes, evolución secuencia)

Análisis de Genomas

Miramos el bosque, no el árbol

Page 4: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Criterios para la secuenciación de genomas

Amplio conocimiento biológico previo

Patógeno humano

Interés filogenético

Análisis de Genomas

Page 5: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Secuenciación de Genomas

Hierarchical Shotgun Sequencing vs

Shotgun Sequencing

Ensamblado de la

secuencia

• Borrador (draft): 1 error en 1kb (4x-5x)

• Acabado (finished): 1 error en 10 kb (8x-9x)

Page 6: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Bases de datos genómicas

Análisis de Genomas

Links genómicaLinks genómica

GOLD[TM] Genomes

OnLine Database v 2.0

http://www.genomesonline.org Information regarding complete and ongoing genome projects

Genome Sequencing Proposals

http://www.genome.gov/10002154

Entrez Genomes

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=genome&cmd=search&term=

•Buscar el número de genomas de mamíferos que se están secuenciando por el método WSG (Whole Genome Shotgun)

•Buscar el número de genomas de mamíferos que se están secuenciando por el método WSG (Whole Genome Shotgun)

Page 7: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Bases de datos genómicas

Análisis de Genomas

Links genómicaLinks genómica

TIGR Microbial

Database

http://www.tigr.org/tdb/mdb/mdbcomplete.html

Microbial genomes and chromosomes

ACeDB http://www.acedb.org/ C. elegans, S. pombe, and human sequences and genomic information

FlyBase http://www.fruitfly.org Drosophila sequences and genomic information

MITOMAP http://www.mitomap.org/ Human mitochondrial genome

Page 8: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Genomas de microorganismos secuenciados

Nuestra visión del árbol de la vida debe ser modificada

Análisis de Genomas

Page 9: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Tipos celulares básicos

Análisis de Genomas

Page 10: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Genomas de microorganismos secuenciados

Nuestra visión del árbol de la vida debe ser modificada 40% genes son URFs (unidentified reading

frames) Mínimo número de genes para sostener el tipo

moderno de célula es 256-80 Importancia de transferencia horizontal (en E. coli

12,5% genoma) Gene shuffling ORFs faltantes de genes existentes Descubrimiento de antibióticos (broad spectrum

antibiotics) Causas de patogenidad (ej. Yersinia

pseudotuberculosis y Yersinia pestis)

Análisis de Genomas

Page 11: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Genomas de microorganismos secuenciados

Causas de patogenidad (ej. Yersinia pseudotuberculosis y Yersinia pestis Science 2002)

Análisis de Genomas

Page 12: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Arabidopsis thaliana

http://www.arabidopsis.org/

Genoma arroz http://rgp.dna.affrc.go.jp/ International Rice Genome Sequencing Project, coordinado por el RGP de Japón

Fugu genome project

Fugu genomics project

http://bahama.jgi-psf.org/fugu/html/fugu_factsheet.html

http://fugu.hgmp.mrc.ac.uk/PFW/

Fugu

Genoma ratón

Genoma rata

http://www.ensembl.org

http://www.ncbi.nih.gov/genome/guide/mouse

http://www.informatics.jax.org/

http://rgd.mcw.edu/

Bases de datos genómicas

Análisis de Genomas

Page 13: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Vertebrados secuenciadosAnálisis de Genomas

Page 14: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

El genom

a human

o

The human genome

Page 15: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Genoma Humano en GenBank

http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=hum_chr.inf&query=

Visualizador Genoma Humano

Guía al genoma humano

Ensembl http://www.ensembl.org Annotated human Genome sequence data

UCSC http://genome.ucsc.edu/ UCSC Genome Browser

Bases de datos genoma humano

http://www.ncbi.nlm.nih.gov/genome/guide/human/

Page 16: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Anotación del genoma

Identificación de repeticiones (Repeat masker, Reputer, …) Predicción de los genes que codifican para proteínas

Métodos ab initio (GenScan, Genmark, Glimmer,…) Comparación genoma con mRNA (EST) (blastn, sim4,…) Comparación genoma con proteínas (blastx, genewise)

• Predicción de RNA genes

Métodos ab initio (tRNAScanSE, snoRNA,…) Comparación genoma con RNA (EST) (blatn, sim4,…)

Otros elementos Pseudogenes (por similitud, blastn, blastx) Elementos reguladores (islas CpG, promotores??)

Anotación del genoma

Identificación de repeticiones (Repeat masker, Reputer, …) Predicción de los genes que codifican para proteínas

Métodos ab initio (GenScan, Genmark, Glimmer,…) Comparación genoma con mRNA (EST) (blastn, sim4,…) Comparación genoma con proteínas (blastx, genewise)

• Predicción de RNA genes

Métodos ab initio (tRNAScanSE, snoRNA,…) Comparación genoma con RNA (EST) (blatn, sim4,…)

Otros elementos Pseudogenes (por similitud, blastn, blastx) Elementos reguladores (islas CpG, promotores??)

Análisis de Genomas

Se dispone de la secuencia de un genoma ensamblada

Page 17: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Protocolo para localización de genes que codifican para proteína a partir de la inspección de la secuencia

Traducción conceptual de la secuencia Detección pautas abierta de lectura (ORFs): sucesión

de codones sin STOP (ORF promedio = ~150 nc Distinción región codificante: composición bases

Sesgo de codones Frec. Aminoácidos Correlación entre aa vecinos Mejora algoritmo probándola con genes conocidos Frec. de oligómeros (Hidden Markow models)

Búsqueda señales: sitios conservados Señales splicing: límites exón-intrón sitio aceptor y receptor, branch

point Codón inicio traducción y terminación (STOP)

Ponderación por matrices (perfiles)

Análisis de Genomas

Page 18: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Protocolo para localización de genes que codifican para proteína a partir de la inspección de la secuencia (2)

Construcción un modelo del genCombinación del exón con las fases compatibles

Búsqueda de las secuencias limítrofes Exones terminales (5’, 3’) Promotores Señal de poliadenilación

Análisis de Genomas

Page 19: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Predicción de genes que codifican para proteína: Resumen

Page 20: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Secuencia problema Arabidopsis

Ejercicios

Links buscadores de genesLinks buscadores de genes

Ejemplo: ORF Finder (Open Reading Frame Finder) al NCBI

•Buscar ORF con Genscan, o Metagene en una secuencia problema de Arabidopsis y de la secuencia del gen BRCA1 de humanos•Identificación de genes en secuencia genómica http://ebiointel.uab.es/base/base.asp?sitio=canruti&anar=ejerci&item=&subitem=

Page 21: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis del proteoma codificado por un

genoma secuenciado

Análisis de Genomas

Búsqueda de homologíasBúsqueda de homologías

Page 22: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

1. Predicción de genesMétodos ab initio (in

silico)

2. Análisis proteoma

Análisis de Genomas

Anotación• Predicción de genes “in silico“• Asignación funcional (homología otras proteínas, información patrones, estructura,..)

Page 23: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Comparación entre genomas

Localización de secuencias

ortólogas

Análisis de Genomas

Page 24: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Ensembl

Análisis de Genomas

Sistemas de anotación automáticos

Page 25: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Ortólogo vs Parálogo

Duplicación

Especiación

Especie 1 Especie 2

Presente

•Los pares 1 y 2, y 1 y 2 son ortólogos•Los pares 1 y 1, 1 y 2, 2 y 1 y 2 y 1 son parálogos

Page 26: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Ortólogo vs Parálogo

Page 27: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Localización de ortólogos

Criterios al comparar de proteomas

El par putativo de ortólogos deben dar el mejor hit al consultar la secuencias de cada uno con la del genoma del otro E muy bajo < 10-20 (Conservativo) o 0,01 (no

conservativo) y alineamientos > 80% identidad (conservativo) o 60% (no conservativos)

Análisis de clusters las secuencias agrupadas

Análisis de Genomas

Obtenemos los clusters de grupos homólogos

Page 28: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Page 29: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Page 30: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Page 31: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Genómica comparativa

Todo elementos funcional está constreñido por la selección natural

Detección de la huella de la selección en las secuencias genómicas

Principio básico

Análisis de Genomas

Page 32: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Genómica comparativa

Detección Genes

Detección regiones reguladoras

Detectar funciones nuevas y conservadas

Evolución genoma

Evolución Proteínas

Modelos animales estudios fisiología y enfermedades

La genómica comparativa es fundamental para:

Análisis de Genomas

Page 33: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Rubin et al. Science 287: 2204-2215

Análisis de Genomas

Page 34: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Distribución de homologías en proteínas humanas

Sólo vertebrados22%

Sólo procariotas<1% Eucariota y procariota

21%

Animales y otros eucariotas

32%

No homología animal

1%

Vertebrados y otros animales

24%

Análisis de Genomas

Page 35: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Genómica comparativa

Genoma ratón 14% menor genoma humano (2,5 Gb vs 2,9 Gb)

90% ambos genomas presentan sintenia

A nivel nucleotídico 40% GH se alinea con GR

Tasa substitución neutra 0,5 por sitio. Doble ratón que humanos

% genoma sometido a selec purificadora >5%

Evolución no uniforme del genoma

Ambos ~ mismo número genes, 30.000. 80% único ortólogo, sin homología <1%

Page 36: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Distribución de homologías en proteínas humanas

Genómica comparativa

Page 37: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Nature 2003, 423:241-254

Genómica comparativa

Page 38: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Metodología con una sensibilidad y precisión comparable o superior al

análisis experimental

Genómica comparativa

Page 39: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Vertebrados secuenciadosAnálisis de Genomas

Page 40: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Clasificación funcionalDesde:

•Simples categorías (energía, información, comunicación)

•Esquema de clasificación Gene Ontology (GO) que engloba:

•Papel biológico (Why?)•Función molecular (What?)•Localización celular (Where?)

Molecular Function Ontology

the tasks performed by individual gene products; examples are carbohydrate binding and ATPase activity

Biological Process Ontology

broad biological goals, such as mitosis or purine metabolism, that are accomplished by ordered assemblies of molecular functions

Cellular Component Ontology

subcellular structures, locations, and macromolecular complexes; examples include nucleus, telomere, and origin recognition complex

Page 41: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Gene Ontology

Page 42: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Clasificación funcional   GO:0003673 : Gene_Ontology ( 149784 )   •     GO:0008150 : biological_process ( 99849 )  

•     GO:0007610 : behavior ( 2298 ) •     GO:0000004 : biological_process unknown ( 27969 ) •     GO:0009987 : cellular process ( 32926 ) •     GO:0007275 : development ( 14739 ) •     GO:0008371 : obsolete biological process ( 97 ) •     GO:0007582 : physiological process ( 62723 ) •     GO:0050789 : regulation of biological process ( 12540 ) •     GO:0016032 : viral life cycle ( 255 )

•     GO:0005575 : cellular_component ( 80819 )   •     GO:0005623 : cell ( 57332 ) •     GO:0008372 : cellular_component unknown ( 19622 ) •     GO:0005576 : extracellular ( 5011 ) •     GO:0019814 : immunoglobulin complex ( 19 ) •     GO:0008370 : obsolete cellular component ( 25 ) •     GO:0005941 : unlocalized ( 550 ) •     GO:0019012 : virion ( 127 )

•     GO:0003674 : molecular_function ( 101079 )   •     GO:0016209 : antioxidant activity ( 322 ) •     GO:0005488 : binding ( 27236 ) •     GO:0003824 : catalytic activity ( 33780 ) •     GO:0003754 : chaperone activity ( 894 ) •     GO:0030188 : chaperone regulator activity ( 13 ) •     GO:0030234 : enzyme regulator activity ( 1851 ) •     GO:0005554 : molecular_function unknown ( 28940 ) •     GO:0003774 : motor activity ( 423 ) •     GO:0045735 : nutrient reservoir activity ( 36 ) •     GO:0008369 : obsolete molecular function ( 675 ) •     GO:0004871 : signal transducer activity ( 6503 ) •     GO:0005198 : structural molecule activity ( 3002 ) •     GO:0030528 : transcription regulator activity ( 7944 ) •     GO:0045182 : translation regulator activity ( 602 ) •     GO:0005215 : transporter activity ( 9113 ) •     GO:0030533 : triplet codon-amino acid adaptor activity ( 553 )

Page 45: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

Genoma Humano en GenBank

http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=hum_chr.inf&query=

Visualizador Genoma Humano

Guía al genoma humano

Ensembl http://www.ensembl.org Annotated human Genome sequence data

UCSC http://genome.ucsc.edu/ UCSC Genome Browser

Bases de datos genoma humano

http://www.ncbi.nlm.nih.gov/genome/guide/human/

Ejercicios de búsqueda en el genoma humano

Page 46: © Copyright Ebiointel,SL 2006 Análisis de genomas

© Copyright Ebiointel,SL 2006

Análisis de Genomas

What's Next?Turning Genomics Vision Into Reality

•ENCyclopedia Of DNA Elements (ENCODE)

•The International HapMap Project

•Structural Genomics Consortium