31
ioinformática para el análisis de metagenoma Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Embed Size (px)

Citation preview

Page 1: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Bioinformática para el análisis de metagenomas

Javier Tamames

Centro Superior de Investigación en Salud PúblicaGeneralitat Valenciana

Page 2: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Proyectos de metagenómica

Hugenholtz et al, Nature 455, 481 (2008)

1600

11

200

2

110

1

28

72

2

180

200

<1

6123 727

7

2000

62

316

Page 3: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

020406080

100120140160180

Year

Nu

mb

er

of

art

icle

s

5 10 15 20 25Number of projects

MARINE

EXTREME

AQUATIC

SOIL

HUMAN

PLANTS

FOSSIL

BIOREACTOR

VIRAL

INSECTS

CORALS

ANIMALS

WORMS

AERIAL

SYNTHETIC

Proyectos de metagenómica

0 500 1000 1500 2000Size (Mb)

1:FOSSIL2:FOSSIL

3:MARINE4:EXTREME

5:SAND6:HUMAN

7:BIOREACTOR8:MARINE

9:AQUATIC10:MARINE

11:SOIL12:AQUATIC

13:SOIL14:EXTREME

15:MARINE16:FOSSIL

17:WORMS18:EXTREME

19:PLANTS20:HUMAN21:FOSSIL

22:PLANTS23:SOIL

24:BIOREACTOR25:AQUATIC26:MARINE

27:28:ANIMALS29:AQUATIC30:PLANTS31:MARINE

32:SIMULATED33:AQUATIC

34:HUMAN35:MARINE36:MARINE

CompletedOngoing

96

19

Page 4: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Secuenciación 16S rDNA

Secuenciación metagenómica

ObjetivoEstudiar la composición y abundancia de especies en la muestra

Estudiar genes y genomas presentes en la muestra

Usos

Estudiar el número de especies en la muestra

Describir el perfil funcional de la muestra

Estudiar la distribución taxonómica en la muestra

Obtención de genes de interés

Describir la diversidad de la muestra

Relacionar funciones y especies de procedencia

Comparar diferentes muestras a nivel de la composición en especies

Comparar diferentes muestras a nivel de la composición funcional

Relacionar poblaciones con factores externos

Determinar posibles relaciones en la comunidad

Estudio de comunidades bacterianas

Page 5: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

PCROf 16S

rDNA genes16S

rDNA amplicons

Ligation Transformation

Insert PCR

Analysis

Sequencing

Total DNA:

(Giuseppe d’Auria)

Secuenciación del 16S rDNA

Page 6: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Sogin et al, Proc Natl Acad Sci USA 103, 12115-20 (2006)

Estimación del número de especies

Cluster distance

0.03 0.05

ID Reads OTU ACE Chao1 OTU ACE Chao1

FS396 17666 6326 23315 20949 5573 18003 16889SChao1=Sobs+ F1

2/ 2F2

Page 7: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Est. Error Est. OTUsPower lawFungi Desert 30.0 2 x 104

Prairie 20.5 2 x 109

Rainforest 9.66 2 x 103

Log-normalFungi Desert 42.7 7 x 104

Prairie 23.7 1 x 106

Rainforest 9.00 2 x 104

LogarithmicFungi Desert 62.0 2 x 103

Prairie 29.0 2 x 103

Rainforest 28.1 1 x 103

Fierer et al, Appl Environm Microbiol 73, 7059-66 (2007)

Estimación del número de especies

Page 8: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Diversidad de las comunidades

Indices de diversidadTratan de medir la forma de la distribución de especies en la comunidad

Indice de Simpson

D = ni (ni -1) / N (N -1)

Page 9: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Bacteria[100%] Proteobacteria[100%] Alphaproteobacteria[100%] Rhodobacterales[100%] Rhodobacteraceae[97%] Sulfitobacter[90%]

RDP classifierhttp://rdp.cme.msu.edu

Blast hits

Asignación taxonómica de secuencias 16S rDNA

Page 10: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Asignación taxonómica de secuencias 16S rDNA

Sundquist et al, BMC Microbiol 7, 108 (2007)

Page 11: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Eckburg et al, Science 308, 1635-8 (2005)

Comparación de la composición de comunidades

Page 12: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Comparación de comunidades

TreeClimber algorithm

Schloss & Handelsman, Appl Environ Microb 72, 2379-84 (2006)

Page 13: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Analyzing the relationships between populations and the environment (DCA)

Relación con factores externos

Comparing the populations (PCA)

Eckburg et al, Science 308, 1635-8 (2005) Tamames et al (2009)

Other tissues

Page 14: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Secuenciación 16S rDNA

Secuenciación metagenómica

ObjetivoEstudiar la composición y abundancia de especies en la muestra

Estudiar genes presentes en la muestra

Usos

Estudiar el número de especies en la muestra

Describir el perfil funcional de la muestra

Estudiar la distribución taxonómica en la muestra

Obtención de genes de interés

Describir la diversidad de la muestra

Relacionar funciones y especies de procedencia

Comparar diferentes muestras a nivel de la composición en especies

Comparar diferentes muestras a nivel de la composición funcional

Relacionar poblaciones con factores externos

Determinar posibles relaciones en la comunidad

Estudio de comunidades bacterianas

Page 15: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Métodos de secuenciación de alto rendimiento

454

Síntesis, liberación de pirofosfato Longitud lecturas: 100-150/400 nt Precio:0.003 $/base

Amplificación: terminadores y fluoróforosLongitud lecturas: 35 nt Precio:0.0007 $/base

SOLiD

LigaciónLongitud lecturas: 35-50 nt Precio:0.0005 $/base

Illumina

Page 16: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Bioinformatics workflow for metagenomics

Gene prediction

Binning

AAGACGTGGACA

CATGCGTGCATG

AGTCGTCAGTCATGGG

GTCCGTCACAACTGA

Short reads (40-150 bps)

AAGACGTGGACAGATCTGCTCAGGCTAGCATGAAC

Contigs

GATAGGTGGACCGATATGCATTAGACTTGCAGGGC

1 3000 6000

ORFs

Proteins, families, functions

1 3000 6000

Functional profiles

1 2000

Sequences into species

Assembly

Homology searching

Functional classificationOntologies

Page 17: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

EnsamblajeAnotación funcional

Binning

Secuencias procedentes de

diversas especies

Formación de quimeras

Sin efectoLo hace

necesario

Secuencias cortasMétodos

genómicos no aptos

Homología con solo una parte del hit

Poca señal filogenética o composicional

Secuencias con errores

Menor soporte para los contigs

Poco efecto Poco efecto

Problemas asociados a las secuencias metagenómicas

Page 18: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Mavromatis et al, Nature Meth 4, 495-500 (2007)

Ensamblaje de metagenomas

Errores

JAZZ 29%Arachne 33%Phrap 56%

Cantidad ensamblada

JAZZ 32%Arachne 44%Phrap 66%

JAZZ 2%Arachne 2%Phrap 40%

Otros ensambladores: Newbler, Mira

Page 19: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Predicción de genes: Para genomas procariotas existen herramientas que funcionan con alta precisión (>98%), pero no son utilizables para secuencias metagenómicas

Predicción de genes en metagenomas

Mavromatis et al, Nature Meth 4, 495-500 (2007)

Otros predictores: MetaGene

Page 20: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

En colaboración con ITACA-UPV, usando EELA grid:Búsquedas de homología en GenBank nr para el metagenoma del Mar de los SargazosRealizado en 8 dias de tiempo real (25 genomas bacterianos medios/dia)

Búsquedas de homología mediante computación en grid

Tamaño de diversos metagenomas:

Human gut microbiome: 10 Kb Whale fall 1: 28 Kb Minessotta farm soil: 135 Kb Sargasso Sea waters: 810 Kb

Page 21: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Asignación funcional a COGs

Dalevi et al, Bioinformatics 24, i7 (2008)

Page 22: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Turnbaugh et al, Nature 444, 1027-31 (2006)

Comparing metagenomes

Page 23: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Woyke et al, Nature 443, 950-5 (2006)Tyson et al. Nature 428, 37-43 (2004)

Finding relationships between community members

Page 24: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Sargasso Sea metagenomeMethod

E.coli assignment (2000 sequences)

Huson et al, Genome Res 17, 377 (2007)

Binning filogenético: MEGAN

Page 25: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Aproximaciones filogenéticas

Basadas en el estudio de la filogenia de la secuencia problema

Dificultades • Secuencias truncadas, no informativas para realizar la filogenia

• Filogenias ruidosas: Duplicaciones, HGT, diferentes tasas de mutación • Resolución limitada en la taxonomía

• Costosas computacionalmente

Aproximaciones al binning

Page 26: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Filogenia 16S Filogenia tetranucleótidos

AGAG AGAT AGGC ATTA CGTA GACC GATT … Seq1 0 0.14 0.14 0 0.14 0 0 …Seq2 0.12 0.02 0 0.05 0.11 0.02 0.08 …

Composición de las secuencias como vectores de oligonucleótidos

Métodos composicionales de binning

Page 27: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Clasificadores Bayesianos (Sanberg et al, Genome Res 2001, 11: 1404-9)

Modelos de Markov (Teeling et al, Env Microbiol 2004, 6: 938-47)

Mapas autoorganizativos (SOMs) (Abe et al, Genome Res 2003, 13, 693-702)

Métodos composicionales de binning

Máquinas de Soporte Vectorial (McHardy et al, Nature Methods 2007, 4, 63-72)

SOM (Abe et al, Genome Res 13, 693-702, 2003)

SVM: Phylopythia(McHardy et al, Nature Methods 2007, 4, 63-72)

Page 28: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Aproximaciónes composicionales

Basadas en el estudio de la composición de las secuencias

Dificultades • Secuencias cortas, por debajo de lo requerido por los métodos

• Se complica mucho en metagenomas complejos

• Confundidas facilmente por eventos de HGT

• Resolución limitada en el tiempo (pérdida de señal por amelioración)

Aproximaciones al binning

Page 29: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Detección de eventos de HGT

Tamames et al, BMC Genomics 9, 136 (2008)

Page 30: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

DNA

mRNA

Alta expresiónGenes muy activos

Baja expresiónGenes poco activos

Metatranscriptómica

Gen X

3’ 5’

Gen Y

3’

Genoma

Metagenoma

Met

atra

nscr

ipto

ma

(Gilbert)

(Frias-López)

Frias López et al, Proc Natl Acad Sci USA 105, 3805 (2008)

Gilbert et al, PLoS ONE 3, e3042 (2008)

Page 31: Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

• EnsamblajeVarios métodos ya desarrolladosBuenos resultados para metagenomas simples (en torno a 50% ensamblado)

Muy dificil para metagenomas complejos

• Predicción de genes Varios métodos ya desarrollados, con buenos resultados para la mayoría de casos

• Búsqueda de homologíasProblema computacional por la gran cantidad de datos. Supercomputación, grids

• Asignación funcionalMuy buena precisión, pero posible para menos de la mitad de genes

• BinningVarios métodos ya desarrolladosBuena precisión para secuencias largas (>5 Kb). Poco útiles en la práctica

• MetatranscriptómicaMétodos en desarrollo

Bioinformática para el estudio de metagenomas

Conclusiones