23
Tema 4: Secuenciación del Tema 4: Secuenciación del ADN (1) ADN (1) Lectura del ADN de los organismos Bioinformática Básica Bioinformática Básica Autor: Dr. Oswaldo Trelles- Universidad de Málaga Inicio Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles Autor: Dr. Oswaldo Trelles- Universidad de Málaga Número de créditos: 4 Área de conocimiento UNESCO: 24- Ciencias de la vida

Bioinformatica Basica

Embed Size (px)

Citation preview

Page 1: Bioinformatica Basica

Tema 4: Secuenciación del Tema 4: Secuenciación del ADN (1)ADN (1)

Lectura del ADN de los organismos

Bioinformática BásicaBioinformática BásicaAutor: Dr. Oswaldo Trelles- Universidad de Málaga

Inicio

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Autor: Dr. Oswaldo Trelles- Universidad de MálagaNúmero de créditos: 4

Área de conocimiento UNESCO: 24- Ciencias de la vida

Page 2: Bioinformatica Basica

El genoma o secuencia completa de ADNde un organismo constituye la informacióngenética heredable del núcleo celular, los

Introducción

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

genética heredable del núcleo celular, losplásmidos, la mitocondria y cloroplastos.

Secuenciar es determinar el orden en quese enlazan las bases de dicha secuencia.

Los tremendos avances de las técnicas desecuenciación del ADN permiten hoy en díaleer el ADN a gran velocidad lo que hallevado a abordar proyectos a gran escalacomo el Proyecto Genoma Humano. Peroademás se dispone ya de la secuenciacompleta de ADN de muchos genomas deanimales, plantas y microorganismos.

Page 3: Bioinformatica Basica

El genoma es el material genético almacenado en cada una de las células de un organismo.

El término “secuencia” designa la composición de nucleótidos de un trozo de ADN o la de aminoácidos de una proteína. Ese trozo de ADN puede corresponder a un gen, un genoma, o a una parte de ellos.

Como verbo, “secuenciar” es determinar la estructura de una secuencia de ADN, es decir, el tipo y orden de sus nucleótidos.

Definiciones (1)

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Todos los organismos vivos están compuestos de células, ycada una de ellas contiene toda la dotación genética (ADN)del organismo. Para obtener el genoma basta secuenciaruna sola copia del ADN, que en el caso humano es de unos3.400 millones de bases. Al ser de doble hebra se dicepares de bases (bp).

Curiosidades: El ADN es una molécula muy larga, que se enrolla en el interior de los microorganismos y núcleos celulares. Un adulto humano tiene aprox. entre 10 y 50 billones de células (1000'000'000'000) Si se desenrollara y pusieran en fila los cromosomas en cada una de ellas la longitud total del ADN sería de unos 2 metros. Si se sumara la longitud del ADN de todas las células de una sola persona se podría rodear la circunferencia terrestre 500,000 veces.

Page 4: Bioinformatica Basica

Un plasmido, es una pieza de ADN, pequeña y circular que se encuentra frecuentemente en bacterias. Esta molécula, debido a los genes que porta, puede por ejemplo ayudar a la bacteria a sobrevivir en presencia de un antibiótico.

Los plásmidos son importantes porque se pueden (1) aislar en grandescantidades, (2) cortar, dividir e insertarles cualquier pieza de ADN, (3)devolverlo nuevamente a la bacteria donde se replicarán junto con el ADNnativo y (4) ser aislados nuevamente, obteniéndose billones de copias delADN que se les insertó. Su tamaño varía entre los 2.5 y las 20 Kb

Definiciones (2)

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

BAC es el acrónimo de “Bacterial Artificial Chromosome” y en principio seusa como los plásmidos, pudiendo construir BAC que porten ADNhumano, de ratón, etc., e insertarlos en una bacteria que hace dehospedaje. Al igual que con los plásmidos, al proliferar la bacteria tambiénse replican los BACs. En este caso se trata de entre 100 a 400 kb quepueden ser replicadas fácilmente usando BACs y ésta ha sido una de lasformas en que se ha clonado grandes porciones del genoma humano

Page 5: Bioinformatica Basica

Las técnicas de recombinación del ADN permiten transferir parte de ADN de un organismo (normalmente el que se está estudiando) a otro más simple de manipular y reproducir, como una bacteria. Al reproducirse la bacteria se reproduce el trozo de ADN en estudio que luego se puede volver a separar (con lo que se tienen grandes cantidades de ADN) y estudiar en detalle.

[ 0 ] Las enzimas de restricción permiten la separación (corte) del ADN en posiciones específicas que reconoce (no necesariamente alineadas). La línea roja representa el punto de corte de una enzima sobre la insulina –a la izquierda- y el plásmido bacterial de E. Coli.

Para secuenciar necesitamos una buena cantidad de ADN, por lo que es necesariohacer muchas copias del mismo. Para ellos se usan bacterias que crecen y sedividen rápidamente, pero antes necesitamos incorporar el ADN a estudiar en ellas.

Recombinación del ADN

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

sobre la insulina –a la izquierda- y el plásmido bacterial de E. Coli.

[ 3 ] El vector de inserta en la célula e incorpora los genes que porta en el ADN de la célula[ 4 ] Si la célula acepta los genes extraños, los pasará a sus células hijas en el proceso de división celular

[ 1 ] El ADN queda separado en los puntos de corte exponiendo sus bases nitrogenadas

[ 2 ] Se usa ADN ligasa para unir el trozo de ADN de la insulina y del plásmido de E.Coli

Page 6: Bioinformatica Basica

Históricamente hay dos métodos de secuenciación del ADN• Maxam & Gilbert, o secuenciación química• Sanger, que usa dideoxynucleotidos.

Hoy en dia el Método Sanger es el más usado en los laboratorios (aparte de las técnicas de secuenciación masiva)

Sanger y Gilbert compartieron el Nobel de Química en 1980

Las reacciones para secuenciar el ADN son similares acualquier reacción PCR (Polimerasa Chain Reaction). Lamezcla incluye una muestra de ADN, nucleótidos libres,

¿Cómo se secuencia el ADN?

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

mezcla incluye una muestra de ADN, nucleótidos libres,una enzima (generalmente una variante de la Taqpolimerasa) y un “primer” (una pieza pequeña –de 20 a 30nt- de ADN de una sola hebra) que se pueda es capaz dehibridar con una de las hebras de la muestra de ADN.

Se calienta la mezcla para separar las dos hebras de ADN,lo que permite que el “primer” se ligue a la zona deseada yla ADN-polimerasa inicie la elongación del primer.

Si el trabajo se realizara sobre una muestra de un billón decopias idénticas de ADN se obtendría un billón de copiasde una de sus hebras.

Page 7: Bioinformatica Basica

En el método Sanger sin embargo, las reacciones se realizan en presencia de un dideoxyribonucleotido. Éste es como cualquier ADN regular, salvo que no tiene el grupo hidroxil 3', por lo que, una vez que se añade al final de una cadena de ADN, no tiene forma de continuar su crecimiento

Los dideoxynucleotidos son moléculas similares a los nuclétidos normales pero les falta un grupo –OH lo que impide que otros nucleótidos se unan a él deteniendo la replicación del ADN.

El método Sanger (1)

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Haciendo un símil con las piezas de un puzzle (4 tipos de piezas que serían los nucleótidos normales que se unen para formar el ADN), los dinucléotidos de los cuales también hay cuatro tipos (ACGT) les falta un borde y por lo tanto no permiten que una nueva pieza se enganche a él, deteniendo la replicación del ADN.A la izquierda se muestra un conjunto de piezas normales, cuyo perfil se dibuja al lado. A la derecha la representación de lo que sería su correspondiente dinucleótido

Page 8: Bioinformatica Basica

La clave del método está en que la mayor parte de losnucleótidos son regulares y que solo una pequeñafracción de ellos son dideoxy nucleotides.

Así al replicar hebras de ADN en presencia de dideoxy-T,la mayor parte de las veces cuando se necesite una 'T'para la nueva hebra, la enzima encontrará una Tcorrecta, y la replicación continuará añadiendo másnucleótidos.

Sin embargo, un porcentaje de las veces (proporcional ala cantidad de dideoxy-T que se haya incluido) la enzima

El método Sanger (2)

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

la cantidad de dideoxy-T que se haya incluido) la enzimacolocará un ddT y el crecimiento de la hebra se detendrá.

La Electroforesis en Geles se usa para separar fragmentos por su tamaño.

Los productos de una determinada reacción (hebras de diferente tamaño) secolocan en el gel y se induce su movimiento por carga eléctrica.

Los fragmentos pequeños se mueven poco (poca carga) mientras que los mayoresaparecen en la parte superior.

Ahora con un dispositivo capaz de leer imágenes (o geles) como un escáner yestimando la carga de los fragmentos es posible deducir las posiciones de lasTiminas (T) en la secuencia original.

Page 9: Bioinformatica Basica

Al colocarse los trozos replicados en el gel se observauna figura como la de la izquierda (en la que se hacoloreado cada nucleótido).

Para secuenciar ADN, se hace la reacción enpresencia de pequeñas cantidades de los 4terminadores dideoxi. Luego se usa un gel paraseparar los resultados y a partir de él se lee lasecuencia usando el código de colores (usualmenterojo, verde, azul y amarillo) con que se han marcadolos dd. Pueden haber hasta 96 pistas de muestrascorriendo en un gel , que podría llegar a tener entre 3y 4 metros de largo por unos 30 a 40 cms. de ancho.

El método Sanger (3)

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

y 4 metros de largo por unos 30 a 40 cms. de ancho.

El espacio entre bandas no es tan claro como seríadeseable, sino que aparece más como en la figura

El ordenador interpreta la imagen de cada pista del gelobteniendo la intensidad media de cada fila/columnacolor dominante que permite deducir de quenucleótido se trata.De esta forma se reconstruye la secuencia de ADN enlecturas de fragmentos alrededor de 700 nucleótidos.

Page 10: Bioinformatica Basica

Secuenciación con tecnologías de alto rendimiento (HTS)Applied Biosystems ABI 3730XL1 Mb / day

Roche / 454 Genome Sequencer FLX

100 Mb / run

Para hacernos una idea de la rapidez con que evoluciona la tecnología, observemos en las figuras el ABI-3730 de Applied Biosystems, posiblemente el más utilizado en la secuenciación del genoma Humano, con una capacidad de 1 Mb por día (Un millón de bases).

El AB-SOLID actual, en menos de 10 años ha multiplicado por 1000 la capacidad de secuenciación

Secuenciación con tecnologías de alto rendimiento

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Applied BiosystemsSOLiD3000 Mb / run

Illumina / Solexa Genetic Analyzer2000 Mb / run

Un genoma bacteriano tiene aproximadamente 6.5 MB (millones de bases de DNA).

En algo más de dos días es posible, con uno solo de estos secuenciadores, leer alrededor de 30 millones de pares de bases (30 M bp) a un ritmo de 140 bp por segundo y a un costo aproximado de $0.11 por KB (kilo bases o miles de bases). Con ello tendríamos 5 lecturas para comprobar.

Page 11: Bioinformatica Basica

Next Generation Sequencing(NGS)

Illumina / Solexa Genome Analyzer

Aplicaciones

� Identificación de anormalidades cariotípicas, tales como: trisomía, monosomía, deleciones e inversiones (cariotipado molecular)

Next Generation Sequencing

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Números de Solexa8 pistas en cada flowCell3 columnas por pista110 posillos por columna1 adquisición (imágenes) por ciclo36 ciclos1 imagen por cada base (4 bases)350x350 resolución4 MB por cada imagen

8 x 3 x 110 x 36 x 4 x 2 MB = 760 GBytes

(cariotipado molecular)

� Nuevas técnicas de diagnóstico

� Mejorar el conocimiento sobre:

� Los mecanismos de regulación del desarrollo humano

� La biología de sistemas en las células humanas

� Demanda y cobertura de nuevos métodos bioinformáticos, por ejemplo para estimar las alteraciones del ADN (DNA Aberrations –Copy Number Variations -CNVs) usando arrays de SNPs y secuencias (NGS)

Page 12: Bioinformatica Basica

En una primera etapa se lee el espectrograma para identificar las bases del ADN de cada fragmento. Según la tecnología usada, la longitud de los fragmentos va de unas pocas decenas de bases a algunos cientos.

Armando el puzzle

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Y mediante un proceso exhaustivo y largo se van alineando los fragmentos y mediante el solapamiento se van estirando o alargando los fragmentos... la secuencia empieza a tomar forma

Page 13: Bioinformatica Basica

Para poder completar genomas es necesario ensamblar las piezas.

El ensamblaje de los fragmentos de ADN para reconstruir la secuencia completa original se utilizan programas de ordenador.

Estos programas realizan el encaje de fragmentos basado en el solapamiento de los mismos.

Ensamblando los fragmentos

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Se dan casos en que dos grupos de “contigs” (fragmentos similares) encuentran otros fragmentos que solapan entre ellos permitiendo unir los “contigs” y así ir estirando la secuencia.

En otros casos no es posible encontrar esas secuencias entremedias y aparecen los huecos o gaps sin secuenciar

Page 14: Bioinformatica Basica

Como se ha mencionado, para el ensamblaje de los fragmentos de ADN para reconstruir la secuencia completa original se utilizan programas de ordenador que realizan el encaje de fragmentos basado en el

SSSSoftware para ensamblado del ADN

Phred / Phrap /ConsedPhred / Phrap /Consed

Software para ensamblado del ADN

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

completa original se utilizan programas de ordenador que realizan el encaje de fragmentos basado en el solapamiento de los mismos.

Aunque estos programas están sufriendo una tremenda actualización para resolver los problemas técnicos que plantea el manejo de los datos de la secuenciación masiva, conceptualmente representan los pasos a seguir.

Las particularidades del software, su interfaz, etc. Es simple de entender si se entiende que es lo que hace o debe hacer cada programa.

Page 15: Bioinformatica Basica

Phred/Phrap/Consed es un paquete de software utilizado para:

• Leer cromatogramas (trace files)• Asignar valores de calidad a las bases individuales de una secuencia• Identificar y enmascarar secuencias correspondientes a vector (plásmido) o

secuencias repetitivas

Qué es phred/ phrad/ consed?

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

secuencias repetitivas• Ensamblar secuencias individuales en contigs• Visualizar assemblies (contigs)• Hacer ‘sequence finishing’ auto dirigido (automatic finishing o finalización

automática)

Más información en : www.phrap.org

Page 16: Bioinformatica Basica

• Los métodos actuales de secuenciación generan lecturas de 300-1000 pb (límite de resolución de la electroforesis)

• Para secuenciar un genoma, o cualquier segmento largo de DNA(cromosomas) hay que fragmentarlo produciendo bibliotecas declones.Clone library

pUC18

Small fragments1.0 - 2.0 kb

DNA fragmentationsonic disruption

nebulization

Whole genomeBAC/cosmid clone

Por qué hay que ensamblar

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

• En la estrategia conocida como ‘shotgun sequencing’ los clonesse seleccionan al azar, se obtienen lecturas de los extremos y seensamblan para obtener la secuencia final

Whole genomeBAC/cosmid clone

final consensus sequence

Finishingquality

both stands coveragegap filling

Partial Assemblycontigs

DNA sequencingrandom clones

El workflow o flujo de trabajo muestra las etapas en un proyecto de secuenciación

Page 17: Bioinformatica Basica

Phred realiza las siguientes tareas:

• Lee cromatrogramas, compatible con diversos formatos: SCF (standard chromatogram format), ABI (373/377/3700), ESD (MegaBACE) y LI-COR.

• Identifica cada base asignando atributos a cada una de ellas (pico en la lectura) con una tasa de error

Phred: el identificador de bases (basecaller)

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Genome Res 8 (1998): 175Genome Res 8 (1998): 186

lectura) con una tasa de error razonablemente baja.

• Asigna valores de calidad a cada base –el valor “Phred” en base a la estimación del error calculado para cada base.

• Crea un fichero con los resultados: base y calidad.

Page 18: Bioinformatica Basica

Phrap ensambla secuencias de DNA obtenidas en los proyectos de secuenciación al azar (shotgun: a “perdigones” literalmente)

Usa la información de calidad provista por phred

no hay necesidad de recortar las secuencias

Puede usar bibliotecas de secuencias repetitivas (por ej Repbase) o usar datos sobre repeticiones calculadas internamente

Phrap: el ensamblador

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Mejor calidad de los resultados en presencia de repeticiones

La secuencia final (contig) es un mosaico formado por las regiones de mejor calidad de cada secuencia

No es un consenso!

Puede manejar grandes conjuntos de datos (del orden de cientos de miles de secuencias)

Page 19: Bioinformatica Basica

Consed: el finalizador

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

• Genome Res 8 (1998): 195

Page 20: Bioinformatica Basica

La secuencia de nuestro genoma es 99.9% idéntico al de cualquier otro ser humano. La diferencia del 0.1% (3 millones de bases) está representada por:

... AAACGTCTA ...

... AAAC-TCTA ...

... AAACGTCTA ...

... AAAGCTCTA ...

... AAACGTCTA ...

... AAACATCTA ...

Inserciones / deleciones, Inversiones y Polimorfismos de una sola

Aplicaciones (1)

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Inserciones / deleciones, Inversiones y Polimorfismos de una sola base “Single Nucleotide Polymorphisms o SNPs”

Cómo se detectan?: Por comparación de AND genómico proveniente

de distintos individuos (proyectos genoma)

Page 21: Bioinformatica Basica

Identificación de genes relacionados con enfermedades genéticas:– Mayor rapidez– Enfermedades multigénicas (SNPs)• Diabetes• Esquizofrenia• Identificación y/o localización de genes de interés agronómico o veterinario.• Desarrollo de vacunas Farmacogenómica• Uso de estrategias derivadas de la genómica para descubrir nuevos blancos terapéuticos• Identificar los genes que determinan la eficacia y toxicidad de medicamentos específicos

Aplicaciones (2)

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Test de Paternidad:Comparando la secuencia de ADN de madre e hijo es posible identificar fragmentos en el ADN del hijo que no aparecen en la madre y por tanto deben haber sido heredados del padre. Se comparan estos fragmentos adquiridos por via paterna con el ADN del sujeto del test.

específicosFarmacogenómica (II)• Medicina personalizada– Determinar el perfil genético de cada individuo en cuanto a la sensibilidad a una determinada droga– Genes polimórficos involucrados en: metabolismo, transporte, blanco específicos, receptores, enzimas, etc.Bases de datos útileshttp://www.ncbi.nlm.nih.gov/http://www.ncbi.nlm.nih.gov/Genomes/index.html

Page 22: Bioinformatica Basica

Me animo a recomendar una lectura no-científica escrita por uno de los científicos que más ha contribuido a secuenciar el genoma humano; Craig Venter.

El capítulo 5 de su libro “A life decoded. My Genome: My life” (“La vida descodificada” en español en la Ed. Espasa-Calpe, 2008), contiene, entre otras cosas, una descripción detallada del proceso de secuenciación de un genoma.

Estoy seguro que incluso os animará a leer el libro completo.

Propuesta final

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

Estoy seguro que incluso os animará a leer el libro completo.

CCCConsulta estos materiales para completar tus conocimientos

Page 23: Bioinformatica Basica

¡Enhorabuena!¡Enhorabuena!Ha finalizado la presentación. Ha finalizado la presentación.

Le invitamos a seguir avanzando Le invitamos a seguir avanzando en el cursoen el curso

Fin

Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles

en el cursoen el curso