9
Técnicas de análisis genético- NGS MÓDULO 1: GENÓMICA EN ONCOLOGÍA CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS APLICACIONES CLÍNICAS Material didáctico: Módulo 1-Clase 4 Material didáctico creado por Mar Benito, MSc https://www.linkedin.com/in/marbenito/

Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

Técnicas de análisis genético- NGS

MÓDULO 1: GENÓMICA EN ONCOLOGÍA

CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS

APLICACIONES CLÍNICAS

Material didáctico: Módulo 1-Clase 4

Material didáctico creado por Mar Benito, MSc https://www.linkedin.com/in/marbenito/

Page 2: Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

Técnicas de análisis genético- NGS

Material didáctico: Módulo 1 - Clase 4

CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS APLICACIONES CLÍNICAS Página 0

ÍNDICE

MÓDULO 1: GENÓMICA EN ONCOLOGÍA

Clase 1.4: Técnicas de análisis genético- NGS

Profesor: Dr. Carlos Mackintosh

1. INTRODUCCIÓN ......................................................................................................................... 1

2. TECNOLOGÍAS NGS .................................................................................................................... 1

3. GLOSARIO NGS .......................................................................................................................... 2

4. NGS DE SEGUNDA GENERACIÓN ............................................................................................... 2

5. NGS DE TERCERA GENERACIÓN ................................................................................................ 5

6. APLICACIONES Y CONCEPTOS CLAVE EN NGS ........................................................................... 6

Page 3: Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

Técnicas de análisis genético- NGS

Material didáctico: Módulo 1 - Clase 4

CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS APLICACIONES CLÍNICAS Página 1

1. INTRODUCCIÓN

El proyecto Genoma Humano se desarrolló durante más de una década y costo miles de

millones de dólares. Aquí se vio que la secuenciación Sanger que existía desde los 70 no era

capaz de afrontar la secuenciación de grandes partes del genoma. La secuenciación Sanger

fue evolucionando, se hacían máquinas cada vez más grandes, que podían procesar 96

muestras en paralelo y dar una información de 1 MB al día. En 2007 apareció la NGS y

bajaron muchísimo los precios.

Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la

secuenciación del genoma humano, y la resecuenciación, que es lo que se hace hoy en día

con las técnicas NGS de segunda generación.

DIAPOSITIVAS 2-6

2. TECNOLOGÍAS NGS

Actualmente se utilizan tecnologías de segunda y tercera generación.

La primera generación de la secuenciación era en paralelo pero no era masiva, se tenían que

crear cultivos bacterianos con BACs, etc., y no era factible para grandes genomas.

Antes de la secuenciación por NGS hay que hacer una preparación de librería, le damos a la

secuencia problema una estructura y creamos unas secuencias de apoyo para que la

máquina la pueda leer. En este paso hay que fragmentar el ADN, reparar los extremos, y en

las técnicas de segunda generación, hay que hacer una amplificación clonal en soporte

sólido. Las máquinas de segunda generación no tienen la capacidad de leer una sola molécula,

por eso hay que hacer este paso de amplificación. Después de esto se deposita la librería

amplificada sobre la superficie sobre la que vamos a leer. Se pone la librería sobre una

especie de microcámara microfluídica que permite la entra y salida de reactivos en un

volumen muy pequeño.

Las dos tecnología más comunes para la fragmentación del ADN son la sonicación (física) y

la tagmentación (enzimática con transposasas). En la tagmentación las transposas cortan y

ya empalman los adaptadores (diapositiva 11).

Durante todo el proceso de la creación de librerías tenemos que tener un control de calidad.

Para ello se utiliza mucho una máquina que se llama Qubit, que es un fluorímetro, y que es

capaz de medir la concentración de ADN con mucha precisión intercalando un fluorocromo.

Page 4: Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

Técnicas de análisis genético- NGS

Material didáctico: Módulo 1 - Clase 4

CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS APLICACIONES CLÍNICAS Página 2

También puede distinguir entre ADN y ARN, y ADN de cadena simple o doble, y ARN de

cadena simple o doble.

Otra técnica que se utiliza para el control de calidad es la electroforesis capilar, que puede

trabajar con concentraciones de ADN muy bajas, y nos da la concentración y el tamaño del

ADN.

DIAPOSITIVAS 7-12

3. GLOSARIO NGS

- Lectura o read: son cada una de las secuencias que nos da el secuenciador.

- Librería: ADN ya procesado y que está listo para ser leído.

- Multiplex: poner muchas muestras en paralelo en el secuenciador.

- Barcoding: es una pequeña secuencia de 8 nucleótidos que sirve para identificar cada

muestra dentro de una librería. Aunque se secuencien todas las muestras juntas al final

tenemos un archivo con la secuencia identificada de cada muestra.

- Paired-end sequencing: tenemos que diferenciar si estamos leyendo desde los dos extremos

o solo desde uno. El pair-end es la secuenciación desde los dos extremos, esto nos permite

alinear mejor y discriminar ciertas variantes tipo indel y variaciones estructurales. En la

segunda generación de NGS se ven muy mal estos tipos de variantes.

- Duplicados: son frecuentes en la NGS de segunda generación. No es lo mismo leer la

molécula original que las copias que se han amplificado por PCR. Tenemos que eliminar las

duplicaciones porque si no podemos tener un sesgo en la estimación de la fracción alélica.

- Cobertura o profundidad de lectura: este parámetro nos indica cuantas veces estamos

leyendo posición. Hay que leerla muchas veces porque cada secuenciador tiene una tasa de

error asociada, y esta es la manera de determinar si la variación está presente o no. Cada

aplicación tiene su estándar, por ejemplo, en cáncer se está yendo a una cobertura media de

1000X y una cobertura mínima de 200X.

DIAPOSITVAS 13-15

Page 5: Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

Técnicas de análisis genético- NGS

Material didáctico: Módulo 1 - Clase 4

CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS APLICACIONES CLÍNICAS Página 3

4. NGS DE SEGUNDA GENERACIÓN

En la NGS de segunda generación se necesita hacer una PCR para tener la suficiente señal

para la detección. Esta PCR nos impone una restricción de tamaño, porque solo se pueden

hacer lecturas pequeñas.

La primera tecnología NGS que trabajaba con pirosecuenciación, la 454, fue inventada en

2005 por el grupo de Jonathan Rothberg, y fue comprada por Roche. Esta tecnología ya ha

sido superada y ya no se usa.

En la segunda generación de NGS la amplificación clonal en superficie sólida se puede

hacer de dos maneras:

- Ion Torrent. La amplificación clonal se hace sobre la superficie de una bolita con oligos. Se

hacen microreacciones en emulsiones de aceite en agua. Cada molécula va a capturar una de

las moléculas de la librería y la va a amplificar, de manera que la bolita quedará recubierta de

miles de copias de la molécula original. En la diapositiva 19 se puede ver este tipo de PCR de

forma más detallada.

- Illumina. La amplificación se da sobre la misma superficie en la que se va a llevar a cabo la

secuenciación. Es lo que se llama una PCR en puente, los oligos complementarios a los dos

adaptadores están pegados a la superficie, y el ADN sintetizado se va doblando haciendo

puentes entre los adaptadores. Al final tenemos una amplificación en forma de clon o cluster

(diapostiva 18). En la diapositiva 20 se muestra este tipo de PCR de forma más detallada.

Hay tecnologías nuevas que ya están haciendo la amplificación clonal sin soporte sólido. Por

ejemplo, la tecnología de Complete Genomics que compró BGI, hace una amplificación en

solución mediante un ADN circular, que acaba formando una nanobola.

DIAPOSITVAS 17-21

Page 6: Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

Técnicas de análisis genético- NGS

Material didáctico: Módulo 1 - Clase 4

CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS APLICACIONES CLÍNICAS Página 4

Para la secuenciación se llevan a cabo ciclos de adición de dNTPs. La máquina tira dNTPs y

lee lo que pasa cada vez, en cada ciclo se avanza una posición.

- Ion Torrent. La bolita que teníamos con millones de copias se deposita sobre un soporte.

Cada bolita entra en un micropocillo, en los que fluyen los reactivos. Debajo de cada pocillo

hay un sensor de pH, que transforma el pH del pocillo en voltaje. Cuando la polimerasa

incorpora un nucleótido se forma un pirofosfato y un protón, como tenemos muchas

moléculas, se generarán millones de protones. Esto genera un cambio de pH que se traduce

en voltaje. Como sabemos que nucleótido se ha incorporado cada vez, porque solo se pone

un tipo de nucleótido por ciclo, la máquina puede ir leyendo. Se van haciendo ciclos con

lavados en medio, y así se puede leer toda la secuencia.

El problema que hay aquí es que con la adición de un solo nucleótido, por ejemplo, si hay 8

timidinas seguidas, la máquina no diferencia bien si son 6, 7 u 8. Esto se llama alto error de

homopolímero.

Este tipo de tecnología está muy extendida porque es muy rápida. Una carrera tarda dos

horas y media, y puede leer 400 pb. Hay aplicaciones clínicas que necesitan un resultado

muy rápido, por ejemplo, las enfermedades infecciosas y el cáncer.

En la diapositiva 24 se muestra una tabla comparativa de todas las máquinas de Ion Torrent,

de un artículo de 2016 de Nature Reviews Genetics.

DIAPOSITIVAS 22-24

- Illumina. Aquí partimos de los clones amplificados sobre la superficie de lectura, se aplica la

tecnología de total internal reflection fluorescence (TIRF) microscopy, que es capaz de

identificar la incorporación de fluorocromos en los clusters. Se van haciendo ciclos de adición

de nucleótidos, cada vez se ponen los cuatro dNTPs, marcados con fluorocromos diferentes.

El microscopio mira en cada ciclo que color hay en cada cluster. En estos nucleótidos que se

añaden, el extremo 3' está bloqueado, así se elimina la posibilidad de error de homopolímero.

Este bloqueo es reversible, entre ciclo y ciclo se añade el reactivo TCEP, que desbloquea el

extremo 3' para que se pueda seguir con la lectura.

En la diapositiva 27 se muestra un vídeo oficial de Illumina en el que se ve en 3D todo el

proceso.

Illumina domina todo el mercado de la secuenciación de segunda generación. Es una técnica

muy fiable y contrastada, con una alta precisión, y que ya lleva muchos años. Tiene muchas

máquinas diferentes para todas las necesidades. Se pueden leer 75 pb desde un extremo y

Page 7: Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

Técnicas de análisis genético- NGS

Material didáctico: Módulo 1 - Clase 4

CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS APLICACIONES CLÍNICAS Página 5

300 pb desde ambos extremos. Cuanto más queramos leer, más tarda porque son ciclo

aditivos. Si se quieren leer 300 pb se tarda 56 horas.

En la diapositiva 29 se muestra una tabla con las características de las diferentes máquinas

de Illumina.

DIAPOSITIVAS 25-29

En resumen, la NGS de segunda generación:

- es una tecnología lenta

- conlleva PCR

- es muy precisa

- no resuelve bien indels y variaciones esturcturales

- tiende a haber un error al final de la secuencia por el desfase de las cadenas

- son aparatos muy grandes

DIAPOSITIVAS 30 Y 31

5. NGS DE TERCERA GENERACIÓN

Esta tecnología todavía no está muy implantada. En este caso no se hace PCR, sino que se

leen directamente las moléculas originales, esto hace que las lecturas sean muy largas. La

empresa Pacific Bioscience ha desarrollado la tecnología single-molecule-real-time. En esta

técnica hay pocillos que al fondo tienen una polimerasa. El ADN cicular va pasando por la

polimerasa que va a ir incorporando dNTPs marcados con fluorocromo. Hay un

microscopio que es capaz de ver solo lo que pasa en el fondo del pocillo, y va a detectar en

cada momento que nucleótido se está incorporando. El fluorocromo está unido al final del

pirofosfato, de manera que cuando se incorpora un nucleótido se lee la fluorescencia en ese

momento y luego el fluorocromo se va.

Estas tecnologías todavía tienen una tasa muy alta de error en la lectura. Pac. Bio. Resuelve el

tema del 15% de error leyendo una y otra vez el ADN circular, lo que da una mayor precisión.

Page 8: Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

Técnicas de análisis genético- NGS

Material didáctico: Módulo 1 - Clase 4

CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS APLICACIONES CLÍNICAS Página 6

Las lecturas de Pac. Bio. son de 10-15 Kb de media, dependiendo del tiempo que queramos

estar leyendo y de como fragmentemos el ADN de partida. La velocidad de secuenciación de 3

pb por segundo, lo que es un avance muy importante respecto a la segunda generación.

Hay dos máquinas de esta empresa en el mercado, que se están utilizando principalmente

para el ensamblado de novo.

La empresa Oxford Nanopore, en su tecnología no utiliza ADNpolimerasa, sino que se

basa en un poro de membrana de E.Coli, unido una proteína motor translocadora de

moléculas con mucha afinidad por el ADN. El poro está insertado en una membrana

sintética, parecida a una membrana celular, que separa dos espacios con distinta

concentración de iones. Los iones pasan libremente por el poro, pero cuando hay ADN se

obstruye la corriente de forma proporcional a la secuencia que está pasando. Ahora mismo

se está ajustando el algoritmo para la lectura de la secuencia, de manera que se puedan

diferenciar las bases metiladas, y abrir así puerta directamente a la lectura epigenética.

También se podrán secuenciar directamente el ARN y las proteínas.

En la diapositiva 37 se muestra un vídeo en 3D de esta técnica.

La secueciación mediante esta tecnología va a 500 pb por segundo. La precisión ha

aumentado hasta un 97% y va aumentar más, porque se está invirtiendo mucho dinero en

esta tecnología. Están desarrollando secuenciadores de distintos tamaños, tienen uno que

cabe en la palma de la mano, se puede enchufar a un portátil, y la secuenciación es en tiempo

real. Cuando hubo la epidemia de ébola en África se llevaron estos secuenciadores en los

hospitales de campaña, y en menos de 2 minutos se podía detectar el virus del ébola. Esto se

utilizó para caracterizar las distintas cepas.

DIAPOSITIVAS 33-38

En resumen, la NGS de tercera generación:

- es mucho más rápida que la de segunda generación.

- tiene unas lecturas muy rápidas, por encima de 500 Kb. Esto permitirá resolver genes muy

variables con haplotipos muy complejos, resolver la variación estructural (translocaciones,

inversiones, indels grandes, etc.).

- el mayor problema a día de hoy es que el error es bastante alto, comparado con el de la

segunda generación.

- las máquinas se están haciendo cada vez más pequeñas. Van a sacar un aparato que

permitirá secuenciar y almacenar la secuencia directamente en el teléfono móvil.

Page 9: Técnicas de análisis genético- NGS · 2020-01-15 · Hay que diferenciar entre el ensamblaje de novo de un genoma, que es lo que se hizo en la secuenciación del genoma humano,

Técnicas de análisis genético- NGS

Material didáctico: Módulo 1 - Clase 4

CURSO DE MEDICINA GENÓMICA EN ONCOLOGÍA Y SUS APLICACIONES CLÍNICAS Página 7

DIAPOSITIVAS 39 Y 40

6. APLICACIONES Y CONCEPTOS CLAVE EN NGS

Las aplicaciones del NGS son innumerables.

Actualmente no se secuencian genomas enteros, lo máximo que se hace es el exoma, que en

total es un 2% del genoma. Para secuenciar solo la parte que nos interesa del genoma se

tiene que hacer una captura o enriquecimiento (target enrichment) de esa zona, para ello se

han desarrollado muchas tecnologías, aunque hoy en día hay dos que son las más

extendidas.

1. Targent enrichment por captura por hibridación: imaginemos que queremos la secuencia

codificante de 20 genes. Vamos a un fabricante y nos sintetizará sondas de ARN o ADN de

80-120 pb, s al final con biotina. A continuación cogeremos el ADN que queremos

secuenciar y lo hibridaremos con estas sondas, y así capturaremos la librería que nos

interesa. Después introducimos bolitas de estreptavidina, que tiene una alta afinidad por la

biotina, y así podremos aislar lo que ha hibridado con las sondas, que es lo que queremos

secuenciar (diapositiva 44). Esta tecnología se suele asociar a Illumina

2. Targent enrichment por captura por amplicones: básicamente son PCR multiplex

(diapositiva 45). Decimos al fabricante cuales son nuestras secuencias de interés, y ellos nos

optimizan una PCR multiplex. El producto de PCR que se obtiene, con unas pocas

modificaciones, ya está listo para secuenciar. El exoma entero se puede hacer con 24.000

PCR por tubo, y 8 tubos en total (Ion Torrent).

En la diapositiva 46 se muestran los pros y los contras de estos dos sistemas de captura.

La PCR permite partir de muy poca cantidad de ADN, mientras que la captura por

hibridación tiene una cobertura más homogénea. En los dos casos hay regiones que se

capturan mejor que otras.

Antes de empezar a secuenciar es muy importante saber que tecnología y que protocolo

vamos a utilizar.

DIAPOSITIVAS 42-46