NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

NGS: Controle de qualidade e montagem de novo

Msc. Frederico Schmitt Kremer // doutorando PPGB

Worflow para NGS

DNA Biblioteca Sequenciador

Dados BrutosControle de Qualidade

Filtragem / Trimagem

Análises downstream

Montagem de novo

Expressão diferencial SNPs ...

Bibliotecas de NGS

Single-end

Sequenciamento de apenas uma das extremidades dos fragmentos da amostra.

Forma mais simples (e barata) de biblioteca.

Também denominada “biblioteca de fragmento”.

Paired-end

Sequenciamento de ambas as extremidades dos fragmentos da amostra.

Sequências podem ser sobreponíveis ou espaçadas.

Disponível para 454 e Illumina, sendo hoje o padrão de facto.

Paired-end

Mate-pair

Similar ao sequenciamento paired-end, mas com um espaçamento maior entre as leituras.

Mais cara, e com maior taxa de erros (false-mates).

Também denominada “jump library”.

Mate-pair

Que plataformas de NGS posso utilizar?

Ion Torrent Illumina

PacBio Nanopore

Segunda Geração

Terceira Geração

Comparados as plataformas

Comparados as plataformas

O que sai do sequenciador?

Basecalling

Os sequenciadores não lêem as sequências de DNA diretamente, mas sim grandezas físicas e/ou químicas, gerando assim dados brutos de sinais.

Posteriormente, estes sinais são processados a partir de algoritmos chamada de base (basecalling), podendo estes estarem implementador no próprio sequenciador, em um servidor ou na nuvem.

Basecalling e Phred Score (Q)

Durante a identificação das bases os algoritmos de base calling também identificação um grau de confiabilidade para elas.

Atualmente a medida mais utilizada para se definir a confiabilidade de uma base é o Phred Score (Q).

Sequenciamento capilar (ex: AB1)

AB1 e SCF são exemplos de formatos de arquivo de sequenciamento capilar.

Armazenam dados de cromatogramas, o que aumenta em muito seu tamanho e os torna inaplicáveis para NGS.

.FASTA + .QUAL

FASTQ (33, 64 e Sanger)

Outros formatos

csFASTA: Utilizando pela plataformas de sequenciamento SOLiD.

SFF: Utilizado pela plataforma de sequenciamento Roche 454 e pelas primeiras versões do Ion Torrent.

BAM: Utilizando atualmente pelo Ion Torrent.

HDF: Utilizando pelo Oxford Nanopore.

QC: Quality Controle

QC: Sequenciamento capilar

Poucas leituras → exequível mesmo que manualmente (uma por uma)

QC: NGS

milhões de leituras → impossível fazer manualmente

FastQC: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

mas … como corrigir os erros?

Trimagem: remover bases das extremidades.

Filtragem: remover leituras de baixa qualidade.

Clipping: remover adaptadores.

Masking: mascarar bases de baixa qualidade.

exemplos de programas: fastx-toolkit, trimmomatic ...

Prática de FastQC!

Arquivos para a prática:

Endereço: http://200.132.101.131/aula_rnaseq/datasets/

Arquivos: Lepto_1.fastq,

Lepto_2.fastq,

Lepto_RNA.fastq

http://200.132.101.131/aula_rnaseq/datasets/

E as análises downstream?

Ex: Montagem de novo

Reconstrução da sequencia original do genoma / transcriptoma se a utilização de uma sequência conhecida como referência.

É um processo computacionalmente complexo, e vários algoritmos foram desenvolvidos para dar conta deste problema.

Contigs: sequências contínuas geradas a partir da sobreposição de duas ou mais leituras.

Scaffolds: contigs conectadas por alguma informação (evidência de ligação).

Contigs e Scaffolds

Montagem: grafos de Bruijn

Estratégia baseada em k-mers desenvolvida para otimizar o processo de montagem de dados de NGS.

Exemplo de abordagem para montagem de novo de um transcriptoma de Leptospira interrogans (SRA:SRR1071259) usando o Oases, com k-mers de k=31:

$ velveth montagem/ 31 -short -fastq reads.fastq$ velvetg montagem/ -read_trkg yes$ oases montagem/

9 562 316 reads

3 911contigs

Mesmo transcriptoma usando o Trinity:

9 562 316 reads

3 704contigs

$ Trinity --seqType fq --max_memory 10G \ --single datasets/Lepto_RNA.fastq \ --output montagem_trinity --CPU 4

Como comparar montagens de um transcriptoma?

Comparar com um genoma de referência

rnaQUAST: oases vs. trinity (Leptospira interrogans strain L1-130)

METRICS/TRANSCRIPTS Oases Trinity

Transcripts 3911 3704 Transcripts > 500 bp 1114 1347 Transcripts > 1000 bp 483 597

Aligned 3892 3689 Uniquely aligned 3868 3633 Multiply aligned 7 31 Unaligned 19 15

Avg. aligned fraction 0.997 0.996 Avg. alignment length 519.728 649.23 Avg. mismatches per transcript 0.24 0.354

Misassemblies 17 25

Nx (Ex: N50, N75, N90 …)

Números de blocos (genes/exons)

Obrigado! ^^

facebook: /frederico.schmittkremer

email: [email protected]

mailto:[email protected]

Documents

NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?