Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
NGS: Controle de qualidade e montagem de novo
Msc. Frederico Schmitt Kremer // doutorando PPGB
Worflow para NGS
DNA Biblioteca Sequenciador
Dados BrutosControle de Qualidade
Filtragem / Trimagem
Análises downstream
Montagem de novo
Expressão diferencial SNPs ...
Bibliotecas de NGS
Single-end
Sequenciamento de apenas uma das extremidades dos fragmentos da amostra.
Forma mais simples (e barata) de biblioteca.
Também denominada “biblioteca de fragmento”.
Paired-end
Sequenciamento de ambas as extremidades dos fragmentos da amostra.
Sequências podem ser sobreponíveis ou espaçadas.
Disponível para 454 e Illumina, sendo hoje o padrão de facto.
Paired-end
Mate-pair
Similar ao sequenciamento paired-end, mas com um espaçamento maior entre as leituras.
Mais cara, e com maior taxa de erros (false-mates).
Também denominada “jump library”.
Mate-pair
Que plataformas de NGS posso utilizar?
Ion Torrent Illumina
PacBio Nanopore
Segunda Geração
Terceira Geração
Comparados as plataformas
Comparados as plataformas
O que sai do sequenciador?
Basecalling
Os sequenciadores não lêem as sequências de DNA diretamente, mas sim grandezas físicas e/ou químicas, gerando assim dados brutos de sinais.
Posteriormente, estes sinais são processados a partir de algoritmos chamada de base (basecalling), podendo estes estarem implementador no próprio sequenciador, em um servidor ou na nuvem.
Basecalling e Phred Score (Q)
Durante a identificação das bases os algoritmos de base calling também identificação um grau de confiabilidade para elas.
Atualmente a medida mais utilizada para se definir a confiabilidade de uma base é o Phred Score (Q).
Sequenciamento capilar (ex: AB1)
AB1 e SCF são exemplos de formatos de arquivo de sequenciamento capilar.
Armazenam dados de cromatogramas, o que aumenta em muito seu tamanho e os torna inaplicáveis para NGS.
.FASTA + .QUAL
FASTQ (33, 64 e Sanger)
Outros formatos
csFASTA: Utilizando pela plataformas de sequenciamento SOLiD.
SFF: Utilizado pela plataforma de sequenciamento Roche 454 e pelas primeiras versões do Ion Torrent.
BAM: Utilizando atualmente pelo Ion Torrent.
HDF: Utilizando pelo Oxford Nanopore.
QC: Quality Controle
QC: Sequenciamento capilar
Poucas leituras → exequível mesmo que manualmente (uma por uma)
QC: NGS
milhões de leituras → impossível fazer manualmente
FastQC: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
mas … como corrigir os erros?
Trimagem: remover bases das extremidades.
Filtragem: remover leituras de baixa qualidade.
Clipping: remover adaptadores.
Masking: mascarar bases de baixa qualidade.
exemplos de programas: fastx-toolkit, trimmomatic ...
Prática de FastQC!
Arquivos para a prática:
Endereço: http://200.132.101.131/aula_rnaseq/datasets/
Arquivos: Lepto_1.fastq,
Lepto_2.fastq,
Lepto_RNA.fastq
E as análises downstream?
Ex: Montagem de novo
Reconstrução da sequencia original do genoma / transcriptoma se a utilização de uma sequência conhecida como referência.
É um processo computacionalmente complexo, e vários algoritmos foram desenvolvidos para dar conta deste problema.
Contigs: sequências contínuas geradas a partir da sobreposição de duas ou mais leituras.
Scaffolds: contigs conectadas por alguma informação (evidência de ligação).
Contigs e Scaffolds
Montagem: grafos de Bruijn
Estratégia baseada em k-mers desenvolvida para otimizar o processo de montagem de dados de NGS.
Exemplo de abordagem para montagem de novo de um transcriptoma de Leptospira interrogans (SRA:SRR1071259) usando o Oases, com k-mers de k=31:
$ velveth montagem/ 31 -short -fastq reads.fastq$ velvetg montagem/ -read_trkg yes$ oases montagem/
9 562 316 reads
3 911contigs
Mesmo transcriptoma usando o Trinity:
9 562 316 reads
3 704contigs
$ Trinity --seqType fq --max_memory 10G \ --single datasets/Lepto_RNA.fastq \ --output montagem_trinity --CPU 4
Como comparar montagens de um transcriptoma?
Comparar com um genoma de referência
rnaQUAST: oases vs. trinity (Leptospira interrogans strain L1-130)
METRICS/TRANSCRIPTS Oases Trinity
Transcripts 3911 3704 Transcripts > 500 bp 1114 1347 Transcripts > 1000 bp 483 597
Aligned 3892 3689 Uniquely aligned 3868 3633 Multiply aligned 7 31 Unaligned 19 15
Avg. aligned fraction 0.997 0.996 Avg. alignment length 519.728 649.23 Avg. mismatches per transcript 0.24 0.354
Misassemblies 17 25
Nx (Ex: N50, N75, N90 …)
Números de blocos (genes/exons)
Obrigado! ^^