21
1 Fernán Agüero Phred / Phrap /Consed Genome/Sequence Assembly Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín [email protected]

Phred / Phrap /Consed Genome/Sequence Assembly

Embed Size (px)

DESCRIPTION

Phred / Phrap /Consed Genome/Sequence Assembly. Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín [email protected]. Qué es phred/phrap/consed?. Phred/Phrap/Consed es un paquete de software utilizado para: - PowerPoint PPT Presentation

Citation preview

Page 1: Phred / Phrap /Consed Genome/Sequence Assembly

1 Fernán Agüero

Phred / Phrap /ConsedGenome/Sequence Assembly

Fernán AgüeroInstituto de Investigaciones BiotecnológicasUniversidad Nacional de General San Martín

[email protected]

Page 2: Phred / Phrap /Consed Genome/Sequence Assembly

2 Fernán Agüero

Qué es phred/phrap/consed?

Phred/Phrap/Consed es un paquete de software utilizado para:

• Leer cromatogramas (trace files)• Asignar valores de calidad a las bases individuales de una

secuencia• Identificar y enmascarar secuencias correspondientes a vector

(plásmido) o secuencias repetitivas• Ensamblar secuencias individuales en contigs• Visualizar assemblies (contigs)• Hacer ‘sequence finishing’ auto dirigido (automatic finishing)

www.phrap.org

Page 3: Phred / Phrap /Consed Genome/Sequence Assembly

3 Fernán Agüero

Por que hay que ensamblar?

• Los métodos actuales de secuenciación generan lecturas de 300-1000 pb (límite de resolución de la electroforesis)

• Para secuenciar un genoma, o cualquier segmento largo de DNA (cromosomas) hay que fragmentarlo (bibliotecas de clones)

• En la estrategia conocida como ‘shotgun sequencing’ los clones se seleccionan al azar, se obtienen lecturas de los extremos y se ensamblan para obtener la secuencia final

W hole genomeBAC/cosm id clone

f in a l con sen sus seq u en ce

Finishingq u a lity

b o th s ta n ds covera geg a p f illing

Partial Assem blyco n tigs

DNA sequencingra n d om clo n es

Clone libraryp U C 18

Sm all fragm ents1 .0 - 2 .0 kb

DNA fragm entationso n ic d is rup tion

n e bu liza tion

W hole genomeBAC/cosm id clone

Page 4: Phred / Phrap /Consed Genome/Sequence Assembly

4 Fernán Agüero

Phred: a basecaller

• Genome Res 8 (1998): 175• Genome Res 8 (1998): 186

Page 5: Phred / Phrap /Consed Genome/Sequence Assembly

5 Fernán Agüero

Phred

• Phred is a program that performs several tasks: – Reads trace files – compatible with most file

formats: SCF (standard chromatogram format), ABI (373/377/3700), ESD (MegaBACE) and LI-COR.

– Calls bases – attributes a base for each identified peak with a lower error rate than the standard base calling programs.

– Assigns quality values to the bases – a “Phred value” based on an error rate estimation calculated for each individual base.

– Creates output files – base calls and quality values are written to output files.

Page 6: Phred / Phrap /Consed Genome/Sequence Assembly

6 Fernán Agüero

Trace files

• Alta calidad, sin ambigüedad

Page 7: Phred / Phrap /Consed Genome/Sequence Assembly

7 Fernán Agüero

Trace files

• Calidad media, algunas ambigüedades

Page 8: Phred / Phrap /Consed Genome/Sequence Assembly

8 Fernán Agüero

Trace files

• Baja calidad– la confianza en la asignación de bases es menor

Page 9: Phred / Phrap /Consed Genome/Sequence Assembly

9 Fernán Agüero

Phred qualities

q = - 10 x log10 (p)

Donde:• q = quality value• p = estimated probability error for a base call

Ejemplos:• q = 20 significa p = 10-2 (1 error cada 100 bases) • q = 30 significa p = 10-3 (1 error cada 1000 bases)• q = 40 significa p = 10-4 (1 error cada 10000 bases)

Page 10: Phred / Phrap /Consed Genome/Sequence Assembly

10 Fernán Agüero

Phred: PHD files

BEGIN_SEQUENCE 01EBV10201A02.g

BEGIN_COMMENT

CHROMAT_FILE: EBV10201A02.gABI_THUMBPRINT: PHRED_VERSION: 0.990722.gCALL_METHOD: phredQUALITY_LEVELS:99TIME: Thu May 24 00:18:58 2001TRACE_ARRAY_MIN_INDEX: 0TRACE_ARRAY_MAX_INDEX: 12153TRIM: CHEM: termDYE: big

END_COMMENT 

BEGIN_DNAt 8 5t 8 5c 13 17c 13 17a 19 26a 19 26c 19 32c 19 32

t 6 11908t 6 11908a 6 11921a 6 11921g 6 11927g 6 11927t 6 11947t 6 11947c 6 11953c 6 11953a 6 11964a 6 11964g 6 11981g 6 11981c 4 11994c 4 11994n 4 12015n 4 12015c 4 12037c 4 12037n 4 12044n 4 12044n 4 12058n 4 12058n 4 12071n 4 12071n 4 12085n 4 12085n 4 12098n 4 12098n 4 12111n 4 12111n 4 12124n 4 12124c 4 12144c 4 12144n 4 12151n 4 12151END_DNA END_SEQUENCE

t 24 2221t 24 2221a 24 2232a 24 2232a 22 2245a 22 2245a 27 2261a 27 2261g 25 2272g 25 2272c 19 2286c 19 2286c 12 2302c 12 2302t 19 2314t 19 2314g 12 2324g 12 2324g 15 2331g 15 2331g 19 2346g 19 2346g 23 2363g 23 2363t 33 2378t 33 2378g 36 2390g 36 2390c 44 2404c 44 2404c 44 2419c 44 2419t 39 2433t 39 2433a 39 2446a 39 2446a 34 2460a 34 2460t 35 2470t 35 2470g 34 2482g 34 2482

t 16 8191t 16 8191g 19 8200g 19 8200t 13 8211t 13 8211c 13 8229c 13 8229g 4 8241g 4 8241n 4 8253n 4 8253c 4 8263c 4 8263t 10 8276t 10 8276t 9 8286t 9 8286c 12 8301c 12 8301t 16 8313t 16 8313c 12 8329c 12 8329c 12 8336c 12 8336c 15 8343c 15 8343t 19 8356t 19 8356c 9 8371c 9 8371g 13 8386g 13 8386g 14 8397g 14 8397a 7 8417a 7 8417g 9 8427g 9 8427g 4 8445g 4 8445

Page 11: Phred / Phrap /Consed Genome/Sequence Assembly

11 Fernán Agüero

Phred: QUAL files

• Quality values in FASTA format

>106 542 0 542 ABI trimmed15 15 16 16 16 13 14 16 16 17 16 12 14 15 19 13 15 18 19 18 13 22 29 20 10 13 11 13 13 19 23 25 26 22 23 25 25 29 33 29 19 12 12 16 25 27 48 48 44 40 40 40 40 40 40 35 35 35 35 35 35 40 51 51 45 45 45 45 45 45 51 45 45 45 45 45 45 45 51 51 56 56 56 51 51 45 45 45 45 51 51 51 45 45 45 45 45 45 45 45 45 45 51 51 51 51 51 45 45 45 51 51 51 51 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 51 51 51 51 51 51 51 51 51 56 51 51 39 39 35 35 40 40 56 51 56 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 56 45 45 45 45 45 45 56 56 45 45 45 45 45 45 56 56 56 56 56 51 51 51 56 56 56 56 56 56 56 56 51 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 45 45 45 41 45 51 56 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 56 56 56 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 51 51 45 45 37 37 37 40 45 45 45 45 51 51 51 51 51 51 56 56 45 45 45 45 45 45 56 56 51 40 40 40 40 40 40 51 51 51 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 40 40 45 45 40 40 40 40 45 45 56 45 45 45 45 45 51 56 56 56 51 39 39 35 35 35 37 46 51 51 51 51 51 56 56 56 51 51 51 51 51 51 51 40 40 40 40 40 40 40 40 40 40 40 34 34 34 32 40 40 32 32 32 32 32 32 32 32 29 29 31 40 56 56 56 40 51 51 51 43 43 56 56 56 56 45 40 40 40 40 39 40 40 40 40 40 51 44 44 40 40 40 40 39 32 29 29 27 29 31 34 34 32 25 25 18 13 13 19 32 40 40 34 29 29 29 40 40 24 17 8 8 9 19 24 40 29 29 25 27 29 29 27 20 14 12 9 9 12 9 10 15 18 24 25 21 23 24 24 27 29 32 33 33 27 23 18 18 23 21 25 29 29 29 29 29 32 40 23 19 9 9 9 15 24 29 29 29 29 29 40 40 32 32 24

Page 12: Phred / Phrap /Consed Genome/Sequence Assembly

12 Fernán Agüero

Phrap: an assembler

• Phrap ensambla secuencias de DNA provenientes de proyectos de secuenciación al azar (shotgun)– Usa la información de calidad provista por phred

• no hay necesidad de recortar las secuencias– Puede usar bibliotecas de secuencias repetitivas (por ej

Repbase) o usar datos sobre repeticiones calculadas internamente

• Mejor calidad de los resultados en presencia de repeticiones– La secuencia final (contig) es un mosaico formado por las

regiones de mejor calidad de cada secuencia• No es un consenso!

– Puede manejar grandes sets de datos• Cientos de miles de secuencias con facilidad

Page 13: Phred / Phrap /Consed Genome/Sequence Assembly

13 Fernán Agüero

Consed: a finisher

• Genome Res 8 (1998): 195

Page 14: Phred / Phrap /Consed Genome/Sequence Assembly

14 Fernán Agüero

Consed

Page 15: Phred / Phrap /Consed Genome/Sequence Assembly

15 Fernán Agüero

Consed

Page 16: Phred / Phrap /Consed Genome/Sequence Assembly

16 Fernán Agüero

Consed

Page 17: Phred / Phrap /Consed Genome/Sequence Assembly

17 Fernán Agüero

Consed

Page 18: Phred / Phrap /Consed Genome/Sequence Assembly

18 Fernán Agüero

Consed

Page 19: Phred / Phrap /Consed Genome/Sequence Assembly

19 Fernán Agüero

Phred / Phrap /Consed pipeline

Chromat_dir

Phd_dir

Edit_dir

Assembly viewing/editingConsed

AssemblyPhrapassembled contigs - seqs_fasta.screen.contigsassembly file - seqs_fasta.screen.ace#

Vector screening and maskingCross_Match (local alignment program) x vector.seqscreened/masked file - seqs_fasta.screen

Conversion - phd to fastaphd2fasta.plnucleotide sequences - seqs_fastaquality values - seqs_fasta.screen.qual

Quality (confidence) values assignmentPhredphd files - *.phd

Inputchromatogram files

FinishingConsed

Page 20: Phred / Phrap /Consed Genome/Sequence Assembly

20 Fernán Agüero

Consed: autofinish

• Finish/finishing– en secuenciación es el proceso de acabado de una

secuencia• edición manual• corrección de errores de ensamblado y/o de secuencia• re-secuenciación de clones seleccionados, o de

productos de PCR amplificados ad hoc• Clonado de regiones difíciles• Validación del ensamble!

Page 21: Phred / Phrap /Consed Genome/Sequence Assembly

21 Fernán Agüero

Otros paquetes similares

• Staden Package– staden.sf.net– Integrado, como phred/phrap/consed

• Sólo ensamblado– Celera Assembler– TIGR Assembler– CAP4 (Paracell)

• Sólo enmascarado de repeticiones/vector– RepeatMasker

• Sólo basecaller– Varios: cada secuenciador tiene el suyo propio

• Applied Biosystems (ABI): KB Basecaller (provee valores de calidad en las ultimas versiones)

• Pharmacia (MegaBACE): Cimarron Basecaller• LifeTrace: Genome Res (2001) 11: 875