Upload
kim-ayers
View
48
Download
0
Embed Size (px)
DESCRIPTION
Phred / Phrap /Consed Genome/Sequence Assembly. Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín [email protected]. Qué es phred/phrap/consed?. Phred/Phrap/Consed es un paquete de software utilizado para: - PowerPoint PPT Presentation
Citation preview
1 Fernán Agüero
Phred / Phrap /ConsedGenome/Sequence Assembly
Fernán AgüeroInstituto de Investigaciones BiotecnológicasUniversidad Nacional de General San Martín
2 Fernán Agüero
Qué es phred/phrap/consed?
Phred/Phrap/Consed es un paquete de software utilizado para:
• Leer cromatogramas (trace files)• Asignar valores de calidad a las bases individuales de una
secuencia• Identificar y enmascarar secuencias correspondientes a vector
(plásmido) o secuencias repetitivas• Ensamblar secuencias individuales en contigs• Visualizar assemblies (contigs)• Hacer ‘sequence finishing’ auto dirigido (automatic finishing)
www.phrap.org
3 Fernán Agüero
Por que hay que ensamblar?
• Los métodos actuales de secuenciación generan lecturas de 300-1000 pb (límite de resolución de la electroforesis)
• Para secuenciar un genoma, o cualquier segmento largo de DNA (cromosomas) hay que fragmentarlo (bibliotecas de clones)
• En la estrategia conocida como ‘shotgun sequencing’ los clones se seleccionan al azar, se obtienen lecturas de los extremos y se ensamblan para obtener la secuencia final
W hole genomeBAC/cosm id clone
f in a l con sen sus seq u en ce
Finishingq u a lity
b o th s ta n ds covera geg a p f illing
Partial Assem blyco n tigs
DNA sequencingra n d om clo n es
Clone libraryp U C 18
Sm all fragm ents1 .0 - 2 .0 kb
DNA fragm entationso n ic d is rup tion
n e bu liza tion
W hole genomeBAC/cosm id clone
4 Fernán Agüero
Phred: a basecaller
• Genome Res 8 (1998): 175• Genome Res 8 (1998): 186
5 Fernán Agüero
Phred
• Phred is a program that performs several tasks: – Reads trace files – compatible with most file
formats: SCF (standard chromatogram format), ABI (373/377/3700), ESD (MegaBACE) and LI-COR.
– Calls bases – attributes a base for each identified peak with a lower error rate than the standard base calling programs.
– Assigns quality values to the bases – a “Phred value” based on an error rate estimation calculated for each individual base.
– Creates output files – base calls and quality values are written to output files.
6 Fernán Agüero
Trace files
• Alta calidad, sin ambigüedad
7 Fernán Agüero
Trace files
• Calidad media, algunas ambigüedades
8 Fernán Agüero
Trace files
• Baja calidad– la confianza en la asignación de bases es menor
9 Fernán Agüero
Phred qualities
q = - 10 x log10 (p)
Donde:• q = quality value• p = estimated probability error for a base call
Ejemplos:• q = 20 significa p = 10-2 (1 error cada 100 bases) • q = 30 significa p = 10-3 (1 error cada 1000 bases)• q = 40 significa p = 10-4 (1 error cada 10000 bases)
10 Fernán Agüero
Phred: PHD files
BEGIN_SEQUENCE 01EBV10201A02.g
BEGIN_COMMENT
CHROMAT_FILE: EBV10201A02.gABI_THUMBPRINT: PHRED_VERSION: 0.990722.gCALL_METHOD: phredQUALITY_LEVELS:99TIME: Thu May 24 00:18:58 2001TRACE_ARRAY_MIN_INDEX: 0TRACE_ARRAY_MAX_INDEX: 12153TRIM: CHEM: termDYE: big
END_COMMENT
BEGIN_DNAt 8 5t 8 5c 13 17c 13 17a 19 26a 19 26c 19 32c 19 32
t 6 11908t 6 11908a 6 11921a 6 11921g 6 11927g 6 11927t 6 11947t 6 11947c 6 11953c 6 11953a 6 11964a 6 11964g 6 11981g 6 11981c 4 11994c 4 11994n 4 12015n 4 12015c 4 12037c 4 12037n 4 12044n 4 12044n 4 12058n 4 12058n 4 12071n 4 12071n 4 12085n 4 12085n 4 12098n 4 12098n 4 12111n 4 12111n 4 12124n 4 12124c 4 12144c 4 12144n 4 12151n 4 12151END_DNA END_SEQUENCE
t 24 2221t 24 2221a 24 2232a 24 2232a 22 2245a 22 2245a 27 2261a 27 2261g 25 2272g 25 2272c 19 2286c 19 2286c 12 2302c 12 2302t 19 2314t 19 2314g 12 2324g 12 2324g 15 2331g 15 2331g 19 2346g 19 2346g 23 2363g 23 2363t 33 2378t 33 2378g 36 2390g 36 2390c 44 2404c 44 2404c 44 2419c 44 2419t 39 2433t 39 2433a 39 2446a 39 2446a 34 2460a 34 2460t 35 2470t 35 2470g 34 2482g 34 2482
t 16 8191t 16 8191g 19 8200g 19 8200t 13 8211t 13 8211c 13 8229c 13 8229g 4 8241g 4 8241n 4 8253n 4 8253c 4 8263c 4 8263t 10 8276t 10 8276t 9 8286t 9 8286c 12 8301c 12 8301t 16 8313t 16 8313c 12 8329c 12 8329c 12 8336c 12 8336c 15 8343c 15 8343t 19 8356t 19 8356c 9 8371c 9 8371g 13 8386g 13 8386g 14 8397g 14 8397a 7 8417a 7 8417g 9 8427g 9 8427g 4 8445g 4 8445
11 Fernán Agüero
Phred: QUAL files
• Quality values in FASTA format
>106 542 0 542 ABI trimmed15 15 16 16 16 13 14 16 16 17 16 12 14 15 19 13 15 18 19 18 13 22 29 20 10 13 11 13 13 19 23 25 26 22 23 25 25 29 33 29 19 12 12 16 25 27 48 48 44 40 40 40 40 40 40 35 35 35 35 35 35 40 51 51 45 45 45 45 45 45 51 45 45 45 45 45 45 45 51 51 56 56 56 51 51 45 45 45 45 51 51 51 45 45 45 45 45 45 45 45 45 45 51 51 51 51 51 45 45 45 51 51 51 51 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 51 51 51 51 51 51 51 51 51 56 51 51 39 39 35 35 40 40 56 51 56 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 56 45 45 45 45 45 45 56 56 45 45 45 45 45 45 56 56 56 56 56 51 51 51 56 56 56 56 56 56 56 56 51 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 45 45 45 41 45 51 56 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 56 56 56 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 51 51 45 45 37 37 37 40 45 45 45 45 51 51 51 51 51 51 56 56 45 45 45 45 45 45 56 56 51 40 40 40 40 40 40 51 51 51 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 40 40 45 45 40 40 40 40 45 45 56 45 45 45 45 45 51 56 56 56 51 39 39 35 35 35 37 46 51 51 51 51 51 56 56 56 51 51 51 51 51 51 51 40 40 40 40 40 40 40 40 40 40 40 34 34 34 32 40 40 32 32 32 32 32 32 32 32 29 29 31 40 56 56 56 40 51 51 51 43 43 56 56 56 56 45 40 40 40 40 39 40 40 40 40 40 51 44 44 40 40 40 40 39 32 29 29 27 29 31 34 34 32 25 25 18 13 13 19 32 40 40 34 29 29 29 40 40 24 17 8 8 9 19 24 40 29 29 25 27 29 29 27 20 14 12 9 9 12 9 10 15 18 24 25 21 23 24 24 27 29 32 33 33 27 23 18 18 23 21 25 29 29 29 29 29 32 40 23 19 9 9 9 15 24 29 29 29 29 29 40 40 32 32 24
12 Fernán Agüero
Phrap: an assembler
• Phrap ensambla secuencias de DNA provenientes de proyectos de secuenciación al azar (shotgun)– Usa la información de calidad provista por phred
• no hay necesidad de recortar las secuencias– Puede usar bibliotecas de secuencias repetitivas (por ej
Repbase) o usar datos sobre repeticiones calculadas internamente
• Mejor calidad de los resultados en presencia de repeticiones– La secuencia final (contig) es un mosaico formado por las
regiones de mejor calidad de cada secuencia• No es un consenso!
– Puede manejar grandes sets de datos• Cientos de miles de secuencias con facilidad
13 Fernán Agüero
Consed: a finisher
• Genome Res 8 (1998): 195
14 Fernán Agüero
Consed
15 Fernán Agüero
Consed
16 Fernán Agüero
Consed
17 Fernán Agüero
Consed
18 Fernán Agüero
Consed
19 Fernán Agüero
Phred / Phrap /Consed pipeline
Chromat_dir
Phd_dir
Edit_dir
Assembly viewing/editingConsed
AssemblyPhrapassembled contigs - seqs_fasta.screen.contigsassembly file - seqs_fasta.screen.ace#
Vector screening and maskingCross_Match (local alignment program) x vector.seqscreened/masked file - seqs_fasta.screen
Conversion - phd to fastaphd2fasta.plnucleotide sequences - seqs_fastaquality values - seqs_fasta.screen.qual
Quality (confidence) values assignmentPhredphd files - *.phd
Inputchromatogram files
FinishingConsed
20 Fernán Agüero
Consed: autofinish
• Finish/finishing– en secuenciación es el proceso de acabado de una
secuencia• edición manual• corrección de errores de ensamblado y/o de secuencia• re-secuenciación de clones seleccionados, o de
productos de PCR amplificados ad hoc• Clonado de regiones difíciles• Validación del ensamble!
21 Fernán Agüero
Otros paquetes similares
• Staden Package– staden.sf.net– Integrado, como phred/phrap/consed
• Sólo ensamblado– Celera Assembler– TIGR Assembler– CAP4 (Paracell)
• Sólo enmascarado de repeticiones/vector– RepeatMasker
• Sólo basecaller– Varios: cada secuenciador tiene el suyo propio
• Applied Biosystems (ABI): KB Basecaller (provee valores de calidad en las ultimas versiones)
• Pharmacia (MegaBACE): Cimarron Basecaller• LifeTrace: Genome Res (2001) 11: 875