15
AMPLICONanalysis_v0.2: Pipeline for 16S rRNA datasets analysis Umer Zeeshan Ijaz, Christopher Quince The workflow of the pipeline is given on the next page. It is useful for analyzing 16s RNA amplicons for mock communities and serves as a benchmark for answering the following questions: Is there any difference in read quality between forward and reverse reads? What is the best library preparation strategy? What is the best next generation sequencing platform? Which 16s RNA region performs better? Which primer performs better? Is there any evidence of carry-over or barcode switching for the primers used? Do DNA starting input and cycling condition matter? Do longer paired-end reads overlap and if they do then how well they perform when assembled together? What is the proportion of chimeras? You can run the pipeline without any arguments to get the usage information: [uzi@quince-srv2 ~]$ bash /home/opt/AMPLICONanalysis_v0.2/AMPLICONanalysis.sh Script to analyse 16S rRNA datasets Usage: bash AMPLICONanalysis.sh -f <forward.fastq> -r <reverse.fastq> -d <forward_reference_database.fasta> -e <reverse_reference_database.fasta> -l <list_file> [options] Options: -n Flag to eliminate all sequences with unknown nucleotides in the output (pandaseq) default: off -p Forward primer if available -q Reverse primer if available -o Overlap base pairs between paired-end reads (default: 50) -t Type of quality values (solexa (CASAVA < 1.3), illumina (CASAVA 1.3 to 1.7), sanger (which is CASAVA >= 1.8) default: sanger

AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

Embed Size (px)

Citation preview

Page 1: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

AMPLICONanalysis_v0.2: Pipeline for 16S rRNA datasets analysis Umer Zeeshan Ijaz, Christopher Quince

The workflow of the pipeline is given on the next page. It is useful for analyzing 16s RNA amplicons for mock communities and serves as a benchmark for answering the following questions:

• Is there any difference in read quality between forward and reverse reads? • What is the best library preparation strategy? • What is the best next generation sequencing platform? • Which 16s RNA region performs better? • Which primer performs better? • Is there any evidence of carry-over or barcode switching for the primers used? • Do DNA starting input and cycling condition matter? • Do longer paired-end reads overlap and if they do then how well they perform when assembled together? • What is the proportion of chimeras?

You can run the pipeline without any arguments to get the usage information: [uzi@quince-srv2 ~]$ bash /home/opt/AMPLICONanalysis_v0.2/AMPLICONanalysis.sh Script to analyse 16S rRNA datasets Usage: bash AMPLICONanalysis.sh -f <forward.fastq> -r <reverse.fastq> -d <forward_reference_database.fasta> -e <reverse_reference_database.fasta> -l <list_file> [options] Options: -n Flag to eliminate all sequences with unknown nucleotides in the output (pandaseq) default: off -p Forward primer if available -q Reverse primer if available -o Overlap base pairs between paired-end reads (default: 50) -t Type of quality values (solexa (CASAVA < 1.3), illumina (CASAVA 1.3 to 1.7), sanger (which is CASAVA >= 1.8) default: sanger

Page 2: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

Workflow of AMPLICONanalysis_v0.2

Page 3: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

To start the analysis, make sure you have the reference database available. We will start with the reference database MirceaG_V4.fa and the same sequences in reverse MirceaG_V4_R.fa, both of which contain the excised V4 region of the 16S rRNA amplicons for a template mock community. Since a genome can have multiple 16S rRNA coding regions, we will use IDs.txt to group them together. The IDs in the first column (given below) are exactly the same as the sequence IDs found in MirceaG_V4.fa and MirceaG_V4_R.fa. [uzi@quince-srv2 ~]$ head -20 ~/TSBAmplicons/References/IDs.txt Acidocap1_643768675,Acidobacterium_capsulatum AkkMuc36273762,Akkermansia_muciniphila AkkMuc36274338,Akkermansia_muciniphila AkkMuc36275228,Akkermansia_muciniphila AnaTherm37409222,Anaerocellum_thermophilum AnaTherm37409327,Anaerocellum_thermophilum AnaTherm37409526,Anaerocellum_thermophilum ArchFul1_638158565,Archaeoglobus_fulgidus BacTheta5_4983323,Bacteroides_thetaiotaomicron BacTheta5_c1631800,Bacteroides_thetaiotaomicron BacTheta5_c2342291,Bacteroides_thetaiotaomicron BacTheta5_c3036295,Bacteroides_thetaiotaomicron BacTheta5_c3330547,Bacteroides_thetaiotaomicron BacVul7_5301198,Bacteroides_vulgatus BacVul7_5301427,Bacteroides_vulgatus BacVul7_5302575,Bacteroides_vulgatus BacVul7_5302661,Bacteroides_vulgatus BacVul75302965,Bacteroides_vulgatus BacVul7_5304532,Bacteroides_vulgatus BacVul7_5304800,Bacteroides_vulgatus We will then run our dataset comprising paired-end reads, i.e 9_GTATGCGCTGTA_L001_R1_001.fastq and 9_GTATGCGCTGTA_L001_R2_001.fastq through the pipeline. Since the primers are already removed for this dataset, we will not use –p and –q option. By default, the minimum number of basepairs to be considered for overlapping forward and reverse reads is set to 50. You can change this using –o switch. Another useful switch is –n which will allow overlap regions to have indeterminate bases. The pipeline logs each step in a file AMPLICONanalysis.log that can later be used to debug should the pipeline fail on certain dataset.

Page 4: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

[uzi@quince-srv2 ~]$ bash /home/opt/AMPLICONanalysis_v0.2/AMPLICONanalysis.sh -f 9_GTATGCGCTGTA_L001_R1_001.fastq 9_GTATGCGCTGTA_L001_R2_001.fastq -d ~/TSBAmplicons/References/MirceaG_V4.fa -e ~/TSBAmplicons/References/MirceaG_V4_R.fa -l ~/TSBAmplicons/References/IDs.txt [2013-05-21 15:19:01] Using sickle [2013-05-21 15:19:01] Using usearch [2013-05-21 15:19:01] Using pandaseq [2013-05-21 15:19:01] Using fastqc [2013-05-21 15:19:01] Using /home/opt/AMPLICONanalysis_v0.2/scripts/Convert.py [2013-05-21 15:19:01] Using /home/opt/AMPLICONanalysis_v0.2/scripts/convIDs.pl [2013-05-21 15:19:01] Using /home/opt/AMPLICONanalysis_v0.2/scripts/FreqS.pl [2013-05-21 15:19:01] Using /home/opt/AMPLICONanalysis_v0.2/scripts/Mean.pl [2013-05-21 15:19:01] Using /home/opt/AMPLICONanalysis_v0.2/scripts/SeqQA.pl [2013-05-21 15:19:01] STEP 1: Trimming fastq files. [2013-05-21 15:19:01] 9_GTATGCGCTGTA_L001_R1_001.fastq and 9_GTATGCGCTGTA_L001_R2_001.fastq are not trimmed. Using sickle with sanger as quality type, quality window of 20, and minimum length of 10 to keep [2013-05-21 15:19:03] 9_GTATGCGCTGTA_L001_R1_001.fastq, 9_GTATGCGCTGTA_L001_R2_001.fastq, and 9_GTATGCGCTGTA_L001_singlet.fastq generated successfully! [2013-05-21 15:19:03] STEP 2: Generating SeqQA statistics for 9_GTATGCGCTGTA_L001_R1_trim_001.fastq. [2013-05-21 15:19:40] 9_GTATGCGCTGTA_L001_R1_trim_001.SeqQA generated successfully. [2013-05-21 15:19:40] STEP 3: Generating SeqQA statistics for 9_GTATGCGCTGTA_L001_R2_trim_001.fastq. [2013-05-21 15:20:21] 9_GTATGCGCTGTA_L001_R2_trim_001.SeqQA generated successfully. [2013-05-21 15:20:21] STEP 4: Overlapping forward and reverse reads using pandaseq. [2013-05-21 15:20:21] Forward and reverse primers not found! Running pandaseq without them. [2013-05-21 15:20:27] 9_GTATGCGCTGTA_L001_R12.fastq generated successfully. [2013-05-21 15:20:27] STEP 5: Convert 9_GTATGCGCTGTA_L001_R1_trim_001.fastq into 9_GTATGCGCTGTA_L001_R1_trim_001.fasta [2013-05-21 15:20:30] 9_GTATGCGCTGTA_L001_R1_trim_001.fasta and 9_GTATGCGCTGTA_L001_R1_trim_001.qual generated successfully. [2013-05-21 15:20:30] STEP 6: Search 9_GTATGCGCTGTA_L001_R1_trim_001.fasta against /home/uzi/TSBAmplicons/References/MirceaG_V4.fa using usearch at 95% [2013-05-21 15:20:36] 9_GTATGCGCTGTA_L001_R1_trim_001.aln and 9_GTATGCGCTGTA_L001_R1_trim_001.saln generated successfully. [2013-05-21 15:20:36] STEP 7: Converting 9_GTATGCGCTGTA_L001_R1_trim_001.ualn with /home/uzi/TSBAmplicons/References/IDs.txt [2013-05-21 15:20:37] 9_GTATGCGCTGTA_L001_R1_trim_001.saln generated successfully. [2013-05-21 15:20:37] STEP 8: Generate frequencies.

Page 5: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

[2013-05-21 15:20:38] 9_GTATGCGCTGTA_L001_R1_trim_001.freq generated successfully. [2013-05-21 15:20:38] STEP 9: Convert 9_GTATGCGCTGTA_L001_R2_trim_001.fastq into 9_GTATGCGCTGTA_L001_R2_trim_001.fasta [2013-05-21 15:20:42] 9_GTATGCGCTGTA_L001_R2_trim_001.fasta and 9_GTATGCGCTGTA_L001_R2_trim_001.qual generated successfully. [2013-05-21 15:20:42] STEP 10: Search 9_GTATGCGCTGTA_L001_R2_trim_001.fasta against /home/uzi/TSBAmplicons/References/MirceaG_V4_R.fa using usearch at 95% [2013-05-21 15:20:46] 9_GTATGCGCTGTA_L001_R2_trim_001.aln and 9_GTATGCGCTGTA_L001_R2_trim_001.saln generated successfully. [2013-05-21 15:20:46] STEP 11: Converting 9_GTATGCGCTGTA_L001_R2_trim_001.ualn with /home/uzi/TSBAmplicons/References/IDs.txt [2013-05-21 15:20:47] 9_GTATGCGCTGTA_L001_R2_trim_001.saln generated successfully. [2013-05-21 15:20:47] STEP 12: Generate frequencies. [2013-05-21 15:20:47] 9_GTATGCGCTGTA_L001_R2_trim_001.freq generated successfully. [2013-05-21 15:20:47] STEP 13: Convert 9_GTATGCGCTGTA_L001_R12.fastq into 9_GTATGCGCTGTA_L001_R12.fasta [2013-05-21 15:20:52] 9_GTATGCGCTGTA_L001_R12.fasta and 9_GTATGCGCTGTA_L001_R12.qual generated successfully. [2013-05-21 15:20:52] STEP 14: Search 9_GTATGCGCTGTA_L001_R12.fasta against /home/uzi/TSBAmplicons/References/MirceaG_V4.fa using usearch at 95% [2013-05-21 15:20:55] 9_GTATGCGCTGTA_L001_R12.aln and 9_GTATGCGCTGTA_L001_R12.saln generated successfully. [2013-05-21 15:20:55] STEP 15: Converting 9_GTATGCGCTGTA_L001_R12.ualn with /home/uzi/TSBAmplicons/References/IDs.txt [2013-05-21 15:20:56] 9_GTATGCGCTGTA_L001_R12.saln generated successfully. [2013-05-21 15:20:56] STEP 16: Generate frequencies. [2013-05-21 15:20:57] 9_GTATGCGCTGTA_L001_R12.freq generated successfully. [2013-05-21 15:20:57] STEP 17: Generating fastqc statistics. [2013-05-21 15:21:03] 9_GTATGCGCTGTA_L001_R1_trim_001_fastqc.zip generated successfully. [2013-05-21 15:21:09] 9_GTATGCGCTGTA_L001_R2_trim_001_fastqc.zip generated successfully. [2013-05-21 15:21:14] 9_GTATGCGCTGTA_L001_R12_fastqc.zip generated successfully. [2013-05-21 15:21:14] STEP 18: Dereplicate duplicate sequences, annotate with cluster sizes and sort by decreasing cluster sizes. [2013-05-21 15:21:15] 9_GTATGCGCTGTA_L001_R12.derep.fasta generated successfully. [2013-05-21 15:21:15] STEP 19: Sort reads in order of decreasing abundance [2013-05-21 15:21:15] 9_GTATGCGCTGTA_L001_R12.sorted.derep.fasta generated successfully. [2013-05-21 15:21:15] STEP 20: De novo chimera detection using the UCHIME algorithm [2013-05-21 15:21:16] 9_GTATGCGCTGTA_L001_R12.nonchim.sorted.derep.fasta and 9_GTATGCGCTGTA_L001_R12.chim.sorted.derep.fasta generated successfully.

Page 6: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

[2013-05-21 15:21:16] STEP 21: Match nonchimeric sequences against /home/uzi/TSBAmplicons/References/MirceaG_V4.fa using usearch at 97% [2013-05-21 15:21:17] 9_GTATGCGCTGTA_L001_R12.matched.nonchim.sorted.derep.fasta and 9_GTATGCGCTGTA_L001_R12.notmatched.nonchim.sorted.derep.fasta generated successfully. [2013-05-21 15:21:17] STEP 22: Generate pipeline statistics. [2013-05-21 15:21:38] 9_GTATGCGCTGTA_L001_R12.stats generated successfully. [2013-05-21 15:21:38] Pipeline finished!

 Once the pipeline has finished processing, we can assess the performance of the dataset by looking at the statistics saved in step 22 as a tab-delimited file: 9_GTATGCGCTGTA_L001_R12.stats [uzi@quince-srv2 ~]$ cat *.stats TRIMMED_FORWARD_TOTAL_READS 66667 TRIMMED_FORWARD_UNIQUE_READS 2103 TRIMMED_FORWARD_UNIQUE_READS_PERCENTAGE 3.15448 TRIMMED_FORWARD_MOST_ABUNDANT_SEQUENCE TACGTAGGTGGCGAGCGTTGTCCGGAATTACTGGGCGTAAAGGGTGCGTAGGCGGCTATGCGAGTTAAGCGTGAAAGCCTTAGGCTCAACCTAAGGATTGCGCTTAATACTGCATAGCTTGAGTGCGGGAGAGGACGGCGGAATTCCCGGTGTAGCGGTGAAATGCGTAGATATCGGGAGGAACACCAGTGGCGAAGGCGGCCGTCTGG TRIMMED_FORWARD_MOST_ABUNDANT_SEQUENCE_READS 57268 TRIMMED_FORWARD_MOST_ABUNDANT_SEQUENCE_READS_PERCENTAGE 85.9016 TRIMMED_FORWARD_AVERAGE_READ_QUALITY 37.0081 TRIMMED_FORWARD_MATCHED_READS 65483 TRIMMED_FORWARD_MATCHED_MEAN_IDENT 99.931 TRIMMED_FORWARD_MATCHED_SPECIES_ENTROPY 0.0172577569725545 TRIMMED_FORWARD_NOTMATCHED_READS 1184 TRIMMED_REVERSE_TOTAL_READS 66667 TRIMMED_REVERSE_UNIQUE_READS 4812 TRIMMED_REVERSE_UNIQUE_READS_PERCENTAGE 7.21796 TRIMMED_REVERSE_MOST_ABUNDANT_SEQUENCE CCTGTTCGCTCCCCACGCTTTCGTGCCTCAGCGTCAGTTACGGTCCAGACGGCCGCCTTCGCCACTGGTGTTCCTCCCGATATCTACGCATTTCACCGCTACACCGGGAATTCCGCCGTCCTCTCCCGCACTCAAGCTATGCAGTATTAAGCGCAATCCTTAGGTTGAGCCTAAGGCTTTCACGCTTAACTCGCATAGCCGCCTACGCA TRIMMED_REVERSE_MOST_ABUNDANT_SEQUENCE_READS 45894 TRIMMED_REVERSE_MOST_ABUNDANT_SEQUENCE_READS_PERCENTAGE 68.8407 TRIMMED_REVERSE_AVERAGE_READ_QUALITY 34.6279 TRIMMED_REVERSE_MATCHED_READS 65451 TRIMMED_REVERSE_MATCHED_MEAN_IDENT 99.867

Page 7: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

TRIMMED_REVERSE_MATCHED_SPECIES_ENTROPY 0.0154295461922052 TRIMMED_REVERSE_NOTMATCHED_READS 1216 OVERLAP_TOTAL_READS 64703 OVERLAP_UNIQUE_READS 1306 OVERLAP_UNIQUE_READS_PERCENTAGE 2.01845 OVERLAP_MOST_ABUNDANT_SEQUENCE TACGTAGGTGGCGAGCGTTGTCCGGAATTACTGGGCGTAAAGGGTGCGTAGGCGGCTATGCGAGTTAAGCGTGAAAGCCTTAGGCTCAACCTAAGGATTGCGCTTAATACTGCATAGCTTGAGTGCGGGAGAGGACGGCGGAATTCCCGGTGTAGCGGTGAAATGCGTAGATATCGGGAGGAACACCAGTGGCGAAGGCGGCCGTCTGGACCGTAACTGACGCTGAGGCACGAAAGCGTGGGGAGCGAACAGG OVERLAP_MOST_ABUNDANT_SEQUENCE_READS 55956 OVERLAP_MOST_ABUNDANT_SEQUENCE_READS_PERCENTAGE 86.4813 OVERLAP_AVERAGE_READ_QUALITY 33.5145 OVERLAP_MATCHED_READS 64184 OVERLAP_MATCHED_MEAN_IDENT 99.940 OVERLAP_MATCHED_SPECIES_ENTROPY 0.0127363972524645 OVERLAP_NOTMATCHED_READS 519 OVERLAP_NONCHIMERIC_DEREPLICATED_TOTAL_READS 1929 OVERLAP_CHIMERIC_DEREPLICATED_TOTAL_READS 2 OVERLAP_MATCHED_NONCHIMERIC_DEREPLICATED_TOTAL_READS 1716 OVERLAP_MATCHED_NONCHIMERIC_DEREPLICATED_MATCHED_MEAN_IDENT 99.238 OVERLAP_NOTMATCHED_NONCHIMERIC_DEREPLICATED_TOTAL_READS 213  Here, it can be seen that the reverse reads in general have lower quality scores. We can either use fastqc or SeqQA.pl (University of California) to analyze the reverse reads in detail. Here, we will look at 9_GTATGCGCTGTA_L001_R2_trim_001.SeqQA file to understand read quality as a function of position. Additionally, we get 15 base start and end unique distributions and information on the composition of reads. [uzi@quince-srv2 ~]$ cat 9_GTATGCGCTGTA_L001_R2_trim_001.SeqQA Fastq Processing Base Position Mean Phred - Sanger scoring 1 30.11 |||||||||||||||||||||||||||||| 2 30.29 |||||||||||||||||||||||||||||| 3 30.46 |||||||||||||||||||||||||||||| 4 30.17 |||||||||||||||||||||||||||||| 5 30.17 |||||||||||||||||||||||||||||| 6 32.57 ||||||||||||||||||||||||||||||||

Page 8: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

7 32.43 |||||||||||||||||||||||||||||||| 8 30.38 |||||||||||||||||||||||||||||| 9 34.10 |||||||||||||||||||||||||||||||||| 10 34.46 |||||||||||||||||||||||||||||||||| 11 34.47 |||||||||||||||||||||||||||||||||| 12 34.61 |||||||||||||||||||||||||||||||||| 13 34.65 |||||||||||||||||||||||||||||||||| 14 34.61 |||||||||||||||||||||||||||||||||| 15 34.70 |||||||||||||||||||||||||||||||||| 16 34.85 |||||||||||||||||||||||||||||||||| 17 37.01 ||||||||||||||||||||||||||||||||||||| 18 36.91 |||||||||||||||||||||||||||||||||||| 19 36.91 |||||||||||||||||||||||||||||||||||| 20 37.27 ||||||||||||||||||||||||||||||||||||| 21 37.27 ||||||||||||||||||||||||||||||||||||| 22 37.30 ||||||||||||||||||||||||||||||||||||| 23 38.44 |||||||||||||||||||||||||||||||||||||| 24 38.47 |||||||||||||||||||||||||||||||||||||| 25 38.95 |||||||||||||||||||||||||||||||||||||| 26 38.83 |||||||||||||||||||||||||||||||||||||| 27 38.96 |||||||||||||||||||||||||||||||||||||| 28 39.00 |||||||||||||||||||||||||||||||||||||| 29 39.24 ||||||||||||||||||||||||||||||||||||||| 30 39.01 ||||||||||||||||||||||||||||||||||||||| 31 39.14 ||||||||||||||||||||||||||||||||||||||| 32 38.93 |||||||||||||||||||||||||||||||||||||| 33 38.20 |||||||||||||||||||||||||||||||||||||| 34 38.12 |||||||||||||||||||||||||||||||||||||| 35 38.22 |||||||||||||||||||||||||||||||||||||| 36 38.33 |||||||||||||||||||||||||||||||||||||| 37 38.51 |||||||||||||||||||||||||||||||||||||| 38 38.69 |||||||||||||||||||||||||||||||||||||| 39 39.02 ||||||||||||||||||||||||||||||||||||||| 40 39.08 ||||||||||||||||||||||||||||||||||||||| 41 38.96 |||||||||||||||||||||||||||||||||||||| 42 37.94 ||||||||||||||||||||||||||||||||||||| 43 38.06 ||||||||||||||||||||||||||||||||||||||

Page 9: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

44 38.87 |||||||||||||||||||||||||||||||||||||| 45 38.38 |||||||||||||||||||||||||||||||||||||| 46 38.33 |||||||||||||||||||||||||||||||||||||| 47 39.16 ||||||||||||||||||||||||||||||||||||||| 48 39.23 ||||||||||||||||||||||||||||||||||||||| 49 38.29 |||||||||||||||||||||||||||||||||||||| 50 38.51 |||||||||||||||||||||||||||||||||||||| 51 38.02 |||||||||||||||||||||||||||||||||||||| 52 38.34 |||||||||||||||||||||||||||||||||||||| 53 38.12 |||||||||||||||||||||||||||||||||||||| 54 37.82 ||||||||||||||||||||||||||||||||||||| 55 38.23 |||||||||||||||||||||||||||||||||||||| 56 38.22 |||||||||||||||||||||||||||||||||||||| 57 38.38 |||||||||||||||||||||||||||||||||||||| 58 38.30 |||||||||||||||||||||||||||||||||||||| 59 38.34 |||||||||||||||||||||||||||||||||||||| 60 39.29 ||||||||||||||||||||||||||||||||||||||| 61 39.25 ||||||||||||||||||||||||||||||||||||||| 62 38.39 |||||||||||||||||||||||||||||||||||||| 63 38.42 |||||||||||||||||||||||||||||||||||||| 64 38.41 |||||||||||||||||||||||||||||||||||||| 65 38.37 |||||||||||||||||||||||||||||||||||||| 66 38.17 |||||||||||||||||||||||||||||||||||||| 67 38.40 |||||||||||||||||||||||||||||||||||||| 68 38.39 |||||||||||||||||||||||||||||||||||||| 69 37.47 ||||||||||||||||||||||||||||||||||||| 70 38.03 |||||||||||||||||||||||||||||||||||||| 71 37.81 ||||||||||||||||||||||||||||||||||||| 72 37.96 ||||||||||||||||||||||||||||||||||||| 73 38.42 |||||||||||||||||||||||||||||||||||||| 74 38.41 |||||||||||||||||||||||||||||||||||||| 75 38.42 |||||||||||||||||||||||||||||||||||||| 76 38.45 |||||||||||||||||||||||||||||||||||||| 77 38.19 |||||||||||||||||||||||||||||||||||||| 78 38.21 |||||||||||||||||||||||||||||||||||||| 79 38.02 |||||||||||||||||||||||||||||||||||||| 80 37.77 |||||||||||||||||||||||||||||||||||||

Page 10: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

81 37.52 ||||||||||||||||||||||||||||||||||||| 82 36.74 |||||||||||||||||||||||||||||||||||| 83 37.00 |||||||||||||||||||||||||||||||||||| 84 37.30 ||||||||||||||||||||||||||||||||||||| 85 37.26 ||||||||||||||||||||||||||||||||||||| 86 37.33 ||||||||||||||||||||||||||||||||||||| 87 37.22 ||||||||||||||||||||||||||||||||||||| 88 37.17 ||||||||||||||||||||||||||||||||||||| 89 36.90 |||||||||||||||||||||||||||||||||||| 90 36.83 |||||||||||||||||||||||||||||||||||| 91 36.74 |||||||||||||||||||||||||||||||||||| 92 36.67 |||||||||||||||||||||||||||||||||||| 93 36.97 |||||||||||||||||||||||||||||||||||| 94 37.22 ||||||||||||||||||||||||||||||||||||| 95 37.21 ||||||||||||||||||||||||||||||||||||| 96 36.97 |||||||||||||||||||||||||||||||||||| 97 36.95 |||||||||||||||||||||||||||||||||||| 98 36.89 |||||||||||||||||||||||||||||||||||| 99 36.68 |||||||||||||||||||||||||||||||||||| 100 36.18 |||||||||||||||||||||||||||||||||||| 101 36.64 |||||||||||||||||||||||||||||||||||| 102 36.93 |||||||||||||||||||||||||||||||||||| 103 37.08 ||||||||||||||||||||||||||||||||||||| 104 37.15 ||||||||||||||||||||||||||||||||||||| 105 36.95 |||||||||||||||||||||||||||||||||||| 106 33.85 ||||||||||||||||||||||||||||||||| 107 28.17 |||||||||||||||||||||||||||| 108 29.32 ||||||||||||||||||||||||||||| 109 29.96 ||||||||||||||||||||||||||||| 110 32.21 |||||||||||||||||||||||||||||||| 111 35.72 ||||||||||||||||||||||||||||||||||| 112 36.34 |||||||||||||||||||||||||||||||||||| 113 36.51 |||||||||||||||||||||||||||||||||||| 114 36.59 |||||||||||||||||||||||||||||||||||| 115 36.38 |||||||||||||||||||||||||||||||||||| 116 36.57 |||||||||||||||||||||||||||||||||||| 117 36.32 ||||||||||||||||||||||||||||||||||||

Page 11: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

118 34.81 |||||||||||||||||||||||||||||||||| 119 34.41 |||||||||||||||||||||||||||||||||| 120 35.40 ||||||||||||||||||||||||||||||||||| 121 35.63 ||||||||||||||||||||||||||||||||||| 122 36.68 |||||||||||||||||||||||||||||||||||| 123 36.65 |||||||||||||||||||||||||||||||||||| 124 36.45 |||||||||||||||||||||||||||||||||||| 125 36.27 |||||||||||||||||||||||||||||||||||| 126 34.02 |||||||||||||||||||||||||||||||||| 127 33.27 ||||||||||||||||||||||||||||||||| 128 30.34 |||||||||||||||||||||||||||||| 129 33.56 ||||||||||||||||||||||||||||||||| 130 34.75 |||||||||||||||||||||||||||||||||| 131 35.79 ||||||||||||||||||||||||||||||||||| 132 35.57 ||||||||||||||||||||||||||||||||||| 133 36.53 |||||||||||||||||||||||||||||||||||| 134 35.65 ||||||||||||||||||||||||||||||||||| 135 35.17 ||||||||||||||||||||||||||||||||||| 136 35.03 ||||||||||||||||||||||||||||||||||| 137 35.48 ||||||||||||||||||||||||||||||||||| 138 35.58 ||||||||||||||||||||||||||||||||||| 139 33.76 ||||||||||||||||||||||||||||||||| 140 34.23 |||||||||||||||||||||||||||||||||| 141 35.21 ||||||||||||||||||||||||||||||||||| 142 36.31 |||||||||||||||||||||||||||||||||||| 143 36.33 |||||||||||||||||||||||||||||||||||| 144 36.20 |||||||||||||||||||||||||||||||||||| 145 34.62 |||||||||||||||||||||||||||||||||| 146 33.16 ||||||||||||||||||||||||||||||||| 147 32.52 |||||||||||||||||||||||||||||||| 148 31.49 ||||||||||||||||||||||||||||||| 149 31.65 ||||||||||||||||||||||||||||||| 150 32.89 |||||||||||||||||||||||||||||||| 151 31.15 ||||||||||||||||||||||||||||||| 152 32.35 |||||||||||||||||||||||||||||||| 153 28.94 |||||||||||||||||||||||||||| 154 31.85 |||||||||||||||||||||||||||||||

Page 12: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

155 29.20 ||||||||||||||||||||||||||||| 156 31.45 ||||||||||||||||||||||||||||||| 157 33.35 ||||||||||||||||||||||||||||||||| 158 32.91 |||||||||||||||||||||||||||||||| 159 30.63 |||||||||||||||||||||||||||||| 160 32.45 |||||||||||||||||||||||||||||||| 161 31.48 ||||||||||||||||||||||||||||||| 162 33.35 ||||||||||||||||||||||||||||||||| 163 32.74 |||||||||||||||||||||||||||||||| 164 34.39 |||||||||||||||||||||||||||||||||| 165 29.32 ||||||||||||||||||||||||||||| 166 32.13 |||||||||||||||||||||||||||||||| 167 33.15 ||||||||||||||||||||||||||||||||| 168 34.45 |||||||||||||||||||||||||||||||||| 169 33.98 ||||||||||||||||||||||||||||||||| 170 34.77 |||||||||||||||||||||||||||||||||| 171 33.54 ||||||||||||||||||||||||||||||||| 172 32.51 |||||||||||||||||||||||||||||||| 173 29.80 ||||||||||||||||||||||||||||| 174 28.32 |||||||||||||||||||||||||||| 175 25.57 ||||||||||||||||||||||||| 176 26.14 |||||||||||||||||||||||||| 177 30.44 |||||||||||||||||||||||||||||| 178 30.51 |||||||||||||||||||||||||||||| 179 30.42 |||||||||||||||||||||||||||||| 180 32.58 |||||||||||||||||||||||||||||||| 181 34.80 |||||||||||||||||||||||||||||||||| 182 35.46 ||||||||||||||||||||||||||||||||||| 183 28.66 |||||||||||||||||||||||||||| 184 29.97 ||||||||||||||||||||||||||||| 185 28.66 |||||||||||||||||||||||||||| 186 27.91 ||||||||||||||||||||||||||| 187 22.15 |||||||||||||||||||||| 188 23.66 ||||||||||||||||||||||| 189 29.67 ||||||||||||||||||||||||||||| 190 32.18 |||||||||||||||||||||||||||||||| 191 32.18 ||||||||||||||||||||||||||||||||

Page 13: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

192 30.06 |||||||||||||||||||||||||||||| 193 27.60 ||||||||||||||||||||||||||| 194 28.58 |||||||||||||||||||||||||||| 195 29.76 ||||||||||||||||||||||||||||| 196 26.98 |||||||||||||||||||||||||| 197 31.64 ||||||||||||||||||||||||||||||| 198 30.57 |||||||||||||||||||||||||||||| 199 25.22 ||||||||||||||||||||||||| 200 22.22 |||||||||||||||||||||| 201 19.23 ||||||||||||||||||| 202 22.36 |||||||||||||||||||||| 203 25.60 ||||||||||||||||||||||||| 204 31.22 ||||||||||||||||||||||||||||||| 205 32.77 |||||||||||||||||||||||||||||||| 206 33.27 ||||||||||||||||||||||||||||||||| 207 31.59 ||||||||||||||||||||||||||||||| 208 25.90 ||||||||||||||||||||||||| 209 27.96 ||||||||||||||||||||||||||| 15 base start uniq distribution 63872 CCTGTTCGCTCCCCA 552 CTGTTCGCTCCCCAC 458 CCTGTTTGCTCCCCA 243 CCTGGTCGCTCCCCA 66 CCTGTTCACTCCCCA 63 TGTTCGCTCCCCACG 53 CCTGTTAGCTCCCCA 44 CCTGTTCGCTCCCAA 37 CCTGTTCGCTCCACA 36 CCTATTCGCTCCCCA 15 base end uniq distribution 51677 ATAGCCGCCTACGCA 766 TAAGGCTTTCACGCT 720 AGCCTAAGGCTTTCA 681 ATAGCAGCCTACGCA 593 ATAGACGCCTACGCA

Page 14: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

569 CCTAAGGCTTTCACG 509 CTAAGGCTTTCACGC 506 GCCTAAGGCTTTCAC 417 AAGGCTTTCACGCTT 376 ATAGCCGACTACGCA 0:99 983 100:199 11150 200:299 54534 Total number of sequences: 66667 N25 stats: 25% of total sequence length is contained in the 15992 sequences >= 209 bp N50 stats: 50% of total sequence length is contained in the 31984 sequences >= 209 bp N75 stats: 75% of total sequence length is contained in the 47975 sequences >= 209 bp Base Count %Composition A 2353155 17.60 G 2756523 20.62 C 4917100 36.78 T 3342079 25.00 Subtotal: 13368857 N 107 0.00 X 0 0.00 Total: 13368964 GC %: 57.40 Purines AG%: 38.22 Pyrimidines CT%: 61.78 From the pipeline statistics, it can also be seen that the species entropy is quite low suggesting that the library comprises of only one species (we already know this). To see which species it is, we will look at the frequency file and notice that 99% of the reads correspond to Caldicellulosiruptor saccharolyticus. Any other species present may suggest a carry-over. [uzi@quince-srv2 ~]$ cat 9_GTATGCGCTGTA_L001_R1_trim_001.freq Akkermansia_muciniphila 0.000046 Anaerocellum_thermophilum 0.000061

Page 15: AMPLICONanalysis v0.2: Pipeline for 16S rRNA datasets ...userweb.eng.gla.ac.uk/umer.ijaz/AMPLICONanalysis.pdf · Umer Zeeshan Ijaz, Christopher Quince ... The pipeline logs each step

Bacteroides_thetaiotaomicron 0.000229 Bacteroides_vulgatus 0.000046 Bordetella_bronchiseptica 0.000137 Burkholderia_xenovorans 0.000031 Caldicellulosiruptor_saccharolyticus 0.998183 Chloroflexus_aurantiacus 0.000031 Clostridium_thermocellum 0.000367 Deinococcus_radiodurans 0.000061 Desulfovibrio_piger 0.000153 Dickeya_dadantii 0.000031 Fusobacterium_nucleatum 0.000061 Herpetosiphon_aurantiacus 0.000031 Methanococcus_maripaludis_S2 0.000031 Rhodopirellula_baltica 0.000061 Salinispora_tropica 0.000046 Shewanella_baltica_OS223 0.000076 Sulfitobacter_sp.NAS-14.1 0.000046 Thermoanaerobacter_pseudethanolicus 0.000031 Treponema_denticola 0.000031 Treponema_vincentii 0.000061 Zymomonas_mobilis 0.000031 0.0172577569725545 From the pipeline statistics, we can compare OVERLAP_TOTAL_READS and TRIMMED_FORWARD_TOTAL_READS to notice that 97% ((64703/66667)*100) of the paired-end reads were assembled successfully and only two chimeras (OVERLAP_CHIMERIC_DEREPLICATED_TOTAL_READS) were found, suggesting the dataset to be of good quality.