12
COMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告 新学術領域研究 「複合適応形質進化の遺伝子基盤解明」 Newsletter Vol. 3 No. 4 2012

COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

COMPLEX ADAPTIVE TRAITS

平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

新学術領域研究 「複合適応形質進化の遺伝子基盤解明」

Newsletter

Vol. 3 No. 4 2012

Page 2: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

表紙写真:ホソヘリカメムシ Riptortus pedestris。このカメムシの中腸後部には多数の盲嚢が存在し,その内腔にβプロテオバクテリアのBurkholderia属共生細菌を保有する。この共生細菌は宿主の成長や繁殖を促進する効果があるほか、有機リン系殺虫剤の分解活性をもつ共生細菌系統に感染した宿主は殺虫剤抵抗性になる。この共生細菌は培養可能で高品質のゲノムDNAを容易に多量に調製可能であり、Illumina HiSeq 2000だけによる完全塩基配列決定にはゲノムサイズが大きく(> 5 Mb)またGC-richであることから、Illumina HiSeq 2000とPacBio RSの併用によるゲノム決定のモデルケースとして検討をおこなっている(産業技術総合研究所 菊池義智、深津武馬)。

Page 3: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

1

新学術領域研究「複合適応形質進化の遺伝子基盤解明」

オープンセミナー“Challenge to de novo sequence of relatively large genomes with new sequence technologies”開催報告

西山智明(金沢大学際実験センター)

門田幸二(東京大学大学院農学生命科学研究科

アグリバイオインフォマティクス教育研究ユニット)

長谷部光泰(基礎生物学研究所)

新型 DNAシーケンサーの普及により、モデル生物はもとより、非モデル生物のゲノム解読も

1研究室単位で出来る時代になりつつある。しかし、植物や動物のようにギガベース単位のゲノ

ム解読は、まだまだ容易ではない。そこで、リピート配列の多い複雑なゲノムをアセンブルする

方法、コンピューターフレームワークの改良、PacBio RSの配列を効率良く修正する方法等に関

する最新の研究成果について議論するべく、新学術領域研究「複合適応形質進化の遺伝子基盤解

明」は BGI および東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研

究ユニットと共同で“Challenge to de novo sequence of relatively large genomes with new sequence

technologies” と題するセミナーを開催した。

まず具体例として、Zhiyong HUANGが HiSeq2000 によるカキとトノサマバッタゲノム解読に

ついて発表した。カキゲノムの解析では BAC by BACと全ゲノムショットガンの中間的な手法

として fosmid のプールをシークエンスしてそこからコンセンサスを作成する方法で解読に成功

している。次いで Xiaodong FANG が単一の大きなメモリーを持つコンピュータではなく、少量

のメモリーを搭載したコンピュータを多数用いてアセンブリーを行う手法について紹介した。ア

センブリーにおける部分グラフをうまく分散させることが要点である。

休憩を挟んで西山が、PacBio と Illumina のデータを用いるハイブリッド戦略を紹介した。バ

クテリアゲノムを ALLPATHS-LGでアセンブルした時の PacBioデータの効果を示し、フクロユ

キノシタゲノムの解析進捗状況について紹介した。続いて Likai MAOが、フクロユキノシタの

PacBioシーケンスを pacBioToCAを用いて Illuminaデータによって補正するためのコンピューテ

ィング上の困難点について紹介した。

最後に笠原が、Illuminaのデータを使わず、PacBio RSのデータのみを用いてエラーを補正す

る新手法について紹介した。一般にはエラーが多すぎて修正は難しいと考えられていたが、多重

アラインメントと多数決による修正を繰り返すことによって、現実的に修正が可能である事を大

腸菌のデータで示した。

Page 4: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

2

【開催概要】

2012年 9月 25日 13:30~18:00

東京大学農学部 2号館 化学第一講義室

13:30-14:15 Zhiyong HUANG (BGI)

“Assembling of Crassostrea gigas and Locusta migratoria reveals the new method in large and

complicated genome assembly”

14:15-15:00 Xiaodong FANG (BGI)

“Flexible computing frameworks for large genome de novo assembly”

Coffee Break (15:00-15:30)

15:30-16:15 Tomoaki Nishiyama (Advanced Science Research Center, Kanazawa University)

“Illumina and PacBio sequences for de novo assembly”

16:15-17:00 Likai MAO (BGI)

“Assembling the genome of Cephalotus follicularis”

Coffee Break (17:00-17:15)

17:15-18:00 Masahiro Kasahara (Department of Computational Biology, Graduate School of Frontier

Science, The University of Tokyo)

“Error correction algorithms for de novo genome assembly using PacBio reads”

Page 5: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

3

【講演要旨】

Zhiyong HUANG (BGI)

“Assembling of Crassostrea gigas and Locusta migratoria reveals the new method in large and

complicated genome assembly”

The Pacific oyster (Crassostrea gigas) belongs to one of the most species-rich but genomically poorly

explored phyla, the Mollusca. The oyster genome is highly polymorphic and rich in repetitive sequences

with some still actively shaping the genome which makes it mighty difficult for assembly. Here we report

the sequencing and assembly of the oyster genome using short-reads and a fosmid-pooling strategy. The

final assembly comprised of 559 Mbp, with a length-weighted median (N50) contig size of 19.4 Kbp and

a N50 scaffold size of 401 Kbp. The migratory locust (Locusta migratoria) is one of the world's most

destructive insect pests, affecting the livelihoods of one in ten people on Earth. Locust biology has long

been the object of intense scientific study, to try to find the best control strategy. Locusts are of

considerable interest as a model for studying phenotypic plasticity and collective movement. However,

the big genome size (approximately 7Gb) has slacked the genome analysis steps. To improve the

assembly, especially the gene structure, RNA-seq information was used for scaffold construction and

gene model correction. The RNA-seq data was generated from various samples, also include one

normalized library. Finally, the N50 contig size was 9.293 kilobases (Kb), N50 scaffold size 320.3 Kb

and a total gapped size 6.9 gigabases (Gb).

Page 6: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

4

Xiaodong FANG (BGI)

“Flexible Computing Frameworks for Large Genome de novo Assembly”

The availability of reference genome sequence for a given species is of critical importance to better

understand the species, it enable scientists to study the creature in genome-wide and systematically. De

novo sequencing and assembly is the way to decode a species and achieve its reference sequence, but

currently sequencing technology and assembling algorithm face challenges to deal with genome with high

complexity. Genome sizes various sharply among organisms, ranged from several Kbp in virus to up to

670G in Amoeba. The largest genome published till now are mammalian which typically with a size of

3Gb, but there are also many other important species with a large genome size wanting to be decoded,

such as wheat and sugarcane. The challenges for large genome assembly are due to sequencing

technology, assembling algorithm and the computational complexity. The combination of Illumina

sequencing technology and SOAPdenovo which designed for de novo genome assembly software have

been proven to be successful in many genome project, but the challenge to assembly organisms with large

genome size remains, one of the major problem is computational complexity. The larger of the genome,

the more memory required, that means high performance computers are needed thus the cost increases.

Here, we provide a flexible computing solution for large genome de novo assembly which does not

require a super computer but a cluster.

Page 7: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

5

Tomoaki Nishiyama (Advanced Science Research Center, Kanazawa University)

“Illumina and PacBio sequences for de novo assembly”

Next generation sequencers producing very cheap and accurate but short sequences greatly accelerated

sequencing a number of organisms, including animals and plants. After the publication of the Giant Panda

Genome with SOAPdenovo, a number of genome assemblers aiming at relatively large genomes have

been published. Two major difficulties in the assembly of non-model organisms are presence of repetitive

sequences and presence of heterozygosities. Mate-pair library with a distance larger than the repetitive

sequence is essential for solving the problem. The third generation sequencer or the Single Molecule Real

Time (SMRT) sequencing technology by Pacific Biosciences implemented in PacBio RS produces a read

of several thousand nucleotides in length, albeit with a high error rate of 10 to 20%.

Since the introduction of PacBio RS as a shared facility of the Grant-in-Aid for Scientific Research on

Innovative Areas "Genetic Bases for the Evolution of Complex Adaptive Traits", we sequenced a

bacterium and several plants and animal sequences. We will present the performance, error rate and

patterns as estimated with the reference, and experience in assembly with available programs. Because of

the high error rate, assembly with PacBio data only is not likely feasible in near future, but a hybrid

strategies using both Illumina and PacBio data are considered promising. For hybrid approaches there are

two ways, one is error correction of PacBio data using Illumina sequences and the other is use of PacBio

data for gap filling of Illumina based scaffolds. Performance of published programs is tested on the

bacterial genome.

Page 8: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

6

Likai MAO (BGI)

“Assembling the genome of Cephalotus follicularis”

Cephalotus follicularis has a relatively large genome size (~2G based on our estimation). The probability

of high proportion of repetitive sequences has been seen in its genome. This adds another layer of

difficulty to the assembly of this genome. By 2nd-generation sequencing, we obtained more than 50X of

clean data. However, these data failed to be assembled into a genome with high quality. Third-generation

sequencing which produces long reads is providing big hope for such difficult tasks of assembling of

large genomes. However, we still need to deal with the problem of high error rate. In this talk, we will

present our work of assembling the genome of Cephalotus follicularis illustrating promising hybrid

strategy of combining 2nd- and 3rd-generation sequencing data with error correction implemented.

Page 9: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

7

Masahiro Kasahara (Department of Computational Biology, Graduate School of Frontier Science, The

University of Tokyo)

“Error correction algorithms for de novo genome assembly using PacBio reads”

With the advent of Illumina HiSeq, de novo assembly of genomes using Illumina sequencers became

common because it is very cost efficient. However, complex genomes with a large amount of repetitive

elements are still hard to assemble using short reads produced by Illumina sequencers. To accurately

assemble large and complex genomes, longer reads are demanded. A recently launched sequencer,

PacBio RS yields the longest reads among commercially available seqeuncers and application to de novo

assembly is pursued by many groups in the world.

To put PacBio reads into a portfolio of sequencing reads, we must devise an assembly algorithm to

accommodate a much higher sequencing error rate or otherwise correct sequencing errors in PacBio reads.

The sequencing error rate is approximately 15% (although the figure is dependent on read filtering

parameters) and the errors are dominated by insertions and deletions, which are harder to handle by

existing alignment/assembly algorithms in a reasonable running time. For example, PacBioToCA is the

most famous pipeline that corrects sequencing errors in long PacBio reads using other reads such as

Illumina reads, but it runs too slow for larger genomes and was unable to produce results, at least at our

site.

To this end, we developed a new error correction algorithm that is more efficient and scalable. We will

introduce the performance for a pilot project and discuss a way to assemble large and complex genomes

particularly of wild-type individuals.

Page 10: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

8

新学術領域研究「複合適応形質進化の遺伝子基盤解明」

第9回インフォマティクス情報交換会報告

本新学術研究領域では、実験上の問題点の共有と解決に資する目的で、各計画・公募研究班ご

とにインフォマティクス担当者を設定し、年 4 回のインフォマティクス情報交換会を開催して、

意見交換をおこなっている。

第9回インフォマティクス情報交換会は 2012年 9月 26日に東京大学弥生キャンパスにて開催

された。

今回は、第8回インフォマティクス情報交換会にて藤山先生より紹介のあった遺伝研 DDBJ

スーパーコンピュータシステムについて実際のシステム構成や、基礎生物学研究所の生物情報解

析システムと比較しての特徴について紹介した。

また、PacBio が本格的に稼働するようになったうえ、更なる機械のアップデートがあったの

で、柴田よりこれまでの稼働状況及びアップデートの内容を紹介した。新たに導入されたのは、

磁性ビーズに吸着した鋳型 DNA・ポリメラーゼ複合体を、磁力によって積極的にセルの上を移

動させることにより、シークエンスを行う穴に鋳型 DNAポリメラーゼ複合体を導入するシステ

ムである。結果として、DNAの必要量が 1/10から 1/5程度に減少した。リード長の分布は従来

と変わらないが、サブリード長の分布では 4 kbから 6 kbのデータの割合が増加しているように

見えるデータが得られているが、まだアップデートしたばかりで十分なデータの蓄積がないので、

さらに様子を見る予定である。

最後に、第8回インフォマティクス情報交換会で好評を博したマスタープラン第2弾として、

バイオインフォマティクスを始めて約半年の柴田より、バクテリアゲノムの PacBio と Illumina

のデータを用いて、Allpaths-lgでハイブリッドアセンブリを様々なパラメータの組合わせで行う

過程について詳しい紹介をおこなった。

2012年 10月 1日

新学術領域研究「複合適応形質進化の遺伝子基盤解明」

ゲノム支援担当

西山智明

Page 11: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

9

【開催概要】

2012年 9月 26日 9:00 ~ 11:30

会場 東大農学部 2号館 化学第一講義室

9:00-9:30 「基生研計算機システムと DDBJスーパーコンピュータの特徴」西山智明

9:30-9:50 「PacBio RS シークエンサーの現状」柴田朋子

休憩

10:00-11:00 「アセンブリはじめて物語」柴田朋子

Page 12: COMPLEX ADAPTIVE TRAITSCOMPLEX ADAPTIVE TRAITS 平成24年度インフォマティクスオープンセミナー開催報告 第9回インフォマティクス情報交換会報告

COMPLEX ADAPTIVE TRAITS Newsletter Vol. 3 No. 4 発 行:2012年11月14日

発行者:新学術研究領域「複合適応形質進化の遺伝子基盤解明」(領域代表者 長谷部光泰)

編 集:COMPLEX ADAPTIVE TRAITS Newsletter 編集委員会(編集責任者 深津武馬) 領域URL:http://staff.aist.go.jp/t-fukatsu/SGJHome.html