原文鏈接:Large Genome Assembly with PacBio Long Reads
可以以多種方式利用PacBio長reads來生成和改進大型基因組的de novo組裝。
你可以用幾種不同的方法:
- PacBio-only de novo 組裝。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
- 混合de novo組裝。combination of PacBio and short read data; hybrid assembly
- 填充Gap。mate-pair based assembly;
- Scaffolding。join contigs

圖:PacBio裝配方法的說明
下面我們討論什么軟件是可用的,如何選擇軟件,以及額外的考慮。
1.軟件選擇
1.1 PacBio-only
- HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver
- Falcon 一個實驗性的二倍體組裝工具,測試multi Gb genomes。
- Canu Celera Assembler的一個分支,專門用於高噪音單分子測序。
- Celera® Assembler 提供直接組裝subreads的一種方式
- Sprai preassembly-based的組裝工具,目標是generate longer contigs。
1.2 混合使用
- pacBioToCA Celera® Assembler的一個error correction模塊,最初是用來align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以組裝These error corrected reads。
- ECTools 一組工具,使用contigs代替short reads 來進行correction。
- SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
- Cerulean 從ABySS 的assembly graph開始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物種中運行。
- **dbg2olc ** 使用Illumina contigs作為anchors 來建立overlap graph,使用PacBio reads,性能非常好。
1.3 Gap Filling
- PBJelly 2 使用PacBio reads來fill in gaps in scaffolds。genomes >1 Gb下已成功運行,
2.額外的考慮
2.1 覆蓋度和軟件選擇
算法選擇:how much PacBio sequencing can be obtained 和 what types of short read data are available。
一般:
- PacBio-only de novo:get at least 50X PacBio coverage
- HGAP:minimum recommended coverage下表現最好
- PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
... - PBcR and ECTools :20X PacBio coverage
- PBJelly 2:a high quality set of scaffolds exists
...
at least PacBio 5X coverage to fill gaps

圖:PacBio 算法 推薦 from a PAG 2014
2.2 重復的內容
de novo assembly最大的挑戰之一
解決方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.
2.3 倍數性
大部分組裝工具都是為單倍體設計的。
二倍體基因組染色體之間的結構變異較少
2.4 Short-Read數據的覆蓋偏差
extreme GC composition
2.5 計算消耗
減少時間消耗:align short read contigs to PacBio reads
2.6 基因組草圖的質量
Gap filling of mate pair-based scaffolded assemblies
