PacBio長reads的大基因組組裝


原文鏈接:Large Genome Assembly with PacBio Long Reads


可以以多種方式利用PacBio長reads來生成和改進大型基因組的de novo組裝。
你可以用幾種不同的方法:

  1. PacBio-only de novo 組裝。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
  2. 混合de novo組裝。combination of PacBio and short read data; hybrid assembly
  3. 填充Gap。mate-pair based assembly;
  4. Scaffolding。join contigs


圖:PacBio裝配方法的說明


下面我們討論什么軟件是可用的,如何選擇軟件,以及額外的考慮。

1.軟件選擇

1.1 PacBio-only

  1. HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver
  2. Falcon 一個實驗性的二倍體組裝工具,測試multi Gb genomes。
  3. Canu Celera Assembler的一個分支,專門用於高噪音單分子測序。
  4. Celera® Assembler 提供直接組裝subreads的一種方式
  5. Sprai preassembly-based的組裝工具,目標是generate longer contigs。

1.2 混合使用

  1. pacBioToCA Celera® Assembler的一個error correction模塊,最初是用來align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以組裝These error corrected reads。
  2. ECTools 一組工具,使用contigs代替short reads 來進行correction。
  3. SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
  4. Cerulean 從ABySS 的assembly graph開始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物種中運行。
  5. **dbg2olc ** 使用Illumina contigs作為anchors 來建立overlap graph,使用PacBio reads,性能非常好。

1.3 Gap Filling

  • PBJelly 2 使用PacBio reads來fill in gaps in scaffolds。genomes >1 Gb下已成功運行,

2.額外的考慮

2.1 覆蓋度和軟件選擇

算法選擇:how much PacBio sequencing can be obtained 和 what types of short read data are available。
一般:

  • PacBio-only de novo:get at least 50X PacBio coverage
  • HGAP:minimum recommended coverage下表現最好
  • PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
    ...
  • PBcR and ECTools :20X PacBio coverage
  • PBJelly 2:a high quality set of scaffolds exists
    ...
    at least PacBio 5X coverage to fill gaps


圖:PacBio 算法 推薦 from a PAG 2014

2.2 重復的內容

de novo assembly最大的挑戰之一
解決方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.

2.3 倍數性

大部分組裝工具都是為單倍體設計的。
二倍體基因組染色體之間的結構變異較少

2.4 Short-Read數據的覆蓋偏差

extreme GC composition

2.5 計算消耗

減少時間消耗:align short read contigs to PacBio reads

2.6 基因組草圖的質量

Gap filling of mate pair-based scaffolded assemblies

2.7 大量的插入庫

3.數據集和實例項目

4.附加鏈接


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM