「三代組裝」使用Pilon對基因組進行polish


對初步組裝進行polish

 

以FASTA和BAM文件作為輸入,根據比對結果對輸入的參考基因組進行提高,包括

  • 單鹼基差異
  • 小的插入缺失(indels)
  • 較大的插入缺失或者block替換
  • 填充參考序列中的N
  • 找到局部的錯誤組裝

最后輸出polish后的FASTA文件

 

利用第二代數據和第三代數據進行混裝(Hybrid assembly),這種方法充分發揮了第二代數據質量高和第三代數據片段長的優勢,組裝出來的結果質量普遍比較高。混裝策略的其中一種是先用第二代數據對第三代片段進行糾錯,然后將第三代長片段組裝成contigs,最后基於第二代的mate-paired數據生成scaffolds,如Pilon[41]軟件支持該方法。2016年Jeong-Sun等[42]使用后一種方法完成了韓國人基因組的組裝,組裝完成之后的contigs和scaffolds N50分別達到17.9 Mb和44.8 Mb。

 

consensus得到的fa與consensus+pilon得到的fa, 由於N50反映的是序列的長度,不能反映polion所做的修改單鹼基差異等提升效果。Busco理論上可以反映提升效果,局部錯誤糾正后理論的busco值應該更大了。

 

參考來源:

https://www.jianshu.com/p/cceeb7d1f413

盧鵬, 金靜靜, 李澤鋒, 等. 基於第三代測序技術的基因組組裝方法及其在煙草中的應用. 煙草科技, 2018, 51(2): 87-94.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM