對初步組裝進行polish
以FASTA和BAM文件作為輸入,根據比對結果對輸入的參考基因組進行提高,包括
- 單鹼基差異
- 小的插入缺失(indels)
- 較大的插入缺失或者block替換
- 填充參考序列中的N
- 找到局部的錯誤組裝
最后輸出polish后的FASTA文件
利用第二代數據和第三代數據進行混裝(Hybrid assembly),這種方法充分發揮了第二代數據質量高和第三代數據片段長的優勢,組裝出來的結果質量普遍比較高。混裝策略的其中一種是先用第二代數據對第三代片段進行糾錯,然后將第三代長片段組裝成contigs,最后基於第二代的mate-paired數據生成scaffolds,如Pilon[41]軟件支持該方法。2016年Jeong-Sun等[42]使用后一種方法完成了韓國人基因組的組裝,組裝完成之后的contigs和scaffolds N50分別達到17.9 Mb和44.8 Mb。
consensus得到的fa與consensus+pilon得到的fa, 由於N50反映的是序列的長度,不能反映polion所做的修改單鹼基差異等提升效果。Busco理論上可以反映提升效果,局部錯誤糾正后理論的busco值應該更大了。
參考來源:
https://www.jianshu.com/p/cceeb7d1f413
盧鵬, 金靜靜, 李澤鋒, 等. 基於第三代測序技術的基因組組裝方法及其在煙草中的應用. 煙草科技, 2018, 51(2): 87-94.
