用Li Heng開發的Minimap+miniasm進行組裝,然后用racon+pilon進行糾錯。
三代測序拼裝軟件,三代測序平台 Nanopore / Pacbio 產生的數據的一個共同點就是,讀長長,錯誤率高,在用於分析之前需要對數據進行特殊處理(consensus,糾錯),再進行拼裝任務,Liheng 開發的 Miniasm 可以直接對未處理的長讀長序列進行快速拼裝,在對Miniasm拼裝的Contig序列進行拋光處理后會出現不少SNP/INDEL, Racon 可解決這個問題,Racon是一個基於minimap和miniasm的,構建一致性序列(consensus)的一款軟件,速度快是其特點。支持 (GFA, FASTA, FASTQ, SAM, MHAP and PAF) 等文件輸入格式,相對於 Quiver / Nanopolish 通用性更高。
第一步:用minimap2,拿着80%~90%正確率的原始數據相互比對, 找序列之間的Overlap。
第二步:找到Overlap,用miniasm進行組裝。
第三步: 原始的組裝結果充滿了錯誤,所以需要進行糾錯。糾錯分為兩種,一種是用三代自身數據,一種是用二代數據進行糾錯。當然這兩步都是需要的。
首先用minimap2和racon對三代數據進行糾錯,一般迭代個三次就差不多。
其次使用二代數據進行糾錯。二代數據雖然短,但是測序質量高,所以一般都要用它進行糾錯。推薦用30X PCR free的illuminia 測序數據。
Step 1: 數據預處理,過濾低質量短讀,去接頭。工具很多,常用的是trimmomatic、cutadapter、 fastp(處理標准:平均質量高於Q30,對5‘端進行低質量鹼基刪除,保留大於100bp的短讀)
Step2:用bwa 比對
step3: 用pilon對比對后的BAM文件進行糾錯
參考來源:
https://blog.csdn.net/u012110870/article/details/82500726
http://ju.outofmemory.cn/entry/288897
http://wap.sciencenet.cn/blog-285393-1178834.html