三代基因組consensus:Minimap+miniasm組裝,racon+pilon糾錯


用Li Heng開發的Minimap+miniasm進行組裝,然后用racon+pilon進行糾錯。

三代測序拼裝軟件,三代測序平台 Nanopore Pacbio 產生的數據的一個共同點就是,讀長長,錯誤率高,在用於分析之前需要對數據進行特殊處理(consensus,糾錯),再進行拼裝任務,Liheng 開發的 Miniasm 可以直接對未處理的長讀長序列進行快速拼裝,在對Miniasm拼裝的Contig序列進行拋光處理后會出現不少SNP/INDEL, Racon 可解決這個問題,Racon是一個基於minimap和miniasm的,構建一致性序列(consensus)的一款軟件,速度快是其特點。支持 (GFA, FASTA, FASTQ, SAM, MHAP and PAF) 等文件輸入格式,相對於 Quiver Nanopolish 通用性更高。

 

第一步:用minimap2,拿着80%~90%正確率的原始數據相互比對, 找序列之間的Overlap。

 

第二步:找到Overlap,用miniasm進行組裝。

 

第三步: 原始的組裝結果充滿了錯誤,所以需要進行糾錯。糾錯分為兩種,一種是用三代自身數據,一種是用二代數據進行糾錯。當然這兩步都是需要的。

  首先用minimap2和racon對三代數據進行糾錯,一般迭代個三次就差不多。

  其次使用二代數據進行糾錯。二代數據雖然短,但是測序質量高,所以一般都要用它進行糾錯。推薦用30X PCR free的illuminia 測序數據。

    Step 1: 數據預處理,過濾低質量短讀,去接頭。工具很多,常用的是trimmomatic、cutadapter、 fastp(處理標准:平均質量高於Q30,對5‘端進行低質量鹼基刪除,保留大於100bp的短讀)

    Step2:用bwa 比對

    step3: 用pilon對比對后的BAM文件進行糾錯

 

參考來源:

https://blog.csdn.net/u012110870/article/details/82500726

http://ju.outofmemory.cn/entry/288897

http://wap.sciencenet.cn/blog-285393-1178834.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM