三代基因組consensus：Minimap+miniasm組裝，racon+pilon糾錯

本文轉載自查看原文 2019-10-30 09:36 895 biosoft

用Li Heng開發的Minimap+miniasm進行組裝，然后用racon+pilon進行糾錯。

三代測序拼裝軟件，三代測序平台 Nanopore / Pacbio 產生的數據的一個共同點就是，讀長長，錯誤率高，在用於分析之前需要對數據進行特殊處理（consensus，糾錯），再進行拼裝任務，Liheng 開發的 Miniasm 可以直接對未處理的長讀長序列進行快速拼裝，在對Miniasm拼裝的Contig序列進行拋光處理后會出現不少SNP/INDEL， Racon 可解決這個問題，Racon是一個基於minimap和miniasm的，構建一致性序列（consensus）的一款軟件，速度快是其特點。支持 (GFA, FASTA, FASTQ, SAM, MHAP and PAF) 等文件輸入格式，相對於 Quiver / Nanopolish 通用性更高。

第一步：用minimap2，拿着80%～90%正確率的原始數據相互比對，找序列之間的Overlap。

第二步：找到Overlap，用miniasm進行組裝。

第三步：原始的組裝結果充滿了錯誤，所以需要進行糾錯。糾錯分為兩種，一種是用三代自身數據，一種是用二代數據進行糾錯。當然這兩步都是需要的。

　　首先用minimap2和racon對三代數據進行糾錯，一般迭代個三次就差不多。

　　其次使用二代數據進行糾錯。二代數據雖然短，但是測序質量高，所以一般都要用它進行糾錯。推薦用30X PCR free的illuminia 測序數據。

　　　　Step 1: 數據預處理，過濾低質量短讀，去接頭。工具很多，常用的是trimmomatic、cutadapter、 fastp（處理標准：平均質量高於Q30，對5‘端進行低質量鹼基刪除，保留大於100bp的短讀）

　　　　Step2:用bwa 比對

　　　　step3: 用pilon對比對后的BAM文件進行糾錯

參考來源：

https://blog.csdn.net/u012110870/article/details/82500726

http://ju.outofmemory.cn/entry/288897

http://wap.sciencenet.cn/blog-285393-1178834.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 對組裝之后的三代基因組進行polish 三代測序及基於三代數據的基因組組裝流程評估三代基因組測序技術原理簡介二代數據組裝葉綠體基因組【基因組組裝】HiC掛載Juicebox糾錯補充【基因組組裝評估】轉錄組比對率【基因組組裝】HiC掛載軟件以及如何用Juice_box手工糾錯？基因組組裝流程參考基因組經典：基因組測序數據從頭拼接或組裝算法的原理