PBcR - 糾錯及組裝算法


單分子測序reads(PB)的混合糾錯和denovo組裝

我們廣泛使用的PBcR的原始文章就是這一篇

原文鏈接:Hybrid error correction and de novo assembly of single-molecule sequencing reads

簡介:PBcR里面有一種自糾算法(PacBioToCA),糾錯的核心本質就是多重序列比對,為了加快比對速度使用了MHAP算法(MinHash)。三代的錯誤分布不是完全隨機的,不要以為錯誤是均勻分布的!!!

摘要:


PB技術可以產生極 的reads,可以顯著提高基因組和轉錄組的組裝。

然而,單分子測序的reads的error rate非常高,這限制了它們在重測序方面的應用。

為了解決這個問題,我們創造了PBcR這個糾錯算法組裝策略:使用短的、高精准度的reads 來校正單分子測序reads中的錯誤。

我們在PB RS平台證明了這個算法的實用性,從噬菌體、原核、真核;從基因組到轉錄組。

我們的長reads糾錯達到了99.9%的base-call accuracy,從而使得組裝的效果比當下的策略更好。

在最好的栗子里,三代的組裝結果的contig的N50是二代的組裝結果的五倍。

 

前言:


二代技術:454焦磷酸測序,Illumina邊合成邊測序,低成本,高通量;相較於一代的sanger測序。

二代的明顯的缺點:測序之前,源DNA需要擴增,會引入偏差;reads短,導致組裝和分析困難。

三代,單分子,實時測序,無偏差,reads長,周期短,有利於denovo的基因組和轉錄組組裝,可以解決復雜的重復,可以跨越基因的整個轉錄本。

然而,三代只有82.1%~84.6%的准確率,主要由insertion和deletion造成(Supplementary Fig. 1).

如此高的錯誤率會嚴重影響reads的比對,雙序列比對會double錯誤率,遠超過5%~10%的組裝軟件的承受范圍;簡單的增加alignment sensitivity是不可行的。(Supplementary Table 1 and Supplementary Figs. 2 and 3).

此外,PacBio技術使用了發卡接頭hairpin adaptors 來對雙鏈double-stranded DNA進行測序,這將會導致嵌合體chimeric reads ,如果測序反應進行到DNA的兩條鏈,

雖然你在PacBio RS上可以通過多次讀取一個環狀分子(circular consensus or CCS) 來生成高准確度的reads,這種方法降低了reads的長度,受分子被遍歷的次數影響,導致了一個更短的reads,因此長的single-pass reads有一個很大的潛在的優勢,如果可以從算法層次上管理錯誤率。

為了克服單分子測序數據的限制,解鎖它在denovo組裝上的全面的潛能,我們開發出了一套方法來利用短的、高精確度的序列來糾正 長的、單分子的內在錯誤(Fig. 1).

image

PBcR單分子reads糾正和組裝方法:

a)黑線表示錯誤,粉紅色條表示single-pass PacBio RS reads,這很難檢測reads之間是否有overlap;

b)將高保真短讀長reads比對到容易出錯的長reads,之所以可以計算出准確的比對結果,是因為短長是長長錯誤的一半。短reads上的黑線表示比對錯誤,是短reads和長reads之間共同的錯誤。此外,兩個不精確的重復導致短reads的堆積,為了避免reads比對的錯誤,算法選擇了一個cutoff,C  前C的留下,后C的丟掉。(PB上高錯誤的區域Hiseq也是比對不上的

c)留下來的比對用來生成一個新的consensus 序列(紫色),trimming and splitting長reads,如果有短reads有gap(在沒有覆蓋度的地方任務截斷了,絕對有假陽性,因為二代測不到GC特殊區域)。測序錯誤會傳播給PBcR,當PB和Hiseq有共同的錯誤。

d)糾錯后,可以很容易的檢測出long PBcR sequences的overlap。

e)組裝結果可以跨過重復,那些短reads無法跨過的地方。

注:PB中的無效區域是肯定存在的,可以直接通過Hiseq的覆蓋度信息去除(不要切斷中間),可能還要考慮GC區域才會完美。

嵌合體怎么解決,還是在組裝時會自動解決。

我們的PBcR(PacBio corrected Reads)算法作為Celera Assembler的一部分,截斷糾正單獨的單分子reads,通過首先將短reads 比對到長reads上來計算一個高度准確 混合consensus 序列:提高了reads的准確度從80%到了99.9%。

然后,糾正了的混合PBcR reads可以來單獨進行denovo組裝,或者結合其他數據,或者導出來做其他應用。

下面將會展示幾個重要的基因組,包括之前沒有測序的1.2-Gbp。incorporation of PacBio data using this method leads to greatly improved assembly quality versus either first- or second-generation sequencing, indicating the promise of ‘third-generation’ sequencing and assembly.

結果


長reads的denovo組裝

 

糾錯准確度和結果

 

混合denovo組裝

 

長read的覆蓋度對組裝的影響

 

鸚鵡基因組的組裝結果

 

單分子RNA-Seq糾錯

 

討論


 

方法

 

 

待續~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM