三代測序及基於三代數據的基因組組裝流程評估
名詞解釋
1D:ONT平台僅測一個DNA分子的一條鏈,測序通量比2D高但准確率低於2D序列。
2D:bi-directional reads即ONT平台測DNA分子的正負兩鏈並互相矯正合並的測序數據。
OLC:Overlap-Layout-Consensus算法,先查找全部序列的重疊區域(overlap),基於重疊區域可以獲得全部序列的布局圖(layout),最終依此預測一致性序列(consensus),該算法為一/三代測序(長序列)的主流算法。
DBG:De-Bruijn graph算法,先將序列打斷為更短的k-mer,然后再進行構圖,該算法為二代測序(短序列)的主流算法。
Na50:將組裝結果從組裝錯誤點打斷再進行N50統計的結果。
背景介紹
測序平台及其優勢介紹:
PacBio(Pacific Biosciences) RSⅡ后續為方便描述會將該平台的數據簡稱為PacBio數據:
利用單分子熒光技術進行測序,測序讀長為5-60kb(平均長度12kb左右)。
測序錯誤極少存在偏好性,絕大部分為隨機錯誤,可加大測序量矯正至錯誤率低於0.01%。
數據產出量高,每個run能產出1Gb的數據。
MinION(Oxford Nanopore Technology)后續為方便會將該平台的數據簡稱為ONT數據:
利用納米孔測序技術進行測序,1D數據最長可達300kb,2D也可以達到60kb。
測序數據為雙鏈測序,單次測序正確率略高於PacBio。
測序儀小巧,便於攜帶。
組裝流程及其基礎算法介紹:
基於OLC(Overlap-Layout-Consensus)算法的流程:
a) PBcR-Self:僅使用三代數據進行PBcR組裝的流程
b) PBcR-Miseq:使用二代(Miseq)三代數據進行混合組裝的PBcR流程
c) Canu
d) Falcon
e) SMARTdenovo(無鹼基矯正步驟)
基於DBG(De-Bruijn graph)算法的流程:
a) ABruijin
流程自帶算法的流程:
a) Miniasm(基於overlap延伸,無鹼基矯正也無組裝結果矯正)
b) Racon(基於Miniasm組裝結果進行矯正)
基因組測序篇
本次實驗使用兩個三代平台(RSⅡ、MinION)分別對釀酒酵母S288C、N44、CBS、SK1進行測序比試其測序結果如何,測序結果統計如下:

從圖中可以明顯的看到,PacBio的數據產出量遠高於ONT,但是ONT的測序數據平均長度高於PacBio。
關於圖中ONT數據S288C的測序數據中存在較高的雜峰的問題,作者在使用ONT對S288C的測序中使用了兩種flowcell——R7.3&R9,R9的測序精確度高,但是在本次的實驗中R9的數據產出及通過量卻少的驚人,兩個flowcell只產出了700Mb的2D數據,其中2D-Pass只有60Mb,因此作者只能將R7.3和R9的數據合並在一起作為ONT的數據進行統計。即便如此,ONT的數據也只有61X的數據(平均約參考基因組大小的61倍的數據),2D-Pass數據僅31X。相比之下,PacBio 120X的測序數據就顯得非常優異了。
基因組組裝篇
三代基因組組裝時數據量對組裝結果的影響較大且ONT的數據量偏少,為了消除數據量差異造成的組裝結果差異,作者將PacBio的數據抽提成ONT水平的數據,具體參照指標是ONT數據的數據量、基因組覆蓋乘數及測序數據長度分布,抽提結果如下:

在盡可能消除了數據量及長度差異對組裝造成的影響后,正式進入組裝步驟。
兩測序平台數據於八個組裝流程的組裝結果如下表:
ONT數據組裝結果統計表

PacBio數據組裝結果統計表
每個流程於評測指標中最好的部分均已加粗,由於PBcR-Miseq在Identity方面表現過於優異,因此在Identity方面還會將第二位的流程的數據字體加粗並加上下划線。這里也引入了一個新的概念Na50,可以依此判斷流程正確組裝的程度。作者也選取了酵母數據庫中的S288C的全部基因(6615個)用BWA比對到各個組裝結果中以作為一個評判基因組組裝結果的指標。
從上面的統計表中我們可以看到,在二代三代混合組裝流程(PBcR-Miseq)相比於其他全三代數據組裝流程,混合流程組裝結果擁有最高的Identity,最少的錯誤組裝和SNP/InDel,但是缺點也很明顯,消耗更多的資源以及裝出了遠超於三代流程的Contig數目。
在三代組裝流程的混戰中就可以說是各有千秋了:Miniasm占用的組裝資源最少,但是組裝結果卻不讓人滿意,Racon基於Miniasm的結果進行矯正可以在使用ONT數據時提供最高的准確率使組裝結果更加完整但是在占用資源方面卻不再擁有絕對優勢;SMARTdenovo相比於其他流程占用資源量較少,且組裝結果較為優秀;Canu&PBcR-Self在使用PacBio數據的時候提供了非混合流程中最高的准確率且在數據量減少的情況下依舊能組裝出不俗的結果。
數據平台差異分析
兩平台數據的組裝結果在除了InDel平均數量和線粒體的組裝完成度方面以外都表現出了相當高的一致性,因此作者在InDel方面進行了深入地研究。
研究發現,ONT平台在同聚體(homomer)方面的測序結果不如人意,在Canu的組裝結果和參考基因組的比對中發現絕大部分的插入缺失都是5-homomers(“AAAAA”,”TTTTT”,”CCCCC”,”GGGGG”),但是有趣的是在用Nanopolish對Canu的組裝結果進行修正之后,這些缺失大部分都會被填上,偶爾還會多出一些。

可惜Nanopolish在對於12.1Mb大小基因組的31X2D數據進行處理的時候占用了1835個小時的CPU時間,這也決定了在更大數據量的基因組組裝的過程中Nanopolish很難在派上用場。
在線粒體組裝的過程中,使用PacBio數據的流程Racon, SMARTdenovo和Canu都完成了完整線粒體的組裝,Miniasm也重構出了77%的線粒體,但是在ONT數據方面除了可以使用二代數據進行矯正的PBcR-Miseq流程完成了96%的線粒體基因組組裝,其他流程中組裝最好的流程Falcon&Canu分別組裝了67%和64%的線粒體基因組。
為了查明線粒體組裝和核染色體差異的問題,作者將S288C參考基因組每個染色體中的5-homomers按照長度平均后與線粒體的平均5-homomers做比值后發現,線粒體中的5-homomers的比例遠高於其他染色體。

總結篇
31X的三代數據就可以組裝出可信度高於98%(ONT)、99%(PacBio),Na50s大於550Kb的組裝結果,當混入二代數據作為輔助的時候可將可信度提高到99.98%
PacBio的測序數據平均長度明顯低於ONT,但是ONT的數據產出量卻遠低於PacBio,這可能是由於使用的ONT試劑不夠穩定,近期的ONT試劑已經表現出了很高的穩定性。同時本文對比的是PacBio RSⅡ和MinION,將一個台式平台與移動平台進行對比無法說明測序方法之間的差異(移動平台總會犧牲部分性能)。
PacBio的測序錯誤絕大部分為隨機錯誤可以通過加大測序深度來規避該類錯誤,ONT的測序錯誤則可能會對某些特殊序列結構如5-homomers有一定程度的偏好性,這種偏好性可能會導致高同聚體比例的線粒體等組裝遠低於預期。因此ONT的polish步驟很重要,但過於耗時。
在數據組裝方面:
a) 二代數據與三代數據的混合流程能組裝出可信度最高的組裝結果,但是其組裝出來的小片段也最多。
b) PBcR-Self和Canu組裝出了最連續又精確的基因組,並在三代數據減少的過程中依舊表現出最好的組裝能力。
