Assembly and diploid architecture of an individual human genome via single-molecule technologies
文章鏈接:專業版“ PacBio 遇到 BioNano“ (三代測序那些事兒 第十二期)
前兩天發表在Nature Mehtods一篇聯合PacBio與BioNano數據組裝人類基因組的文章在行業里引起了不小的震動(這其實也不是PacBio在動植物組裝中的第一次表現了),大家驚訝的發現,原來大型動植物基因組的組裝已經換了新玩法,平均讀長數十kb的全基因組shotgun數據(PacBio)加上一張ScaffoldN50數Mb級別的酶切序列物理圖譜(BioNano),輕松搞定那些讓你夢寐以求的N50。
之前的那些基於NGS的BAC to BAC、Mate Pair的玩法跟它比真的有點low。
這期小編就通過對這篇文章的專業解讀讓大家快速了解下這一新型的基因組組裝玩法。
原文題目:
Assembly and diploid architechure of an individual human genome viasingle-molecule technologies.
文獻解讀:
Ⅰ測序部分
1)PacBio部分:
使用PacBIO RS系統對個體NA12787基因組(diploid)進行了測序,最終使用了1013個SMRT Cell得到了46X PacBio數據,小編想說的是,該研究由於使用的是早期的XL-C2(851 SMRT Cells)或者P5 C3 (162 SMRTCells)測序試劑,所以46X的數據量便耗費了驚人的1000多個SMRT Cell。
我們目前使用的P6C4試劑在通量方面相較於該研究中提到的測序試劑提高了3-10倍,46X的個人基因組數據僅需150個左右的SMRTCell便可搞定,其實已經較好的解決了文章中“The High cost of long-read sequencing are the most obvious concerns”的煩惱。
2)BioNano部分:
使用核酸內切酶Nt.BspQ I對基因組DNA酶切,熒光標記dUTP修復切口,毛細電泳拉直酶切片段,之后便可在顯微鏡下根據熒光位置直接觀察片段大小。
挑選180kb以上的酶切片段,最后利用大學生化上學到的“加減法”原理構建酶切物理圖譜,最終得到Scaffold N50為4.6Mb的Genome map(物理圖譜)。
這種方法無論是在操作的簡潔程度還是最后的物理圖譜質量均是Mate Pair、BAC end 無法比擬的。至於BioNano部分的價格據小編了解,不貴,具體價格需要大家自行去了解。
Ⅱ Denovo組裝部分(總體流程見圖1)
1)Contig 組裝:
研究者使用了PacBio的shotgun數據進行了Contig組裝,首先數據的校正部分主要是使用了FALCON(http://github.com/PacificBiosciences/FALCON)中的模塊進行了三代數據的自我校正。
之后分別使用Celera Assembler 與 FALCON組裝了兩個版本的Contig,前者組裝出22,433條Contig,N50為906kb,后者組裝出29,742條Contig,N50為2.1Mb。
之前使用NGS數據(insert & fosmid)利用Allpaths-LG組裝得到的的NA12787基因組的ContigN50為19kb。
2)Scaffoldding:
使用了一個FALCON的修改版本流程merge了Celera Assembler組裝的Contig與BioNano技構建到的Genomemap,得到了第一個版本的377條Scaffold,N50為13.6Mb。
進一步整合FALCON組裝的的另一個版本的Contig數據,最終得到202條Scaffold,N50為31.1Mb。
3)組裝准確度評估:
分別將NGS版本的與PacBio版本(本研究)的NA12787基因組比對回人類參考基因組hg19,得到以下比對結果(PacBio VS NGS):
Scaffold accuracy:98.7% VS94.9%
Bases missing:7.6% VS 14.9%
New assembly sequence:58Mb VS 9Mb
Sequence identity:99.7% VS 99.8%。
可見,PacBio版本的NA12787單鹼基准確率與NGS版本相當,而在完整性方面更勝一籌。此外,該研究中NA12787組裝版本中的~2G序列分出了單倍體型,haptype N50 為145kb,這是之前NGS版本的NA12787所沒有的。

圖1 Denovo& Variants Calling
Ⅲ結構變異分析部分
結構變異分析是文章中除了Denovo組裝指標之外另外一個亮點,傳統的NGS對於這點基本是束手無策的。
如圖2所示,PacBio的超長讀取數據可以直接覆蓋一些比較復雜的結構變異區域,包括“倒置伴隨插入”、“倒置伴隨缺失”、“倒置伴隨復制”等復雜結構變異。研究中使用的檢出流程主要為PacBio開發的PBHoney。

圖2 利用PacBio 數據檢出復雜結構變異
數百kb-數Mb的BioNano的光學圖譜數據可以直接檢出存在於NA12787基因組上數百kb的大型結構變異,圖3中展示了利用BioNano數據發現的一段206.6kb的插入突變與一段577.3kb的一段導致突變。

圖3 利用BioNano數據解讀大型結構變異
這么看來,PacBio 與 BioNano 這兩位10后小年輕聯手的事兒很靠譜,你覺得呢?
