基因組組裝結果質量評估


參考:【干貨】基因組組裝你了解多少? -- 諾禾致源


動植物基因組de novo工作,其組裝指標的好壞直接影響着整個基因組的質量。而評估基因組組裝結果,contigN50和scaffoldN50是第一指標,即contig/ scaffoldN50:將contig/scaffold長度從長到短進行排序並累加,當累加和達到contig/scaffold總長度的50%的時候,最后參與加和的那一條contig/scaffold長度即為contig/ scaffoldN50的長度。一般來說,contig/scaffoldN50越長,表示組裝結果越好。

但是,N50指標高就意味着組裝結果就一定可靠嗎?

不一定!將一些不相關的reads或者contig錯誤的連接為scaffold,一樣可以達到很高的scaffoldN50。

目前高水平文章發表,組裝指標固然是一方面,但真正決定文章發表檔次的,是生物學故事是否足夠完美,有亮點。我們知道,后續分析依賴的基礎便是組裝得到的基因組,因此,不可靠的組裝結果,對基因組后續分析會造成很大的困擾,甚至會得出錯誤的生物學結論。

那么,如何才能檢驗一個基因組組裝結果的可靠性呢?

1、 序列一致性評估:

基因組是通過reads組裝得到,這一步,是將reads比到基因組上,驗證reads對基因組的覆蓋情況,用於評估組裝的完整性以及測序的均勻性。較高的mapping rate(90%以上)以及coverage(95%以上)認為組裝結果和reads有比較好的一致性。

2、 序列完整性評估:

所謂完整性評估,即評估組裝得到的基因組對基因區的覆蓋程度,一般需要借助RNA方面的證據進行評估,如EST數據或RNA reads。由於用來評估的RNA方面證據不同,得到的比例也會有差別。一般來說,50%的scaffold覆蓋基因的95%以上,85%的scaffold覆蓋基因的90%以上,認為組裝較完整。

3、 准確性評估:

通過全長BAC序列,可以通過與組裝結果的比對,對組裝結果的正確性進行驗證,從BAC序列和scaffold是否具有較好的一致性來判斷組裝質量。

4、 保守性基因評估:

即根據廣泛存在於大量真核生物中的保守蛋白家族集合(248個core gene庫),對組裝得到基因組進行評估,評估組裝基因組中的core gene的准確性和完整性。可以通過該物種和同源物種cegma的比例,判斷保守基因組裝情況。


通過以上四個方面基本上可以對基因組組裝結果有個大致的評估,以2015年4月諾禾發表的基因組文章陸地棉為例,來分析一下組裝出來的基因組可靠性評估:

1. 組裝結果基本信息統計

image

可以看到組裝出來基因組為2.4G,cover陸地棉基因組96%,(Survey預估基因組為2.5G),contigN50為34K, scaffoldN50為1.6M,定位到遺傳圖譜上的scaffold有1.9G(9%),其中A亞種contigN50為30.7K,scaffoldN50為1.4M,D亞種contigN50為47.2K,scaffoldN50為2.5M。

2. 一致性評估:

image

從reads的mapping率以及對基因組的coverage比率來看,有較好的一致性。

3. 完整性評估:

image

采用1 ,054 條G. hirsutum.全長mRNA序列進行完整性評估,可以看到有90%的mRNA被一條scaffold覆蓋的比例為94%以上,即有94%的基因是組裝完整的;有50%的mRNA被一條scaffold覆蓋的比例為99%以上,即有99%的基因是組裝出來的。說明組裝版本有很好的完整性。

4. 准確性評估:

image

采用該物種的四條全長BAC序列對組裝結果進行評估,紅線代表BAC序列,藍線代表scaffold序列,空白區代表scaffold上的gap區,橘黃色線代表BAC和scaffold比對上的區間塊。從上圖也可以看到組裝結果和BAC序列有很好的比對結果,即說明組裝有較高的正確性。

另外,從染色體角度,也可以驗證組裝結果,如下圖所示,采用諾禾組裝的四倍體棉花D亞組同已發表的JGI組織以及BGI組織發表的雷蒙德氏棉花進行全基因組比對,可以看到,a圖,諾禾的組裝版本與JGI組織組裝得到的基因組有很好的共線性,眾所周知,JGI組織發表的棉花基因組是采用Sanger測序,並進行多種驗證的組裝版本,具有很高的正確性和指導性,進一步說明諾禾的組裝版本有很好的准確性。

image

5. 保守基因評估:

image

可以看到,組裝得到240個core gene,其中有231個core gene是完整的。

綜上,諾禾組裝結果不但可以承諾高指標,並且有嚴謹的評估標准對組裝結果進行評估,保證組裝結果的准確性。

參考文獻

Zhang T Z, Hu Y, Jiang W K,et.al. Sequencing of all otetraploid cotton (Gossypium hirsutum L.acc.TM-1)provides a resource for fibre improvement.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM