高通量測序中,read、contig和Scaffold分別是什么


1.什么是Reads?

高通量測序平台產生的序列就稱為reads。

2.什么是Contig?

拼接軟件基於reads之間的overlap區,拼接獲得的序列稱為Contig(重疊群)。

3.什么是Scaffold?

基因組de novo測序,通過reads拼接獲得Contigs后,往往還需要構建454 Paired-end庫或Illumina Mate-pair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列。基於這些序列,可以確定一些Contig之間的順序關系,這些先后順序已知的Contigs組成Scaffold。

 

Contig N50:Reads拼接后會獲得一些不同長度的Contigs.將所有的Contig長度相加,能獲得一個Contig總長度.然后將所有的Contigs按照從長到短進行排序,如獲得Contig 1,Contig 2,contig 3...Contig 25.將Contig按照這個順序依次相加,當相加的長度達到Contig總長度的一半時,最后一個加上的Contig長度即為Contig N50.

舉例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig總長度*1/2時,Contig 4的長度即為Contig N50.ContigN50可以作為基因組拼接的結果好壞的一個判斷標准.

 

Scaffold N50:Scaffold N50與Contig N50的定義類似.Contigs拼接組裝獲得一些不同長度的Scaffolds.將所有的Scaffold長度相加,能獲得一個Scaffold總長度.然后將所有的Scaffolds按照從長到短進行排序,如獲得Scaffold 1,Scaffold 2,Scaffold 3...Scaffold 25.將Scaffold按照這個順序依次相加,當相加的長度達到Scaffold總長度的一半時,最后一個加上的Scaffold長度即為Scaffold N50.

舉例:Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時,Scaffold 5的長度即為Scaffold N50.Scaffold N50可以作為基因組拼接的結果好壞的一個判斷標准.



作者:白羊鐵蛋
鏈接:https://www.jianshu.com/p/117441ac6eb8
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM