高通量測序中的reads、contig、scaffold什么意思?


高通量測序數據分析:

高通量測序中,reads、contigs、scaffold、unigene、singleton各是什么,有什么關系?

1. 什么是read?

高通量測序時,在芯片上的每個反應,會讀出一條序列,是比較短的,叫read,它們是讀序;就是我們測序產生的短讀序列,通常一代和三代的reads讀長在幾千到幾萬bp之間,二代的相對較短,平均是幾十到幾百bp。PE reads 就是 paired-end reads。在測序過程中,一條DNA分子的兩端都可以測序。先測其中的一端,獲得一個reads,然后再轉到另一端測序,獲得另外一個reads。得到的這兩個reads就是PE reads。PE reads 的獲得有助於后期序列組裝。

2. 什么是contig

有很多reads通過片段重疊,能夠組裝成一個更大的片段,稱為contig,它們是(片段)重疊群;就是不同reads之間的overlap(交疊區),拼接成的序列就是contig。

Contig N50:Reads拼接后會獲得一些不同長度的Contigs.將所有的Contig長度相加,能獲得一個Contig總長度.然后將所有的Contigs按照從長到短進行排序,如獲得Contig 1,Contig 2,contig 3...………Contig 25.將Contig按照這個順序依次相加,當相加的長度達到Contig總長度的一半時,最后一個加上的Contig長度即為Contig N50.舉例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig總長度*1/2時,Contig 4的長度即為Contig N50.ContigN50可以作為基因組拼接的結果好壞的一個判斷標准。

3. 什么是scaffold

多個contigs通過片段重疊,組成一個更長的scaffold,中文中有腳手架的含義;是比contig還要長的序列,獲得contig之后還需要構建paired-end或者mate-pair庫,從而獲得一定片段的兩端序列,這些序列可以確定contig的順序關系和位置關系,最后contig按照一定順序和方向組成scaffold,其中形成scaffold過程中還需要填補contig之間的空缺。基因組de novo測序,通過reads拼接獲得Contigs后,往往還需要構建454 Paired-end庫或Illumina Mate-pair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列。基於這些序列,可以確定一些Contig之間的順序關系,這些先后順序已知的Contigs組成Scaffold。

Scaffold N50:Scaffold N50與Contig N50的定義類似.Contigs拼接組裝獲得一些不同長度的Scaffolds.將所有的Scaffold長度相加,能獲得一個Scaffold總長度.然后將所有的Scaffolds按照從長到短進行排序,如獲得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.將Scaffold按照這個順序依次相加,當相加的長度達到Scaffold總長度的一半時,最后一個加上的Scaffold長度即為Scaffold N50.舉例:Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時,Scaffold 5的長度即為Scaffold N50.Scaffold N50可以作為基因組拼接的結果好壞的一個判斷標准.

 

一個contig被組成出來之后,鑒定發現它是編碼蛋白質的基因,就叫singleton;

多個contigs組裝成scaffold之后,鑒定發現它編碼蛋白質的基因,叫unigene.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM