名詞解釋
De novo:拉丁文,從頭開始的意思,de nove測序則是指在不需要任何參考序列的情況下對某一物種進行基因組測序,然后將測得的序列進行拼接、組裝,從而繪制該物種的全基因組序列圖譜。
重測序概念:重測序是全基因組重新測序的簡稱,是指是對已知基因組序列的物種進行不同個體的基因組測序,並在此基礎上對個體或群體進行差異性分析。(沒有組裝的短的Reads序列)
.
.
Reads:即我們通常說的讀長的意思,它是指高通量測序平台直接產生的DNA序列。
Contig:是指Reads基於Overlap關系,拼接獲得的長的序列;
Scaffold:是指將獲得的Contig根據大片段文庫的Pair-end關系,將Contig進一步組裝成更長的序列;
Contig是無Gap的連續的DNA序列,而Scaffold是存在Gap的DNA序列。
.
.
大片段文庫是指插入片段大於1Kb的文庫,大片段文庫主要是用於將Contig進一步組裝成Scaffold。文庫類型通常有2Kb、5Kb、10Kb、15Kb以及20Kb等。建庫測序過程如下圖:
小片段文庫是指插入片段小於1Kb的文庫,小片段文庫產生的Reads主要用於拼接成Contig。例如在de nove測序中,我們通常要不同梯度下片段如250bp、350bp、500bp等;建庫測序流程如圖3所示。
值得注意的是除了de nove測序需要建大片段文庫外,其他測序如重測序只需建一個小片段文庫(250bp),而構建大片段文庫過程繁瑣,價格較高。這是de novo測序比重測序價格貴的原因之一。
.
.
基因組組裝:
對於測得的序列,例如通過Hiseq X ten平台進行測序,我們直接獲得是長度是許多的150bp Reads;de nove測序最重要的目的就是對這些短的Reads進行組裝、拼接,最終繪制出這個物種的基因組圖譜。
而重測序則不需要對Reads進行組裝,而是直接將獲得短的Reads序列與參考基因組進行比對,從而找出相應的變異位點。這是de novo測序比重測序價格貴的原因之二。
對於利用高通量技術對物種基因組進行測序,不少人可能認為可以得到每條染色體的序列,這其實是錯誤的,很多物種得到的序列都是一些長長短短的Scaffolds以及一些未組裝的Reads。如果要組裝到染色體水平則需要借助遺傳圖譜的輔助。對於一些高重復高雜合的區域,由於目前組裝算法以及測序技術的限制,這些區域往往組裝的效果不是特別理想。
.
.
基因組組裝質量評估:
ContigN50是指將拼接得到的Contig從長到短進行排列,排列成一條線。當長度達到總長度一半的時候,此時該條Contig的長度即為ContigN50;如圖所示,Contig 2的長度即是ContigN50。
ScaffoldN50是將組裝得到的Scaffold從長到短進行排列,當長度達到總長度一半的時候,此時該條Scaffold的長度即ScaffoldN50
一般來說ContiN50和ScaffoldN50的長度越長,基因組組裝的質量也就越好。但是ContigN50和ScaffoldN50也不是唯一評估標准,還要看基因組的拼接的完整性等。
除用ContigN50和ScaffoldN50對基因組進行評估外,還會對基因組進行序列一致性評估、序列完整性評估、准確性評估、Cegma保守性評估等。
.
.
基因組注釋:
對於組裝得到的序列其實是一系列的ATCG的排列組合,那如何解讀序列中的信息呢?
我們要做的是對基因組進行注釋,注釋主要是對基因組中的
- 重復序列注釋
- 非編碼RNA的注釋
- 基因結構的注釋
- 基因功能的注釋
注釋的方法有同源注釋以及de nove預測等。重復序列的注釋主要是串聯重復序列注釋(衛星DNA、小衛星DNA以及微衛星DNA等)和散列重復序列(LTR、LINE、SINE以及轉座子序列等)。非編碼RNA的注釋主要是對MicroRNA、rRNA以及tRNA等注釋;基因注釋主要是對基因的啟動子、外顯子、內含子等注釋。
原文鏈接:動植物De novo 測序知識大講解
基因組de novo組裝知識
基因組特征評估:
- 基因組大小估計
- 雜合率估計
- 重復率估計
- 基因組GC分布及污染估計
按測序材料采用不同策略進行測序:
- 簡單基因組 二代(100X)+三代(20X)
- 復雜基因組 二代(200X)+三代(20X)
- 哺乳動物基因組 二代(100X)+三代(20X)
案例:
-
Sequencing of allotetraploid cotton (Gossypium hirsutum L. acc. TM-1) provides a resource for fiber improvement
http://www.nature.com/nbt/journal/v33/n5/full/nbt.3207.html -
Whole-genome sequencing of the snub-nosed monkey provides insights into folivory and evolutionary history
http://www.nature.com/ng/journal/v46/n12/full/ng.3137.html -
Genomic analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars
http://www.nature.com/ng/journal/v45/n12/full/ng.2811.html -
Ground tit genome reveals avian adaptation to living at high altitudes in the Tibetan plateau
http://www.nature.com/ncomms/2013/130701/ncomms3071/full/ncomms3071.html