1.混合測序基礎
測序成本雖然下降了,但對於植物育種應用研究來說還是很高,動不動就上百群體,小小植物個體價值又低,測完了很可能后面就用不到了。這時,混合樣本測序是一種省錢的好辦法。
混池測序(Pool-seq)相對於GWAS或其他精細定位策略而言,其實是一個初定位產品,其結果很有可能是跟性狀相關的候選區域。
概念:
混合樣本測序一般是選擇表型極端或目標性狀差異的個體混合,構建一個文庫進行測序。
原理:
假設每個樣本被測到的概率相等,通過測序reads數計算等位基因頻率。如果基因與研究性狀有關,那么理想情況下,表型差異顯著的混合樣本中,該基因等位基因頻率差異顯著。
不足:
- 大群體的等位基因頻率才能代表該群體真實的情況,選擇少量樣本可能帶來選樣誤差;
- 各樣本測序量不均一引入新的偏差。
但研究表明,在大樣本量混合且提高測序深度的情況下,混合樣本能夠准確評估等位基因頻率。
影響因素及建議:
-
群體類型:群體類型決定研究背景是否純,影響定位的精確性。混合樣本測序最好是只有目標性狀存在差異,其他性狀一致,即遺傳背景純,一般永久群體>臨時群體>自然群體。
-
混合樣本量:多態性高的群體(如F2),推薦混合樣本量>100;多態性低的群體(如BCF),推薦混合樣本量>20;且作圖群體選擇比例<25%。
-
親本選擇:兩個親本盡量性狀差異單一,雜合位點少。
-
混合樣本的均一性:樣本量小的時候影響大,樣本量大影響小。
-
表型:表型統計不准確,或由多個微效基因控制,會引起定位效果不佳。
-
參考基因組:基因組組裝好壞,基因組注釋情況,物種連鎖不平衡強易導致候選區域過大。建議采用組裝到染色體水平的參考基因組。
-
測序錯誤:混合樣本測序比較難通過算法區分是測序錯誤還是稀有變異,測序深度高能有效降低影響。
-
測序數據量:測序數據量推薦50X以上,測序深度高有利於檢測到多態的SNP位點。
-
比對:混合樣本無法校正比對錯誤,CNV會影響等位基因頻率統計。
2. 點突變檢測
對於隱形純合點突變,效果較好。
MutMap和MutMap+是利用SNP-index算法,需要參考基因組,如果目標位點位於參考基因組沒有組裝上的gap區,或是參考基因組不具有的序列中,利用MutMap檢測方法就不能有效檢測到目標突變位點。
MutMap-Gap方法結合了MutMap和de novo組裝。先通過MutMap分析SNP-index peak區,發現找不到跟突變性狀相關的基因,再將之前比對不上參考基因組的野生型親本unmapped reads和MutMap分析中SNP-index peak區域的野生型親本比對上的reads一起進行de novo組裝,獲得潛在的新基因,並以此為參考再計算SNP-index,檢測目標突變位點。
3. BSA
BSA(Bulked segregant analysis,混合分組分析),利用目標性狀存在極端表型差異的兩個親本構建分離群體,在子代分離群體中,選取兩組表型差異極端的個體分別構建混合池 ,結合高通量測序技術對混合樣本測序,比較兩組群體在多態位點(SNP)的等位基因頻率(AF)是否具有顯著差異,定位與目標性狀相關聯的位點並對其進行注釋,研究控制目標性狀的基因及其分子機制。
SNP-index是主流的BSA定位算法。其原理是構建子代分離群體,經過挑選極端性狀構建混池后對SNP進行檢測,對各混池進行等位基因頻率分析,並與其中一個親本進行比較。與此親本不同的基因型所占的比例,即為該位點的SNP-index。
(注意這里的reference並不是變異檢測的參考基因組,而是構建群體所使用的親本,所以SNP-index計算高度依賴於親本測序數據。)
兩個混池相減(上圖右)得到了△SNP-index的結果,即兩個混池之間SNP基因型頻率的差異。理論上說,不與性狀相關的位點,△SNP-index的值應當在0左右,代表混池之間不存在差異;而QTL及其相連鎖位置的SNP,△SNP-index值應當呈現較高的數值。
△SNP index會存在因統計偏差造成的假陽性位點,可以通過計算滑窗內所有SNP的△SNP-index,來消除其影響,得到真正QTL所在的基因組區域。
其他算法如歐幾里得距離(ED),Gradedpool-seq(Ridit檢驗)等。
這里的BSA是指狹義上的QTL-seq,針對有主效基因的數量性狀。實際上上面的質量性狀/點突變性狀、InDel-seq(InDel突變性狀)以及下面的BSR,都屬於BSA的范疇,原理相似。此外還有QTG-seq。相應的Pipeline可參考:http://genome-e.ibrc.or.jp/home/bioinformatics-team/mutmap
4. BSR
BSR(Bulked segregant RNA sequencing)同樣依據分組混合的原理,在RNA水平上進行高通量測序並定位候選基因,即BSA+RNAseq。BSR的混池同樣選取分離群體中的極端性狀單株,混池用的單株數會比BSA多一些(大多大於30),提取RNA進行混池,再進行轉錄組測序,mapping參考基因組后同樣進行變異分析,確定候選區間。BSR的優勢在於不僅提供變異信息,還能提供候選區域中基因的表達信息。
BSR的劣勢:RNAseq只能檢測表達基因上的SNP,檢測的SNP數量少,一般只適用於高頻的SNP。同時由於存在RNA編輯等問題,RNA層面檢測的SNP和DNA層面也是有差別的,所以只有當DNA層面無法實現(復雜基因組)或DNA測序成本過高(超大基因組)等情況下可選擇BSR,否則還是優先選擇BSA。
5. 混合樣本GWAS分析
Pool –GWAS也是一種省錢策略,但還是非常小眾。
比如:GWAS study using DNA pooling strategy identifies association of variant rs4910623 in OR52B4 gene with anti-VEGF treatment response in age-related macular degeneration
Pool –GWAS研究復雜遺傳背景的性狀功效降低,對稀有變異的檢測能力下降。
6. 混合樣本馴化研究
同樣,分析獲得的馴化相關位點很多,如果想用類似的方法檢測復雜性狀相關位點,后續挖掘真正的功能位點的難度還是很大。
7. 小結
Ref:
華大科技公眾號《混合樣本測序,這些“坑”記得跳過!》《經典案例 | 我的研究適合“混合測序”嗎?》
BSA專題——分析方法大匯總
美吉生物公眾號《BSA的姊妹產品——BSR》
BSA的原理
沒看過這些文章,請不要嘗試BSA定位 | 群體研究
混池測序研究中如何不被這些問題困擾?