SR4R數據庫:水稻4個SNP集的篩選及其應用


前言

王向峰老師2020年發表在《Genomics Proteomics Bioinformatics》(IF=6.597)上的文章。對於做數據分析的人來說,如何挖掘公共數據,如何從海量SNP中挖掘目標SNP等問題都是每天要面對的,這篇文章給了一個參考,很值得學習。
image.png

文章從水稻變異數據庫RVD的子庫IC4R(http://variation.ic4r.org/)中5152份水稻材料的18m SNPs進行層層過濾,以不同條件篩選到不同大小的SNP集,每個數據集可應用於不同場景和目的。最后還構建了數據庫,提供web工具、代碼及數據下載。

四個SNP集

image.png

用途:

  • hapmapSNPs可用於GWAS
  • tagSNPs可用於群體遺傳研究和GS
  • fixedSNPs可用於種子純度和遺傳背景分析
  • barcodeSNPs可用於指紋圖譜進行品種分類

各SNP集處理標准如下:

hapmapSNPs

  • 過濾基因型缺失率大於20%的樣本,剩余2556個樣本。
  • 過濾缺失率大於0.1,次等位基因頻率MAF小於0.05的SNP。
  • Beagle填充2556個樣本的基因型。
  • 最終包含2,097,405個SNPs,無任何缺失值。

tagSNPs

  • 采用基於LD的SNP修剪步驟從hapmapSNPs來推斷單倍型標記SNP(tagSNPs)。
  • 水稻的LD長度40-500kb。
  • Plink --indep命令,參數基於方差膨脹因子(VIF),使用滑動窗口50個SNPs,步長5個SNPs來連續過濾SNP。

fixedSNPs

  • 通過比較栽培稻亞群和野生稻的Fst和θπ,鑒定選擇清除區域。
  • 使用100kb和10kb窗口分別鑒定大和小的基因組選擇清除信號區域,6個亞群被選擇區域的Tajima'D顯著小於其他區域,具體為:227 (cultivated vs. wild), 381 (Ind vs. wild), 333 (Aus vs. wild), 296 (Aro vs. wild), 256 (TrJ vs. wild) and 269 (TeJ vs. wild)。
  • 鑒定受選擇清除區域的基因,這些基因內共1180 SNPs。

barcodeSNPs

  • 使用MinimalMarker算法來詳盡遍歷所有可能的基因型組合,來區分這2556份材料。
  • MinimalMarker算法生成最少標記組合的三個集合,每個集合包含28個SNPs。
  • 合並三個集合后,共得到38個barcodeSNPs。

hapmapSNPs的指標統計

  • 每步處理的指標統計
  • ARNOVAR注釋

image.png

tagSNPs的群體結構驗證

高密度SNP對於GWAS的功能位點鑒定是有用,但對於群體遺傳分析是不合適的,因為SNP的高冗余會帶來不必要的計算成本,也會對結果帶來偏差。
在同一LD block區,一個有代表性的SNP(tagSNP)可解決冗余問題。

156,502個tagSNPs來驗證2556份材料的亞群分類和起源驗證。
K=3時,能明顯區分秈粳和Aus三類亞群;當K=8時,能清晰划分6個亞群;當K=4-7時,秈稻亞群能划分6個子群S1-S6。
image.png

tagSNPs的遺傳多樣性

5個亞群多項遺傳多樣性指標統計比較分析:

  • Identity by state (IBS) 分析等位基因相似性。
  • Runs of homozygosity (ROH):連續性純合片段分析(基因組中出現的連續不間斷的純合現象)。
  • LD衰減速率。
  • Fst分化指數。
  • θπ核酸多樣性。
  • Tajma'D中性進化檢驗

image.png

tagSNPs用於GS

156,502個tagSNPs已經去除高度冗余的SNP,因此可作為GS應用的標記池。
使用rrBLUP模型比較了水稻9個性狀的不同5個SNP集的准確性:

  • set1:水稻44K芯片的原始29,434個SNPs。
  • set2:156,502個tagSNPs與set1的交集,共1090個SNPs。
  • set3:set1中隨機選取的1090個SNPs。
  • set4:根據set1中基因組距離(每350kb一個SNP)選取的1090個SNPs。
  • set5:根據set1中隨機基因組區域的1090個連續SNPs。

image.png
結論:從tagSNPs池中選擇大約1000個SNPs可能是降低GS應用成本的方法。

fixedSNPs驗證

  • 圖A:100kb窗口內計算的θπ和Fst,紅點為潛在的強選擇清除信號。
  • 圖B:潛在的強選擇清除信號和其他基因組區域的Tajma'D值分布。
  • 圖C:栽培亞群中共有和特有的選擇信號(括號內外數值分別為基因和GSEA term數目,GSEA使用PlantGSEA分析)。
  • 圖D:fixedSNPs的2556個材料的進化樹。
  • 圖E:Affymetrix 700K芯片的880個材料的進化樹。
  • 圖F:Illumina 44K芯片的351個材料的進化樹。

image.png

barcodeSNPs指紋圖譜

使用MinimalMarker算法篩選到的38個barcodeSNPs可作為特征來區分水稻品種(即指紋圖譜)。
對2556份材料應用了7種經典機器學習算法來建模,10折CV,五類編碼(10000, 01000, 00100, 00010, 00001):

  • 決策樹DT
  • K近鄰KNN
  • 朴素貝葉斯NB
  • 人工神經網絡ANN
  • 隨機森林RF
  • 一對多法邏輯回歸:one-vs-rest logistic regression(LR-O)
  • 多元邏輯回歸:multivariate logistic regression (LR-M)

5個水稻栽培亞群分類精度最佳的模型是LR-M(AUC為0.99)。並使用Affymetrix 700K芯片的880份材料進行了驗證,證明其魯棒性。

image.png

barcodeIndel

除了SNP,他們還做了Indel分析(<50bp)。

  • 5152份材料種共4,217,174 raw Indels。
  • 2556份材料按missing rate <0.01,MAF>=0.05 過濾后剩余109,898 Indels。
  • 根據水稻6個亞群和秈稻內的6個子類,進一步鑒定62個亞群特異性Indels,即barcodeIndels。
  • SR4R數據庫中可下載供個性化分析。

SR4R數據庫

更加詳細的方法可參考Method部分


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM