前言
王向峰老師2020年發表在《Genomics Proteomics Bioinformatics》(IF=6.597)上的文章。對於做數據分析的人來說,如何挖掘公共數據,如何從海量SNP中挖掘目標SNP等問題都是每天要面對的,這篇文章給了一個參考,很值得學習。
文章從水稻變異數據庫RVD的子庫IC4R(http://variation.ic4r.org/)中5152份水稻材料的18m SNPs進行層層過濾,以不同條件篩選到不同大小的SNP集,每個數據集可應用於不同場景和目的。最后還構建了數據庫,提供web工具、代碼及數據下載。
四個SNP集
用途:
- hapmapSNPs可用於GWAS
- tagSNPs可用於群體遺傳研究和GS
- fixedSNPs可用於種子純度和遺傳背景分析
- barcodeSNPs可用於指紋圖譜進行品種分類
各SNP集處理標准如下:
hapmapSNPs
- 過濾基因型缺失率大於20%的樣本,剩余2556個樣本。
- 過濾缺失率大於0.1,次等位基因頻率MAF小於0.05的SNP。
- Beagle填充2556個樣本的基因型。
- 最終包含2,097,405個SNPs,無任何缺失值。
tagSNPs
- 采用基於LD的SNP修剪步驟從hapmapSNPs來推斷單倍型標記SNP(tagSNPs)。
- 水稻的LD長度40-500kb。
- Plink --indep命令,參數基於方差膨脹因子(VIF),使用滑動窗口50個SNPs,步長5個SNPs來連續過濾SNP。
fixedSNPs
- 通過比較栽培稻亞群和野生稻的Fst和θπ,鑒定選擇清除區域。
- 使用100kb和10kb窗口分別鑒定大和小的基因組選擇清除信號區域,6個亞群被選擇區域的Tajima'D顯著小於其他區域,具體為:227 (cultivated vs. wild), 381 (Ind vs. wild), 333 (Aus vs. wild), 296 (Aro vs. wild), 256 (TrJ vs. wild) and 269 (TeJ vs. wild)。
- 鑒定受選擇清除區域的基因,這些基因內共1180 SNPs。
barcodeSNPs
- 使用MinimalMarker算法來詳盡遍歷所有可能的基因型組合,來區分這2556份材料。
- MinimalMarker算法生成最少標記組合的三個集合,每個集合包含28個SNPs。
- 合並三個集合后,共得到38個barcodeSNPs。
hapmapSNPs的指標統計
- 每步處理的指標統計
- ARNOVAR注釋
tagSNPs的群體結構驗證
高密度SNP對於GWAS的功能位點鑒定是有用,但對於群體遺傳分析是不合適的,因為SNP的高冗余會帶來不必要的計算成本,也會對結果帶來偏差。
在同一LD block區,一個有代表性的SNP(tagSNP)可解決冗余問題。
156,502個tagSNPs來驗證2556份材料的亞群分類和起源驗證。
K=3時,能明顯區分秈粳和Aus三類亞群;當K=8時,能清晰划分6個亞群;當K=4-7時,秈稻亞群能划分6個子群S1-S6。
tagSNPs的遺傳多樣性
5個亞群多項遺傳多樣性指標統計比較分析:
- Identity by state (IBS) 分析等位基因相似性。
- Runs of homozygosity (ROH):連續性純合片段分析(基因組中出現的連續不間斷的純合現象)。
- LD衰減速率。
- Fst分化指數。
- θπ核酸多樣性。
- Tajma'D中性進化檢驗
tagSNPs用於GS
156,502個tagSNPs已經去除高度冗余的SNP,因此可作為GS應用的標記池。
使用rrBLUP模型比較了水稻9個性狀的不同5個SNP集的准確性:
- set1:水稻44K芯片的原始29,434個SNPs。
- set2:156,502個tagSNPs與set1的交集,共1090個SNPs。
- set3:set1中隨機選取的1090個SNPs。
- set4:根據set1中基因組距離(每350kb一個SNP)選取的1090個SNPs。
- set5:根據set1中隨機基因組區域的1090個連續SNPs。
結論:從tagSNPs池中選擇大約1000個SNPs可能是降低GS應用成本的方法。
fixedSNPs驗證
- 圖A:100kb窗口內計算的θπ和Fst,紅點為潛在的強選擇清除信號。
- 圖B:潛在的強選擇清除信號和其他基因組區域的Tajma'D值分布。
- 圖C:栽培亞群中共有和特有的選擇信號(括號內外數值分別為基因和GSEA term數目,GSEA使用PlantGSEA分析)。
- 圖D:fixedSNPs的2556個材料的進化樹。
- 圖E:Affymetrix 700K芯片的880個材料的進化樹。
- 圖F:Illumina 44K芯片的351個材料的進化樹。
barcodeSNPs指紋圖譜
使用MinimalMarker算法篩選到的38個barcodeSNPs可作為特征來區分水稻品種(即指紋圖譜)。
對2556份材料應用了7種經典機器學習算法來建模,10折CV,五類編碼(10000, 01000, 00100, 00010, 00001):
- 決策樹DT
- K近鄰KNN
- 朴素貝葉斯NB
- 人工神經網絡ANN
- 隨機森林RF
- 一對多法邏輯回歸:one-vs-rest logistic regression(LR-O)
- 多元邏輯回歸:multivariate logistic regression (LR-M)
5個水稻栽培亞群分類精度最佳的模型是LR-M(AUC為0.99)。並使用Affymetrix 700K芯片的880份材料進行了驗證,證明其魯棒性。
barcodeIndel
除了SNP,他們還做了Indel分析(<50bp)。
- 5152份材料種共4,217,174 raw Indels。
- 2556份材料按missing rate <0.01,MAF>=0.05 過濾后剩余109,898 Indels。
- 根據水稻6個亞群和秈稻內的6個子類,進一步鑒定62個亞群特異性Indels,即barcodeIndels。
- SR4R數據庫中可下載供個性化分析。
SR4R數據庫
- 地址:http://sr4r.ic4r.org/
- 在線分析包括亞群分類和指紋圖譜:http://sr4r.ic4r.org/onlineTools/ml
- 提供了數據預處理、群體多樣性分析和品種分類與鑒定的腳本:http://sr4r.ic4r.org/tools/bgp
- 提供了4類SNPs集的基因型和注釋文件,還有Indel信息、腳本打包工具等:http://sr4r.ic4r.org/download
更加詳細的方法可參考Method部分