實驗材料
構建的群體,或自然群體,如各地方品種。
RAD文庫構建
提取DNA后,構建文庫,簡要步驟如下:
① 限制性內切酶TaqI酶切;
② 連接P1接頭;
③ DNA隨機打斷片斷化;
④ 目的片段回收與末端修復;
⑤ 連接P2接頭;
⑥ RAD片段富集;
⑦ 上機測序。
參考:Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA (RAD) markers
測序reads過濾
根據識別標簽序列得到每個個體的測序reads,使用trimmomatic進行過濾(其他質控軟件,如fastqc,multiQC等)
設置過濾參數為:SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50。 過濾標准:兩端質量低於5的鹼基進行切除,並以5bp為窗口進行滑動過濾,對平均質量低於20的窗口進行切除。
比對和變異檢測
BWA (其他比對軟件如bowtie2/soap2/MAQ等)將過濾后的個體clean reads比對到參考基因組序列上。樣本比對率反映的是樣本測序數據與參考基因組的相似性,覆蓋深度和覆蓋度能夠直接反映測序數據的均一性與參考序列的同源性。
使用GATK(或samtools+bcftools)Haplotype Caller模塊進行變異檢測,獲得群體變異集文件(VCF 格式)。對變異進行過濾:過濾參數為缺失率小於或等於0.2、雜合率小於或等於0.2、最小等位基因頻率(MAF) 大於或等於0.05,最終得到高質量的基因型數據。
聚類分析
群體分析三幅圖:群體結構圖(祖先成分堆疊圖)、PCA、系統發生樹。
在獲得高質量的標記數據以后,利用vcftools將vcf文件處理得到plink.ped和plink.map文件(整理為plink軟件所需格式)。
使用plink 軟件隨機選擇連鎖不平衡(LD)小於0.1,且相鄰間隔在300kb以上的SNP位點,最后得到一個包含3420 個SNP位點的標記集,一般是生成.bed文件。
1.祖先成分堆疊圖
使用ADMIXTURE對此 SNP位點集(bed文件)進行群體結構分析(Structure),利用交叉驗證過程確定確定合適的祖先數或亞群(K值)。若不知道理想的K值,可用ADMIXTURE計算,一般當cross-validation error值最低時所對應的K值為最合適的K值。
考慮到樣本所歸屬的分類單元,即看看哪幾個物種聚在一起,對合適的K值利用Structure軟件(速度慢,其他軟件如frappe,ADMIXTURE也可做群體結構圖,並且很快)聚類圖,一些R包如hapmap也是可以做群體結構圖的。
2.PCA
利用GCTA對SNP數據集進行樣本的PCA分析(其他軟件如EIGENSOFT中的smartpca)。GCTA可以直接讀取.bed , .bim , .fam文件,利用–make-grm 生成個體對之間的遺傳關系矩陣,並將GRM的下三角元素保存為二進制文件.grm.id , .grm.bin , .grm.N.bin。使用 –pca 設置要生成主成分的數目,一般來說就可以刻畫出群體結構。這一步會生成 .eigenval 和 .eigenvec 兩個文件。.eigenval文件為各主成分可解釋遺傳信息的比例,.eigenvec文件為每個樣本在top4主成分上的分解值。
3.系統發育樹
構樹的方法有非加權分組平均法(UPGMA,已經很少用)、最小進化法(ME)、鄰接法(NJ)、最大簡約法(MP)、最大似然法(ML)等。
構樹軟件如FastTree/MEGA/cluster X/phylip,美化可以用FigTree/ggtree/treeview/GraPhIAn。
NJ法是基於最小進化原理經常被使用的一種算法,它不檢驗所有可能的拓撲結構,能同時給出拓撲結構和分支長度。
GWAS的群體遺傳分析也是包含這三個圖,RADseq畢竟是簡化基因組,得到的SNP有限,做這種群體分析效果肯定沒有GWAS好。
Ref:Admixture:一款快速分析群體遺傳結構的軟件
群體結構分析三種常用方法(下篇)
群體結構分析三種常用方法 (上篇)
基於RAD高通量測序探討中國85種杜鵑花屬植物的分類
http://www.360doc.com/content/17/1120/01/33459258_705424795.shtml