下列所用到的數據均為千人基因組數據庫
1、通過vcftools計算FST
命令行如下:
./vcftools --vcf input_data.vcf --weir-fst-pop population_1.txt --weir-fst-pop population_2.txt --out pop1_vs_pop2
其中,input_data.vcf就是輸入的vcf格式
population_1.txt的格式如下:
population_2.txt的格式同population_1.txt,只有一列sample名字的信息。
計算之后,會得到兩個文件格式,分別為.log和.fst,如圖下所示:
2、通過gcta計算FST
命令行如下:
gcta64 --bfile test --fst --sub-popu subpopu.txt --out test
其中,bfile文件W為plink二進制格式文件,后綴分別為.bed、.bim、.fam
subpopu.txt的輸入格式如圖下所示:
解釋下subpopu.txt這三列的意思。第一列為樣本數,第二列為樣本的ID,第三列為每個樣本對應的population(如CHB、GWD)
其中,CHB為其中一個population,GWD為另一個population。
得到的結果文件為.fst格式,如圖下所示:
參考鏈接:
http://cnsgenomics.com/software/gcta/#Fst
http://vcftools.sourceforge.net/documentation.html