Fst計算


在群體遺傳學中衡量群體間的遺傳分化的程度的指標有許多種,較為常見的就是遺傳分化指數(Fst),fst是由F統計量演變而來,F統計量主要有三種(FIS,FIF,FST)。Fst是針對一對等位基因,如果基因座上存在復等位基因,則需要用Gst衡量,基因差異分化系數(gene differentiation coefficient,Gst)。假定有s個地方群體,第k個地方群體相對大小為wk,第k個地方群體中第i個等位基因頻率為qk(i),雜合體頻率觀察值為hk,那么整個群體中觀察到的雜合體頻率平均值HI,地方群體為理想群體的期望雜合體頻率平均值HS,整個群體為理想群體的期望雜合體頻率HT,分別為:

FIS,是HI相對於HS減少量的比值,即地方群體的平均近交系數。

FST,是HS相對於HT減少量的比值,即有親緣關系地方群體間的平均近交系數。

FIT,是HI相對於HT減少量的比值,即整個群體的平均近交系數。

Fst值的取值范圍是【0,1】,最大值為1表明兩個群體完全分化,最小值為0表明群體間無分化。

在實際的研究中Fst值為0--0.05時說明群體間遺傳分化很小,可以不做考慮;

為0.05--0.15時,表明群體間存在中等程度的遺傳分化;

為0.15--0.25時群體間存在較大的遺傳分化;

為0.25以上的時候群體間就存在很大的遺傳分化了。

群體遺傳分化指數Fst該怎么計算呢?今天就與大家分享一下利用vcftools軟件計算Fst值。

首先,如果沒有vcftools這個軟件需要先下載軟件。https://jaist.dl.sourceforge.net/project/vcftools/vcftools_0.1.13.tar.gz。這個vcftools是基於linux系統運行的。而且vcftools官網上也介紹了安裝方法和使用方法,如果感興趣的話,可以訪問詳細了解一下。

計算FST值有兩種情況:一是snp單點計算

vcftools --vcf test.vcf --weir-fst-pop population_1.txt --weir-fst-pop population_2.txt --out P_1_2

其中--vcf 是輸入所需要計算的群體的輸入文件,注意是vcf格式的

--weir-fst-population 這個命令是輸入第一個群體文件,注意是txt文件格式。即population_1.txt,此文件只包含一列,就是群體個體的ID。population_2.txt也是一樣的,是第二個群體的個體的ID。

第二種情況就是按照區域(窗口式)計算

vcftools --vcf test.vcf --weir-fst-pop population_1.txt --weir-fst-pop population_2.txt --out P_1_2 --fst-window-size 500000 --fst-window-step 50000

這個窗口式的計算,就是在后面加上窗口的大小和步長,例如我上述的--fst-window-size 500000 --fst-window-step 50000  窗口設置為500kb,步長設置為50kb。這個窗口的設置沒有一個固定的標准和要求,都是按照自己的需要而定。

好了,上述內容就是用vcftools計算Fst值的方法,雖然很簡單,但是很實用。因為計算Fst值的方法有很多,但是我感覺vcftools還是比較好用的一個,他不僅可以計算單點snp的fst值還可以用滑動窗口的模式計算fst,而且我認為窗口式計算出的Fst值的可靠性要高於單點SNP。



轉載作者:要快樂_更要經歷山河
鏈接:https://www.jianshu.com/p/98e56862347f
來源:簡書


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM