polygenicity多基因性(很多小的遺傳效應)和混雜偏倚如隱秘的關聯和群體分層都會導致GWAS 檢驗統計量test statistics的膨脹分布(inflated distribution)。我們開發了一種方法,即LD score regression,該方法通過檢查 檢驗統計量(test statistics)
和連鎖不平衡(LD)之間的關系來量化兩個部分的占比。LD Score regression的截距intercept可用來估計比基因組控制(genomic control)更強大和准確的校正因子correction factor。我們發現有力的證據表明,在許多樣本量較大的GWAS中,檢驗統計量test statistics中的膨脹inflation主要因素是多基因性。
genomic control :Genomic Control 使用neutral loci(unrelated to disease)來糾正由於人群分層導致的偽關聯。
lambda入, genomic control factor ==genomic inflation factor。是代表樣本的genomic control的數值,通常是通過軟件(如PLINK)利用大規模SNP數據計算出來的,lambda越接近1,表示樣本越是隨機采集的,一般認為lambda<1.10樣本是沒有問題的。 GWAS中的Genomic inflation factor(GIF) ,膨脹系數lambda的解讀:基因組膨脹因子λ定義為經驗觀察到的檢驗統計分布與預期中位數的中值之比,從而量化了因大量膨脹而造成結果的假陽性率。換句話說,λ定義為得到的卡方檢驗統計量的中值除以卡方分布的預期中值。
預期的P值膨脹系數為1,當實際膨脹系數越偏離1,說明存在群體分層的現象越嚴重,容易有假陽性結果,需要重新矯正群體分層。 GIF(genomic inflation factor,lambda,genomic control inflation factor (λGC)
) 被定義為檢驗統計量的經驗觀察分布的中位數與預期中位數之比,從而量化了總體inflation的程度和過高的假陽性率。 GIF和QQ圖都用來比較檢驗統計量的genome-wide分布與和預期零分布。Q-Q圖是有用的視覺工具,用於標記觀察到的分布與預期的零分布之間的偏差。Q(Q)圖中的\(\ lambda 或inflated\)值誇大或殘留偏差可能表示未檢測到樣品重復,家族關系未知,測試統計數據校准不良,系統的技術偏見或總體人口分層 GIF值通常用在GWA過程中,用來控制該過程質量;鑒別出那些低質量的基因標記;例如在統計學中,GIF值大於1.0表示結果有低質量數據的出現; 簡單地說 λ<1.01說明沒有膨脹 也就是群體結構對結果幾乎沒有影響,一般1.01<λ<1.05之間認為影響較小 在可接受范圍之內,而對於λ>1.1就需要進行矯正了,但是這只是通常的情況 尤其是后面兩條的cut值,不同人對這種基於genomic control的分析方法有不同的認識 MAF指的是低頻等位基因頻率。heritability一般指的是我們所研究的疾病的遺傳力,這個涉及的少,大部分都是通過閱讀以前的文獻得知該疾病的遺傳力是多少,可以通過家系和領養研究來研究某種疾病的遺傳力。r2指的是某一段基因組區域內SNP(或其它marker)連鎖不平衡的數值,r2越接近1,表示SNP之間連鎖性越高,可以通過haploview軟件計算。 genomic control’ can be applied subsequently to adjust test statistics at individual loci by a genomic inflation factor 用2x2的case-control表格,通過統計with or without a particular allele的x2 卡方統計亮來判斷在case和contorls之間的allele frequency是否顯著差異。沒關聯的話即處於0.05區間時,x2>=3.84。 GC使用整個基因組中的“中性”基因座(與疾病無關)來獲得因群體分層而產生的關聯的度量值,即lambda 入。GC建議用3.84*入或x2/入作為在5%的FPR的狀態下,衡量顯著閾值的統計量。 估計入有兩種方法:the mean of the x2 test statistics (入mean) or the median of the x2test statistics divided by 0.456 (入med)
correction factor: A factor that is multiplied with the result of an equation to correct for a known amount of systematic error.
test statistics:檢驗統計量,用於假設檢驗計算的統計量。統計量是用來對數據進行分析、檢驗的變量。是根據樣本觀測結果計算得到,並據此對原假設和備擇假設作出決策的某個樣本統計量,稱為檢驗統計量。一般對應z值或t值(https://zhuanlan.zhihu.com/p/103291946)
polygenicity:多基因性 many small genetic effects
confounding bias: 混雜偏倚。指在流行病學研究中,由於一個或多個潛在的混雜因素(confounding factor)的影響,掩蓋或誇大了研究因素與疾病(或實踐)之間的聯系,從而使兩者之間的真正聯系被錯誤的估計,造成混雜(confounding)。
如:在病例對照研究、隨訪研究中,研究樣本的地域差異(geographical vadation)和人群分層(population stratification.PS) 是種族混雜(confounding by ethnicity)的表現,將導致虛假關聯。
混雜因子(confounding factor,confounder) 研究的暴露因素和研究疾病之外因素(第三因子,外部因素) 此外部因素與研究疾病有關(獨立相關) 並且與研究的暴露因素有關(統計關聯)
該因素不是暴露導致疾病的中間環節或中間變量
混雜(confounding) 若混雜因素在比較的人群組中分布不勻,可以歪曲(掩蓋或誇大)因素與疾病之間真正聯系。混雜( confounding )的本質是一種效應的混淆。外部因素對疾病的效應與暴露因素對疾病的效應交織 在一起,故無法正確評價暴露因素對疾病的真實關系
在病例對照研究、隨訪研究中,研究樣本的地域差異(geographical vadation)和人群分層(population stratification.PS)是種族混雜(confounding by ethnicity)的表現,將導致虛假關聯。
舉例 研究吸煙與肺癌的關系,性別是個外部變量,性別與肺癌有關,性別與吸煙暴露有關。故性別是該研究中的混雜因子。 無論是隊列研究還是病例對照研究,若性別在比較組中分布不均衡,研究將出現混雜。
為明確定義混雜因子,流行病學分析中排除一類外部因子:
◦該因子是暴露導致疾病的中間環節或中間變量。
◦如:
吸煙 高血壓 心臟病
吸煙 COPD 肺癌
高血壓與COPD都不是混雜因子。
因為它們為病因鏈中的因子,也稱內部介導因子(Intermediate Factor)。
效應量Effect size是衡量實驗效應強度或者變量關聯強度的指標(Snyder & Lawson, 1993), 它不受樣本容量大小的影響(或者影響很小)。它不同於一般的統計檢驗結果(比如顯著性p值、中介效應)
兩個獨立樣本的效應量用“d”表示,是兩個總體分布的重疊量。
通過假設檢驗只能得知樣本統計量之間是否存在顯著差異,而不能告訴我們差異究竟多大,因此需要統計檢驗力和效應量。
Effect size 是一個統計概念,用來在一個數值范圍內衡量兩個變量之間的聯系。effect size 越大,兩個變量之間差異越大。effect size 幫助確定差異是否真的存在,還是因子的改變(change of factors)。在假設檢驗中,effect size 、power、sample size、極顯著水平互相關聯。在meta分析中,effect size與不同的研究相關,並把所有研究合成一個研究。在統計分析中,effect size通常用三種方式衡量:1)standarized mean difference 標准化的均數差值2)odds ratio 比值比3)correlation coefficient 相關系數
效應值類型:
Pearson r correlation: 皮爾森相關系數 ;標准化的均數差值;odds ratio (OR值,比值比)等
皮爾森相關系數是一種最簡單的反應特征和響應之間關系的方法。這個方法衡量的是變量之間的線性相關性。結果的取值區間為[-1,1]。-1表示完全的負相關,+1表示完全的正相關,0表示沒有線性相關。
Odd ratio 比值比 =ad/bc ,是相對危險度的精確估計值,OR值等於1,表示該因素對疾病的發生不起作用;OR值大於1,表示該因素是危險因素;OR值小於1,表示該因素是保護因素。
F-statistics: a measure of genetic structure developed by Sewall Wright (1969, 1978). Related to statistical analysis of variance (ANOVA)
FST is the proportion of the total genetic variance contained in a subpopulation (the S subscript) relative to the total genetic variance (the T subscript). Values can range from 0 to 1. High FST implies a considerable degree of differentiation among populations.
FIS (inbreeding coefficient) is the proportion of the variance in the subpopulation contained in an individual. High FIS implies a considerable degree of inbreeding. 參考:
Wright建議,實際研究中,FST為0~0.05:群體間遺傳分化很小,可以不考慮;
FST為0.05~0.15,群體間存在中等程度的遺傳分化;
FST為0.15~0.25,群體間遺傳分化較大;
FST為0.25以上,群體間有很大的遺傳分化。
LD score regression 估計SNPheritability。 heritability was estimated from the GWAS summary statistics using LD score regression. LD score regression計算8中精神疾病兩兩之間的genetic correlation 文獻 :https://www.sciencedirect.com/science/article/pii/S0092867419312760
https://blog.csdn.net/zhu_si_tao/article/details/71513099
https://www.uwyo.edu/dbmcd/popecol/maylects/popgengloss.html
Fst計算代碼:http://www.360doc.com/content/18/0221/13/19913717_731200680.shtml
LD score regression> https://cloud.tencent.com/developer/article/1556247

