LD Score regression文章；confounding

本文轉載自查看原文 2021-04-09 17:51 275 生信

polygenicity多基因性（很多小的遺傳效應）和混雜偏倚如隱秘的關聯和群體分層都會導致GWAS 檢驗統計量test statistics的膨脹分布（inflated distribution）。我們開發了一種方法，即LD score regression，該方法通過檢查檢驗統計量（test statistics）
和連鎖不平衡（LD）之間的關系來量化兩個部分的占比。LD Score regression的截距intercept可用來估計比基因組控制（genomic control）更強大和准確的校正因子correction factor。我們發現有力的證據表明，在許多樣本量較大的GWAS中，檢驗統計量test statistics中的膨脹inflation主要因素是多基因性。

genomic control :Genomic Control 使用neutral loci（unrelated to disease）來糾正由於人群分層導致的偽關聯。
lambda入， genomic control factor ==genomic inflation factor。是代表樣本的genomic control的數值，通常是通過軟件（如PLINK）利用大規模SNP數據計算出來的，lambda越接近1，表示樣本越是隨機采集的，一般認為lambda<1.10樣本是沒有問題的。


GWAS中的Genomic inflation factor(GIF) ，膨脹系數lambda的解讀：基因組膨脹因子λ定義為經驗觀察到的檢驗統計分布與預期中位數的中值之比，從而量化了因大量膨脹而造成結果的假陽性率。換句話說，λ定義為得到的卡方檢驗統計量的中值除以卡方分布的預期中值。
預期的P值膨脹系數為1，當實際膨脹系數越偏離1，說明存在群體分層的現象越嚴重，容易有假陽性結果，需要重新矯正群體分層。

GIF（genomic inflation factor，lambda，genomic control inflation factor (λGC)

） 被定義為檢驗統計量的經驗觀察分布的中位數與預期中位數之比，從而量化了總體inflation的程度和過高的假陽性率。

GIF和QQ圖都用來比較檢驗統計量的genome-wide分布與和預期零分布。Q-Q圖是有用的視覺工具，用於標記觀察到的分布與預期的零分布之間的偏差。Q（Q）圖中的\（\ lambda 或inflated\）值誇大或殘留偏差可能表示未檢測到樣品重復，家族關系未知，測試統計數據校准不良，系統的技術偏見或總體人口分層

GIF值通常用在GWA過程中，用來控制該過程質量；鑒別出那些低質量的基因標記；例如在統計學中，GIF值大於1.0表示結果有低質量數據的出現；


簡單地說 λ<1.01說明沒有膨脹 也就是群體結構對結果幾乎沒有影響，一般1.01<λ<1.05之間認為影響較小 在可接受范圍之內，而對於λ>1.1就需要進行矯正了，但是這只是通常的情況 尤其是后面兩條的cut值，不同人對這種基於genomic control的分析方法有不同的認識

MAF指的是低頻等位基因頻率。heritability一般指的是我們所研究的疾病的遺傳力，這個涉及的少，大部分都是通過閱讀以前的文獻得知該疾病的遺傳力是多少，可以通過家系和領養研究來研究某種疾病的遺傳力。r2指的是某一段基因組區域內SNP（或其它marker）連鎖不平衡的數值，r2越接近1，表示SNP之間連鎖性越高，可以通過haploview軟件計算。

genomic control’ can be applied subsequently to adjust test statistics at individual loci by a genomic inflation factor

用2x2的case-control表格，通過統計with or without a particular allele的x2 卡方統計亮來判斷在case和contorls之間的allele frequency是否顯著差異。沒關聯的話即處於0.05區間時，x2>=3.84。

GC使用整個基因組中的“中性”基因座（與疾病無關）來獲得因群體分層而產生的關聯的度量值，即lambda 入。GC建議用3.84*入或x2/入作為在5%的FPR的狀態下，衡量顯著閾值的統計量。

估計入有兩種方法：the mean of the x2 test statistics (入mean) or the median of the x2test statistics divided by 0.456 (入med)

correction factor: A factor that is multiplied with the result of an equation to correct for a known amount of systematic error.

test statistics：檢驗統計量，用於假設檢驗計算的統計量。統計量是用來對數據進行分析、檢驗的變量。是根據樣本觀測結果計算得到，並據此對原假設和備擇假設作出決策的某個樣本統計量，稱為檢驗統計量。一般對應z值或t值（https://zhuanlan.zhihu.com/p/103291946）

polygenicity：多基因性 many small genetic effects

confounding bias: 混雜偏倚。指在流行病學研究中，由於一個或多個潛在的混雜因素（confounding factor）的影響，掩蓋或誇大了研究因素與疾病（或實踐）之間的聯系，從而使兩者之間的真正聯系被錯誤的估計，造成混雜（confounding）。

如：在病例對照研究、隨訪研究中，研究樣本的地域差異(geographical vadation)和人群分層(population stratification．PS) 是種族混雜(confounding by ethnicity)的表現，將導致虛假關聯。

混雜因子(confounding factor，confounder)
  研究的暴露因素和研究疾病之外因素（第三因子，外部因素）
  此外部因素與研究疾病有關（獨立相關）
  並且與研究的暴露因素有關（統計關聯）
  該因素不是暴露導致疾病的中間環節或中間變量
  
混雜（confounding）
  若混雜因素在比較的人群組中分布不勻,可以歪曲(掩蓋或誇大)因素與疾病之間真正聯系。混雜（ confounding ）的本質是一種效應的混淆。外部因素對疾病的效應與暴露因素對疾病的效應交織 在一起，故無法正確評價暴露因素對疾病的真實關系
  在病例對照研究、隨訪研究中，研究樣本的地域差異(geographical vadation)和人群分層(population stratification．PS)是種族混雜(confounding by ethnicity)的表現，將導致虛假關聯。

舉例
  研究吸煙與肺癌的關系，性別是個外部變量，性別與肺癌有關，性別與吸煙暴露有關。故性別是該研究中的混雜因子。
  無論是隊列研究還是病例對照研究，若性別在比較組中分布不均衡，研究將出現混雜。

為明確定義混雜因子，流行病學分析中排除一類外部因子：

◦該因子是暴露導致疾病的中間環節或中間變量。

◦如：

吸煙高血壓心臟病

吸煙 COPD 肺癌

高血壓與COPD都不是混雜因子。

因為它們為病因鏈中的因子，也稱內部介導因子（Intermediate Factor)。

效應量Effect size是衡量實驗效應強度或者變量關聯強度的指標(Snyder & Lawson, 1993), 它不受樣本容量大小的影響(或者影響很小)。它不同於一般的統計檢驗結果（比如顯著性p值、中介效應)

兩個獨立樣本的效應量用“d”表示，是兩個總體分布的重疊量。

通過假設檢驗只能得知樣本統計量之間是否存在顯著差異，而不能告訴我們差異究竟多大，因此需要統計檢驗力和效應量。

Effect size 是一個統計概念，用來在一個數值范圍內衡量兩個變量之間的聯系。effect size 越大，兩個變量之間差異越大。effect size 幫助確定差異是否真的存在，還是因子的改變（change of factors）。在假設檢驗中，effect size 、power、sample size、極顯著水平互相關聯。在meta分析中，effect size與不同的研究相關，並把所有研究合成一個研究。在統計分析中，effect size通常用三種方式衡量：1）standarized mean difference 標准化的均數差值2）odds ratio 比值比3）correlation coefficient 相關系數

效應值類型：

Pearson r correlation：皮爾森相關系數；標准化的均數差值；odds ratio （OR值，比值比）等

皮爾森相關系數是一種最簡單的反應特征和響應之間關系的方法。這個方法衡量的是變量之間的線性相關性。結果的取值區間為[-1,1]。-1表示完全的負相關，+1表示完全的正相關，0表示沒有線性相關。

Odd ratio 比值比 =ad/bc ，是相對危險度的精確估計值，OR值等於1，表示該因素對疾病的發生不起作用；OR值大於1，表示該因素是危險因素；OR值小於1，表示該因素是保護因素。

F-statistics: a measure of genetic structure developed by Sewall Wright (1969, 1978). Related to statistical analysis of variance (ANOVA)
FST is the proportion of the total genetic variance contained in a subpopulation (the S subscript) relative to the total genetic variance (the T subscript). Values can range from 0 to 1. High FST implies a considerable degree of differentiation among populations.

FIS (inbreeding coefficient) is the proportion of the variance in the subpopulation contained in an individual. High FIS implies a considerable degree of inbreeding. 參考：

Wright建議，實際研究中，FST為0～0.05:群體間遺傳分化很小，可以不考慮；
FST為0.05～0.15，群體間存在中等程度的遺傳分化；
FST為0.15~0.25，群體間遺傳分化較大；
FST為0.25以上，群體間有很大的遺傳分化。

LD score regression 估計SNPheritability。 heritability was estimated from the GWAS summary statistics using LD score regression.

LD score regression計算8中精神疾病兩兩之間的genetic correlation

文獻 ：https://www.sciencedirect.com/science/article/pii/S0092867419312760

https://blog.csdn.net/zhu_si_tao/article/details/71513099

https://www.uwyo.edu/dbmcd/popecol/maylects/popgengloss.html

Fst計算代碼：http://www.360doc.com/content/18/0221/13/19913717_731200680.shtml

LD score regression> https://cloud.tencent.com/developer/article/1556247

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 LD SCore計算基因多效性、遺傳度、遺傳相關性(the LD Score regression intercept, heritability and genetic correlation) Inception Score Linear Regression gcc, ld LD plot Multiple Regression ld命令 GNU LD之二LD script F-Beta-Score 【筆記】F1 score

LD Score regression文章 ；confounding

免責聲明！

LD Score regression文章；confounding