LD plot


連鎖不平衡 linkage disequilibrium (LD) 又稱為等位基因關聯(allelic association)

廣泛的遺傳關聯研究依賴genetic marker和disease locus的連鎖不平衡(linkage disequilibrium,LD)

 

http://www.voidcn.com/article/p-aifzvzzo-bpz.html

連鎖不平衡(linkage disequilibrium,LD)是指在某一個群體中,不同座位上兩個基因同時遺傳的頻率明顯高於預期的隨機頻率現象。

We have developed an approach,LD Score regression, that quantifies the contribution of each by examining the relationship between test statistics and linkage disequilibrium (LD). 

LD四大功能:estimating LD Scores, h2 and partitioned h2, genetic correlation, the LD Score regression intercept

計算LD分數、性狀的遺傳度、性狀間的遺傳相關性及遺傳協方差,分割遺傳度,細胞類型特異性分析等

表示LD的兩個度量指標,D'r2來表示LD的程度。

D‘=1,表示連鎖完全不平衡,沒有重組;

D‘=0,表示連鎖完全平衡,隨機組合;

r2=1,表示連鎖完全不平衡,沒有重組;

r2=0,表示連鎖完全平衡,隨機組合。

 

r2包括了重組和突變,而D’只包括重組史。與D'相比,在同樣長度的染色體范圍內,r2往往更低,這個特性能夠幫助我們找到更精度的基因定位。另外,r2D'相比,受樣本量和等位基因頻率的影響較小。D’能更准確地估測重組差異,但樣本較小時低頻率4種等位基因組合的可能性大大減小,因此D’不適合小樣本研究。LD作圖中通常采用r2來表示群體的LD水平

 

if the sample size is increased by a factor of 1/r2, where r2 is the commonly used measure of pairwise LD.

我們一般用DD'r2來表示LD的程度。

(Delta)DLD的基本單位,度量觀察到的單倍型頻率與平衡狀態下期望頻率的偏差,算法如下:

D=P(AB)-P(A)*P(B); (PAB is the expectant frequency of AB haplotype, and P(A)*P(B) is the actual frequency)

P(AB)表示實際觀察到的AB頻率,P(A)*P(B)表示AB頻率的期望值。(如果發生連鎖不平衡,實際觀測到的AB頻率肯定不等於AB頻率的期望值)

r2=D*D/(P(A)P(a)P(B)P(b)) 注:小寫的r

r2=1,表示連鎖完全不平衡,沒有重組

r2=0,表示連鎖完全平衡,隨機組合

r2變化於0到1之間,反映兩個位點之間的“correlation coefficient”;r2=1,提示兩位點將產生完全相同的信息(所以,選擇tagSNP時會參考r2);r2=0,提示遺傳平衡;同樣r2在0到1之間變化與可反映連鎖不平衡的程度。

 r2=0.001,如果某一個位點的一個基因頻率特別低的話,則依據r2值,判斷兩位點接近連鎖平衡。

同時,r2=1有更嚴格的解釋:兩個位點的等位基因有相同的頻率,並且一個位點某個等位基因的出現完全預示着另外一個位點相應等位基因的出現,這時候兩個位點組成的四種可能的單倍型僅表現為兩種。與D'相比,r2在連鎖不平衡中更加有用。

 

 

http://yangli.name/2016/05/10/20160510snpld/

 

*D’= Standardized D; r=pearson coefficient of correlation

  • D’=D/Dmax (Dmaxmin(PAPbPaPB)
  • r2 =D/PAPBPa*Pb

 

 

 

http://blog.sciencenet.cn/blog-797870-659792.html

 

 disequilibrium [ˌdɪsˌiːkwɪˈlɪbriəm,] 不平衡

correlation coefficient : 相關系數 

 

 

R平方 :大寫的R 用於回歸評價指標,R2方法是將預測值跟只使用均值的情況下相比,看能好多少。其區間通常在(0,1)之間。0表示還不如什么都不預測,直接取均值的情況,而1表示所有預測跟真實結果完美匹配的情況。1-(殘差平方和/總體平方和)用來反映數據和模型的擬合程度。

 

https://www.jianshu.com/p/a36bd4145ef7

 

D衰減圖就是利用曲線圖來呈現基因組上分子標記間的平均LD系數隨着標記間距離增加而降低的過程。大概的計算原理就是先統計基因組上兩兩標記間的LD系數大小,再按照標記間的距離對LD系數進行分類,最終可以計算出一定距離的分子標記間的平均LD系數大小。如圖3是黃瓜重測序文章中統計各個亞群體的LD衰減速度的圖形。橫坐標是物理距離(kb),縱坐標是LD系數(r^2)。

一般而言,LD系數大於0.8就是強相關。如果LD系數小於0.1,則可以認為沒有相關性。如果LD衰減到0.1這么大的區間內都沒有標記覆蓋的話,即使這個區間有一個效應很強的功能突變,也是檢測不到關聯信號的。所以,通常可以通過比較LD衰減(到0.1)距離和標記間的平均距離,來判斷標記是否對全基因組有足夠的覆蓋度。(GWAS標記量=基因組大小/LD衰減距離)

 

Haploview 生成連鎖圖

 

 

小方框里的數據表明r2D'的數值,顏色越深,表明MARKER之間LD的強度越大.BLOCK是軟件自動生成的,一般表明是完全連鎖的,14KB表明兩MARKER之間的距離

 

Haploview 輸入兩個文件,ped基因分型結果和info包含SNP位點ID和位置信息。

Haploview生成的LD plot,每個格子代表了兩個SNP位點之間的LD分析結果,顏色從白色到紅色,代表連鎖程度從低到高。方框中的數值為D’值乘以100.相互之間高度連鎖的SNP位點構成了haplotype block,如下圖1-8構成block1,長度為84kb。參考https://blog.csdn.net/weixin_43569478/article/details/108079154

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM