背景:
GWAS發現的與復雜疾病或性狀關聯的遺傳變異大多數位於非編碼區域,而大部分SNP的作用機制尚且未知,所以post-GWAS時代中一個主要的挑戰是理解和注釋遺傳變異與復雜性狀/疾病關聯的內在機制,而QTL研究是解構這種機制的一種重要研究方法,常見的QTL包括eqtl,pqtl,meqtl,sqtl等,其中最具代表性也是目前應用最廣泛的QTL研究范式是表達數量性狀座位分析(expression quantitative trait loci, eQTL)。
QTL研究本身具有重要的研究意義,能夠闡明DNA序列變異與可定量化的中間分子表型的量化調控關系,同時,這些研究產生的數據資源也同樣重要,並被廣泛地應用在數量遺傳學的方法和應用當中,以解釋SNP與各層級分子之間的調控關聯以及這種關聯對表型的影響機制,例如TWAS,COLCO,MAGMA等方法框架都基於eqtl或pqtl數據開發,並結合疾病GWAS數據來映射疾病相關聯的基因,蛋白等,從而揭示疾病發病機制及篩選葯物靶點。
目前,關於eqtl的研究相對較多,但關於其他QTL的研究仍然較少或者樣本量不足,最近幾月,Science和Nature Genetics期刊分別發表了針對大人群樣本的pQTL和meQTL的研究,為解釋基因組變異到疾病的調控機制和生物過程提供數據支持。
Science:Mapping the proteo-genomic convergence of human diseases
Nature Genetics:Large-scale integration of the plasma proteome with genetics and disease
Nature Genetics:Genetic variation influencing DNA methylation provides insights into molecular mechanisms regulating genomic function
科研啟示:
1.一些基於基因的方法學框架完全可以應用在pQTL或meQTL上,例如將基於基因開發的方法框架TWAS應用在蛋白質數據上形成PWAS模型是2021年的一個研究熱點,已經或即將發表了數篇關於PWAS的文章。
2.從應用的角度,最容易做的就是整合疾病GWAS與QTL數據進行數據挖掘,可選擇的方法學框架主要有MR,PWAS,COLOC等,目前關於疾病GWAS與PQTL數據整合是相對比較熱的點,這兩篇文章就是模板:文章1,文章2,當然進行這樣的運算需要較大的計算資源,如果針對所有蛋白質的GWAS進行MR分析,只下載數據就得6個T。
期刊:
Science (IF=47.73)
Nature Genetics (IF=38.33)
文章1

血漿蛋白質組與遺傳學和疾病的大規模整合
研究設計

研究結論
1.蛋白質的全基因組關聯分析
- 人群:35,559 冰島人
- 蛋白測定方法:SomaScan 和 Olink(血漿)
- 4,719 proteins(4,907 aptamers)和2,720 萬個變異位點間發現了18,084 個sentinel pQTL關聯(P<1.8e-9,conditional test), 其中1,881 個為cis-pQTL,16,203 個為trans-pQTL,分別有 67% 和 96% 是新發現的pqtl.
- 在測量的 4,907 種蛋白質中,4% 僅具有順式關聯,56% 僅具有反式關聯,34% 具有順式和反式關聯。只有 6% 沒有 pQTL,而 16% 與單個 pQTL 相關,78% 與兩個或多個 pQTL 相關
- 數據下載地址:PQTL,數據共6T,每個蛋白的關聯分析結果為一個文件。

關聯分析方法:we adjusted rank-inverse normal transformed levels for age, sex and sample age for the deCODE Health study on the one hand and the remaining studies on the other hand. We standardized the residuals again using rank-inverse normal transformation and used the standardized values used as phenotypes for genome-wide association testing using the linear mixed model implemented in BOLT-LMM49. We used LD score regression to account for inflation in test statistics due to cryptic relatedness and stratification50. We used a likelihood-ratio test to compute all P values
2.pQTL與PAV,eqtl
- 通過將pTQL數據進行注釋或與eQTL進行比較,進一步解釋pQTL的可能機制
- 在 1,881 個sentinel cis-pQTL 關聯中, 27% 僅與 PAV 處於高 LD, 26%僅與cis-eQTL處於高 LD , 8% 與兩者均處於高 LD, 632 個(34%)與eQTL具有高 LD 的SNP中,72% 的cis-pQTL和cis-eQTL 具有一致的作用方向(多個組織中eQTL的同一方向>90%),14% 的方向相反(多個組織中eQTL同一方向 <10%),而剩下的 14% 未確定相對方向。
- 在 16,203 個trans-pQTL 中,38 個 trans-pQTL 與 50 種及以上蛋白質相關,這些 pQTL 中的三個(在ABO、GCKR和SH2B3 處)與許多疾病相關。年齡相關性黃斑變性和低密度脂蛋白膽固醇水平分別與這 38 個 pQTL 中的3個和7個相關.

3.血漿pQTL的代表性
此研究是針對血漿樣本的,所以作者在文章中也解釋了血漿pQTL對組織/細胞特異表達的代表性,發現血漿的 pQTL 對於具有組織特異性表達或致病性的基因仍然具有一定的代表性。
4.pQTL 與 疾病
- 作者提供了一些結合疾病GWAS數據,pQTL數據及其他數據的整合方法,來探究疾病相關蛋白標志物,具體見文章舉例。

- GWAS Catalog數據庫中確定了 45,334 個lead SNP ,其中 5,458 (12%) 個與pQTL處於高 LD(1,223 個cis和 5,125 trans)
- 雙向孟德爾隨機化分析,可以識別蛋白-疾病的因果關聯,可以確定蛋白質水平的改變是疾病的結果還是其發病機制的一部分。雙向孟德爾隨機化分析表明 DEFB4A 水平升高是銀屑病的結果,DEFB4A 不直接參與其發病機制

####################################################################################
文章2:

影響DNA甲基化的遺傳變異為調節基因組功能的分子機制提供見解
核心研究機構:德國環境健康研究中心計算生物研究所與英國倫敦帝國理工學院流行病學與生物統計學系
研究摘要
該研究報道了迄今最大規模的多種群、多細胞類型的人類全血樣本DNA甲基化QTL(meQTL)圖譜,並對DNA甲基化調控元件進行了深入分析,同時還將meQTL與其他分子表型QTL研究及疾病表型GWAS研究進行了整合,系統性地揭示了由DNA甲基化所介導的人類遺傳變異與各類分子或疾病表型之間的調控機制,從而為參與調控的分子網絡以及將遺傳變異與人類表型聯系起來的潛在途徑提供了新的見解。
研究設計

結論
1.DNA甲基化的全基因組關聯分析
- 歐洲人:3799(發現隊列:1731;驗證隊列:2068);南亞人:3195(發現隊列:1841,驗證隊列:1354)
- 全血樣本,產生了一個包含 2,709,428 個 SNP 和 70,709 個 CpG 位點組成的11,165,559 個 meQTL pairs數據集(下載地址:https://zenodo.org/record/5196216#.YdQFzNpBxEZ)。
- 其中:
cis-meQTL:10,346,172 pairs(2,650,691 SNPs and 67,694 CpG sites)
long-range cis-meQTL:351,472 pairs(120,593 SNPs and 1,846 CpG sites)
trans-meQTL:467,915 pairs(200,761 SNPs and 3,592 CpG sites). - 平均而言,SNP 解釋了 CpG 位點甲基化變異的 10.3%(四分位距,4.4-11.5%)

關聯分析中,進行獨立隊列內部數據歸一化,以協變量擬合每個CpG位點的甲基化百分比,然后用基因型擬合殘差並執行最后的檢驗,CpG ~ Covariates,CpGresiduals ~ SNPgenotype
2.meQTL 在不同的細胞類型
上面的meQTL是基於全血,作者進一步通過分離的細胞進行驗證,以檢驗meqtl在不同細胞類型中的分布。驗證標准:P < 0.05 且效應方向相同,發現許多meQTL在不同的細胞譜系中發揮作用,可能與血液以外的組織和生物系統相關。
- 分離的白細胞亞群(n=60)驗證了26-37%
- 分離的內臟脂肪細胞(n=48)驗證了19.2%
- 分離的皮下脂肪細胞(n=48)驗證了19.4%
- 脂肪組織(n=603)44.2%

3.獨立cis-meQTL的識別
- 方法:Conditional test 和 Locus combination
cis-meQTL: 34,001 independent genetic loci ~ 46,664 independent methylation loci
long-range cis-meQTL: 467 independent genetic loci ~ 499 independent methylation loci
trans-meQTL: 1,847 independent genetic loci ~ 3,020 independent methylation loci.

4.meQTL 與其他分子或表型的關聯
- 富集分析:排列檢驗分析meQTL在不同染色質狀態,eQTL,pQTL,mQTL,phenoQTL中的富集,形成 meQTL 對的 SNP 和 CpG 位點都富含多種功能相關特征,包括共享染色質狀態、Hi-C 相互作用、順式或反式基因表達以及與多種代謝和臨床特征。
- 分子關聯:作者也探討了反式表達數量性狀甲基化位點,eQTM,研究 DNA 甲基化和基因表達之間的反式作用關系。
- 因果推斷:使用的 meQTL 作為遺傳工具來檢查 DNA 甲基化和體重指數 (BMI) 之間的潛在因果關系,發現 meQTL SNP 和 CpG 位點都強烈富集於與 BMI 的關聯的位點,SMR 表明 DNA 甲基化和 BMI 在 374 個位點之間存在潛在的因果關系,其中 239 個顯示了共享因果變體的證據(coloc PP4 > 0.6)。

5.研究舉例
- 作者選擇部分基因作為更為細致的解釋和說明:NFKBIE,MGA,COMMD7,SENP7,ZNF333
- 在最后,作者進一步補充了 meQTL 的人群特異性以及meQTL與環境的相互作用分析
