到底什么是eQTL?
eQTL和QTL之間有什么聯系?為什么說QTL比eQTL難很多?
QTL和GWAS有什么關系?
GTEx數據庫里的eQTL數據如何利用?
說eQTL之前必須先解釋QTL,QTL,一說到中文名就清楚了,數量性狀位點,就是一個性狀,比如身高,會由成百上千個基因來決定,目的簡單明確,那么我們如何找到這些位點呢?
Quantitative Trait Locus (QTL) Analysis - 來自nature的介紹
實現層面,其實研究的不是基因,而是染色體上的區段,更明確的說就是分子標記,SNP最流行,大學里還學過很多煩人的分子標記。
關聯是關鍵,association,基本假設就是遺傳片段會跟表型一起分離。
通常極少數的loci具有很高的effect size。
選擇足夠純的親代(需要有基因型和表型的差異),然后不斷雜交,后代的基因型和表型會不斷的分離重組。
然后對基因組的每個位點做統計檢驗,得出likelihood ratio,從而得出初略的位點信息。
再最后用分子生物學的方法來narrow down有效區域。
想徹底理解背后的統計學思路還得好好啃幾篇paper。
空說空看是不可能學扎實的,所以廢話不多說,開始用R實操吧,在分析中你會理解越來越多的概念。
R/qtl: A QTL mapping environment
先裝個包,然后library("qtl")
載入數據:data(hyper)
先看看genotype的數據:
行代表樣品,也就是一個小鼠,列代表了marker,右邊列出來的是marker在1號染色體上的位置cm。
0、1、2分別代表什么;0代表兩個都是reference allele;1代表一個是reference allel、一個是alternative allele;2代表兩個都是alternative allele。
這個要注意,由於真核大多都是非單倍體,所以通常都有2個或多個等位基因;但是參考基因組里只有一套等位基因,那個就是reference allel;如果要考慮多個等位基因,或者考慮haplotype則要做phasing。
再看看phenotype的數據:
可以看看油管的視頻:Using R/qtl to analyze QTL data
可視化數據:
第一個圖黑色代表缺失值,
最終我們會得到什么結果呢?
聽過飛哥對eQTL的解釋,就是相當於把每個基因的表達數據當做是一個phenotype,然后做關聯分析,看哪些snp對基因的表達產生影響。
If a given genotype affects (decreases or increases) gene expression at the same locus of the genotype, it's called cis eQTL, if it affects expression at a different locus, trans eQTL.
An eQTL is a locus that explains a fraction of the genetic variance of a gene expression phenotype.
下圖是一個典型的eQTL位點,它是在TSS兩側1M區間內,叫做cis-eQTL,下圖可以看出三種基因型下表達有顯著差異,表明該位點對基因表達有顯著影響。
通常我們的說法是這個gene有哪些eQTL位點,通常只需要100個個體就可以了。trans eQTLs要難找得多,因為算法上需要掃描整個基因組區域。
做遺傳都知道,做什么都要先把population考慮進去。17 per cent of genes were differentially expressed between populations。GxE互作也是老生常談。
population minor allele frequency
為什么eQTL必須分組織來分析,因為gene expression signatures are cell-type specific。
cis eQTLs are cell-type specific,所以以上的話需要修正為“這個gene在這個組織里有哪些eQTL位點”。
這就表明某些snp只會影響某些特定的組織,以及致病。
These observations certify the importance of integrating data from a relevant tissue when trying to interpret GWAS results using gene expression as an intermediate phenotype.
An important caveat is that in several cases the same regulatory region and variant will be linked to one gene in one tissue and another gene in another tissue
Expression quantitative trait loci: present and future
看下GTEx數據怎么利用,GTEx Portal: Introduction to the Gene eQTL Visualizer
Genotype-Tissue Expression - GTEx Portal官網 里面都是cis-eQTL
輸入一個基因后,會有一個主表出現,相當於heatmap,行是組織,列是eQTL,里面點的顏色代表NES,The size and color of the bubble represent the p-value and NES (normalized effect size) of the eQTL。
拖動上面的框到中間就會看到TSS和TES,底下的被藍色框起來的灰色框代表了exon區域。
附圖就是每個eQTL之間的LD score,黑色代表這些eQTL間並不是獨立的,更趨向於連鎖在一起。
點擊某個eQTL就能看到具體的表達差異了。
一篇通俗的文章:eQTL
Expression quantitative trait loci (eQTLs) are genomic loci that explain all or a fraction of variation in expression levels of mRNAs.
基因組位點,解釋了基因表達的變化。
A quantitative trait locus (QTL) is a section of DNA (the locus) which correlates with variation in a phenotype (the quantitative trait).
身高,連續性狀的控制位點。
QTL是數量性狀位點,比如身高是一個數量性狀,其對應的控制基因的位點就是一個數量性狀位點,而eQTL就是控制數量性狀表達位點,即能控制數量性狀基因(如身高基因)表達水平高低的那些基因的位點。
都是位點,一個是常規數量性狀,如身高;另一個就是基因表達性狀,如Sox10基因的表達;都是在找一些與其具有強烈相關性的(snp)位點。
QTL定位的核心就是連鎖。