一、什么是多基因風險評分
傳統的GWAS研究只計算單個SNP位點與表型之間的關聯性,再用Bonferroni校正,通過給定的閾值,篩選出顯著的SNP位點。
這樣會存在兩個問題,第一、Bonferroni校正非常嚴格,很多對表型也有貢獻的位點會因為達不到閾值而被過濾掉。第二、單個位點對表型的解釋度是很低的,尤其是對於高血壓這種多基因控制的表型,用一個個單獨的位點解釋高血壓患病風險,就顯得很單薄。
因此,開發一個能讓我們直觀的感受,患某種疾病的風險多高的工具,顯然是非常有必要的。
為了更好理解多基因風險得分(PRS)的概念,我畫了一個圖,假如翠花的多基因風險評分處於第二個柱形圖那里,那么我們就會認為翠花得某種疾病的風險比普通人要低。
二、多基因風險得分的公式
多基因風險得分的公式如下:
PT表示P值的閾值;
i表示符合該閾值下的SNP的數量,i = 1, 2, ..., m;
βi表示SNP的效應值,在GWAS當中,如果是線性表型,該值為β,如果是二元表型,該值為OR;
Gi,j 表示SNP的基因型,分別用{0,1,2}顯示;
三、怎么計算多基因風險評分
目前計算PRS的主流軟件有PRSice,截止目前為止,引用率有366次。
下面詳細講講如何應用PRSice計算多基因風險得分。
1、PRSice安裝
進入下載鏈接。選擇所需的系統,以下安裝以Linux系統為例。
wget https://github.com/choishingwan/PRSice/releases/download/2.1.11/PRSice_linux.zip
2、解壓PRSice
unzip PRSice_linux.zip
解壓完以后,出現以下幾個測試文件:
3、測試是否安裝成功
輸入命令
./PRSice_linux
如果安裝成功,則會出現如下的界面:
4、使用PRSice計算多基因風險得分(PRS)
對於二元表型,使用以下代碼
Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat OR --binary-target T
對於連續型變量的表型,使用以下代碼
Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat BETA --beta --binary-target F
四、生成文件結果解讀
跑完上面的命令后會生成以下文件:
PRSice.best,PRSiceBARPLOT.png,PRSiceHIGH-RES_PLOT.png,PRSice.log ,PRSice.prsice,PRSice.summary
下面一個個的講解這些文件包含哪些重要的信息。
PRSice.prsice文件
PRSice.prsice的文件格式如下:
PRSice.prsice文件包含:在給定不同閾值的P值以后,符合要求的SNP數量(Num_SNP),SNP的解釋度(R2),回歸系數
PRSice.best文件
PRSice.best文件格式如下:
文件包含FID,IID,是否回歸,PRS值。這個文件計算的是每個個體最優的PRS值。
PRSice.summary文件
PRSice.summary文件內容如下:
包含表型,P的閾值,PRS的解釋方差,所有變量的解釋方差,協變量的解釋方差,回歸系數,P值,該閾值下的SNP數量。 這個文件給出的是該表型下最優的模型。
PRSice_BARPLOT.png圖片
PRSice柱狀圖顯示的是不同P值閾值(橫軸)下的多基因風險得分(縱軸),柱狀圖最高的點表示模型最優,如該圖顯示的是P值閾值為0.4463時,模型最優,該表型的多基因風險得分為0.052,P值為4.7*10-18
PRSiceHIGH-RESPLOT.png圖片
這張圖顯示的是,在該模型下,最佳的P值閾值為綠色最高點處,此時P值的閾值為0.4463
參考文獻:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3605113/
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1987352/
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3912837/