今天博主博士答辯完畢啦,超開心的,撒花~
雖然很疲憊(昨晚太晚睡了==),但想到今天跟師妹說給她gene-based關聯分析的方法。
於是,決定還是整理好了再休息休息。
好,進入主題。
之前的推文我曾經寫過使用VEGAS2(Versatile Gene-based Association Study)進行gene based的關聯分析研究。
但用過的人就知道,VEGAS2有個很明顯的缺點,跑起來很占CPU,因此今天再重新推薦另一個工具GCTA,也是可以計算gene-based關聯分析的。
1、下載、安裝
首先,下載GCTA:
wget https://cnsgenomics.com/software/gcta/bin/gcta_1.92.4beta2.zip
解壓:
unzip gcta_1.92.4beta2.zip
cd gcta_1.92.4beta2
2、准備輸入文件
准備summary_statistics的輸入文件GWASp,輸入文件GWASp包括兩列,第一列是SNP的ID,第二列是SNP的P值(這里顯示的是P-value)。
准備基因型文件1000G_EUR
,基因型文件可以是公共數據庫的,比如千人基因組的。值得注意的是,你拿到的數據是什么人群的,基因型文件就選用相應的人群數據,比如你的數據是歐洲祖先,那么基因型的話就選用千人基因組的歐洲祖先人群,而不是所有樣本(兩千多個)。
基因型文件1000G_EUR
為PLINK格式(bed,bim,fam或者map,ped),PLINK格式還不了解?見推文GWAS分析基本流程及分析思路
准備glist-hg19.txt
文件,格式如下所示:
glist-hg19.txt
文件出自GCTA網站,各位找不到的話在后台發送gli
關鍵詞即可獲得該文件。
3、gene-based關聯分析
准備好GWASp
、1000G_EUR
和glist-hg19.txt
后,輸入如下命令:
gcta64 --bfile 1000G_EUR --maf 0.01 --fastBAT GWASp --fastBAT-gene-list glist-hg19.txt --out GWASp_result --thread-num 10
4、結果解讀
完成以上分析后,會得到GWASp_result.gene.fastbat
的結果文件,其示例如下所示:
其中,圈出來的紅框即為我們感興趣的基因與表型的相關性P值。顯著閾值的設定為:0.05/(GWASp_result.gene.fastbat
文件行數-1)
今天的介紹就到這,明天有時間的話再推一篇超實用的工具!
祝各位周一愉快!