基於GCTA的gene-based關聯分析研究


今天博主博士答辯完畢啦,超開心的,撒花~

雖然很疲憊(昨晚太晚睡了==),但想到今天跟師妹說給她gene-based關聯分析的方法。

於是,決定還是整理好了再休息休息。

好,進入主題。

之前的推文我曾經寫過使用VEGAS2(Versatile Gene-based Association Study)進行gene based的關聯分析研究

但用過的人就知道,VEGAS2有個很明顯的缺點,跑起來很占CPU,因此今天再重新推薦另一個工具GCTA,也是可以計算gene-based關聯分析的。

1、下載、安裝

首先,下載GCTA:

wget https://cnsgenomics.com/software/gcta/bin/gcta_1.92.4beta2.zip

解壓:

unzip gcta_1.92.4beta2.zip
cd gcta_1.92.4beta2

2、准備輸入文件

准備summary_statistics的輸入文件GWASp,輸入文件GWASp包括兩列,第一列是SNP的ID,第二列是SNP的P值(這里顯示的是P-value)。

准備基因型文件1000G_EUR,基因型文件可以是公共數據庫的,比如千人基因組的。值得注意的是,你拿到的數據是什么人群的,基因型文件就選用相應的人群數據,比如你的數據是歐洲祖先,那么基因型的話就選用千人基因組的歐洲祖先人群,而不是所有樣本(兩千多個)。

基因型文件1000G_EUR為PLINK格式(bed,bim,fam或者map,ped),PLINK格式還不了解?見推文GWAS分析基本流程及分析思路

准備glist-hg19.txt文件,格式如下所示:

glist-hg19.txt文件出自GCTA網站,各位找不到的話在后台發送gli關鍵詞即可獲得該文件。

3、gene-based關聯分析

准備好GWASp1000G_EURglist-hg19.txt后,輸入如下命令:

gcta64 --bfile 1000G_EUR --maf 0.01 --fastBAT GWASp --fastBAT-gene-list glist-hg19.txt --out GWASp_result --thread-num 10

4、結果解讀

完成以上分析后,會得到GWASp_result.gene.fastbat的結果文件,其示例如下所示:

其中,圈出來的紅框即為我們感興趣的基因與表型的相關性P值。顯著閾值的設定為:0.05/(GWASp_result.gene.fastbat文件行數-1)


今天的介紹就到這,明天有時間的話再推一篇超實用的工具!

祝各位周一愉快!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM