全基因組關聯分析除了找到顯著的關聯位點,我們還可以做基因優化、geneset富集分析、組織富集分析,下面具體講一講怎么利用GWAS的summary數據做這個分析。
summary數據就是關聯分析的結果文件
1 軟件安裝前請確保需要滿足的系統環境
1.1 支持Mac OS X 或者 UNIX, 不支持windows系統
1.2 Java SE 6(或者更高),沒有安裝Java請自行安裝
1.3 需要PIP
怎么確定系統有沒有安裝PIP呢,輸入命令which pip,如果沒有路徑彈出,說明沒有PIP,需要安裝
1.4 需要Python依賴包
pip install intervaltree
或者
conda install -c conda-forge intervaltree
1.5 需要Pandas包 (0.15.2或者以上版本)
pip install pandas
1.6 PLINK(1.9 版本)
1.7 python(2.7 版本)
2 下載、安裝
wget http://www.broadinstitute.org/mpg/depict/depict_download/bundles/DEPICT_v1_rel194.tar.gz
tar -zxvf DEPICT_v1_rel194.tar.gz
3 測試depict能否運行
cd DEPICT
./src/python/depict.py ./example/ldl_teslovich_nature2010.cfg
如果這一步沒有報錯,說明環境配置沒有問題,可以開始分析自己的數據啦
4 准備一份新的cfg文件
拷貝yourtrait.cfg文件
cp ldl_teslovich_nature2010.cfg yourtrait.cfg
編輯yourtrait.cfg文件
vi yourtrait.cfg
vi進去后,yourtrait.cfg文件有幾處需要修改
4.1 修改summary文件,這個summary文件即為你想分析的表型關聯分析文件,在這里,假定叫做yourtrait.glm.linear,注意前面要加上絕對路徑
gwas_summary_statistics_file: /your/path/to/summary/file/yourtrait.glm.linear
4.2 修改輸出文件名,文件名按你喜歡修改,這里依舊假定命名為yourtrait
label_for_output_files: yourtrait
4.3 修改P值名稱,如果yourtrait.glm.linear的P值用P表示的話
pvalue_col_name: P
4.4 修改染色體名稱,如果yourtrait.glm.linear的染色體用Chr表示的話
chr_col_name: Chr
4.4 修改位置名稱,如果yourtrait.glm.linear的位置用Pos表示的話
pos_col_name: Pos
4.5 添加PLINK軟件的絕對路徑,PLINK在你系統的哪個位置就寫上哪里
plink_executable: /your/path/to/plink/plink
4.6 添加plink格式的genotype數據
genotype_data_plink_prefix: /your/path/to/genotype/yourtrait_genotype
修改好以上數據后,保存退出文件:wq
5 跑數據
./src/python/depict.py yourtrait.cfg
6 生成文件
生成的文件分別為loci.txt,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt,其中,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt即為我們感興趣的基因優化,geneset富集分析,組織富集分析
7 畫圖
Rscript ./DEPICT/src/python/tissue_plot.R ./DEPICT/example/ldl_teslovich_nature2010_tissueenrichment.txt ldl_teslovich

