全基因組關聯分析流程:
一、准備plink文件
1、准備PED文件
PED文件至少有六列,內容如下:
Family ID
Individual ID
Paternal ID
Maternal ID
Sex (1=male; 2=female; other=unknown)
Phenotype(-9 missing 0 missing 1 unaffected 2 affected)
genotype( 1,2,3,4 or A,C,G,T missing 0)
PED文件是空格(空格或制表符)分隔的文件。
PED文件長這個樣:

2、准備MAP文件
MAP文件有四列,四列內容如下:
chromosome (1-22, X, Y or 0 if unplaced)
rs# or snp identifier
Genetic distance (morgans)
Base-pair position (bp units)
MAP文件長這個樣:

3、生成bed、fam、bim、文件
輸入命令
plink --file mydata --out mydata --make-bed
注:plink指的是plink軟件,如果軟件安裝在某個指定的路徑的話,前面還要加上路徑,比如安裝在路徑為/your/pathway/的文件夾下,則命令應該為“/your/pathway/plink --file mydata --out mydata --make-bed”
mydata指的是1和2生成的PED和MAP文件名,不需要寫.ped和.map后綴
二、准備表型文件(Alternate phenotype files)
一般表型文件為txt格式,表型文件有三列,分別為:
Family ID
Individual ID
Phenotype
假如有多種表型,第一列和第二列還是Family ID、Individual ID,第三列及以后的每列都是表型,例如以下:
Family ID
Individual ID
Phenotype A
Phenotype B
Phenotype C
Phenotype D
Phenotype E
……
表型文件長這樣:

缺失值的處理:缺失值的表型用-9表示;
case和control的處理:通常情況下,1表示control,2表示case,0表示缺失,但如果你加上--1的參數,則0表示control,1表示case。
三、准備協變量文件(Covariate files)
協變量文件同表型文件類似,第一列和第二列是Family ID、Individual ID,第三列及以后的每列都是協變量
Family ID
Individual ID
Covariate A
Covariate B
Covariate C
Covariate D
Covariate E
……
協變量文件長這個樣(這里有三個協變量,分別為Sex,Age,temperature):

四、plink進行表型和基因型以及協變量的關聯分析
命令如下:
plink --bfile mydata --linear --pheno pheno.txt --mpheno 1 --covar covar.txt --covar-number 1,2,3 --out mydata –noweb
生成的文件為mydata.assoc.linear

注:“mydata”mydata文件不需要后綴,“--mpheno 1”指的是表型文件的第三列(即第一個表型)
“--covar-number 1,2,3”指的是協變量文件的第三列、第四列、第五列(即第一個、第二個、第三個協變量)
“--linear”指的是用的連續型線性回歸,如果表型為二項式(即0、1)類型,則用“--logistic”
五、畫曼哈頓圖
安裝R語言的CpGassoc包,其中的manhattan(),即可畫曼哈頓圖,或者參照本文R語言畫全基因組關聯分析中的曼哈頓圖(manhattan plot)
