歡迎來到"bio生物信息"的世界
1 前言
早期的研究普遍只做常染色體的全基因組關聯分析,很少做性染色體的。
主要原因是性染色體的遺傳模式比較復雜,存在X染色體失活,而且男女效應值不大一樣。
其次,也不是所有的表型都是男女有差異的。
再然后,也沒有很好的工具計算性染色體的關聯分析。
隨着遺傳學的研究發展,現在有很多工具是允許計算性染色體的關聯分析。
下面簡單介紹一個常見的工具SNPTEST
網址:https://mathgen.stats.ox.ac.uk/genetics_software/snptest/snptest.html
2 SNPTEST支持什么分析
SNPTEST支持很多分析
比如,
二分類、單個或者多個連續型表型的關聯分析
貝葉斯、加性模型、顯性模型、隱性模型、常規模型、雜合子模型
對一個或多個協變量、SNP位點進行條件分析
變量間的交互作用分析
性染色體關聯分析
3 如何使用SNPTEST對性染色體進行關聯分析
3.1 下載、安裝(以CentOS6.6為例)
對於linux系統而言,建議選擇動態鏈接版本(文件寫着dynamic)
wget http://www.well.ox.ac.uk/~gav/resources/snptest_v2.5.4-beta3_CentOS6.6_x86_64_dynamic.tgz
tar zxvf snptest_v2.5.4-beta3_CentOS6.6_x86_64_dynamic.tgz
3.2 准備輸入文件
輸入文件需要兩種類型。一種是表型文件,以.sample后綴,一種是基因型文件。
3.2.1 表型文件.sample的准備
下圖是表型文件的格式
第一行是表型的title,第二行是對每一列的數據說明。
注意,頭兩行是必須的,不然會報錯。
先講第一行的格式:
第一列和第二列是樣本的family ID 和個體ID。
第三列是missing,指的是樣本的缺失率,這一列可以通過plink的--missing參數獲得。
第四列到第七列都是協變量。(紅色框框)
第八列到第十一列都是表型。(藍色框框)
最后一列是性別。(綠色框框)
再講第二行的格式:
第二行的0 0 0 D D C C P P B B D又是什么呢
前三個0 0 0不需要修改,直接照着寫。
紅色框框D D C C 指的是協變量的類型為離散型(D)和連續型(C)
藍色框框P P B B指的是表型的類型為連續型(P)和二分類(B)
綠色框框D指的是性別為離散型(D)
3.2.2 基因型文件的准備
基因型文件支持三種格式。
第一種:GEN 或 gzipped GEN 格式,以.gen 或 .gen.gz結尾
第二種:BGEN格式,以.bgen結尾
第三種:plink格式,以.bed結尾
3.3 做性染色體的關聯分析
輸入如下命令:
./snptest \
-data ./example/cohort1_0X.bed ./example/cohort1.sample ./example/cohort2_0X.bed ./example/cohort2.sample \
-o ./example/ex.out \
-method newml \
-frequentist 1 \
-pheno bin1
解釋一下這些參數的意思。
-data后面跟的是一個或多個隊列的基因型文件(.bed)和表型文件(.sample),這里列舉了兩個隊列。在實際的分析中,可以只分析一個,也可以同時分析多個隊列。
-o指的是輸出的文件路徑(./example/)和文件名(ex.out)。
-method指的是所用的方法。
-frequentist指的是用的模型。模型可選加性模型、顯性模型、隱性模型、常規模型、雜合子模型。分別用1,2,3,4,5表示。 1=Additive, 2=Dominant, 3=Recessive, 4=General and 5=Heterozygote
-pheno指的是所分析的表型列名。
3.4 可能出現的報錯
報錯1:!! Error: (genfile::DuplicateIndividualError) A duplicate sample occurs on line 4 of the file
解決方法:這個報錯說明ID_1的字段是一樣的。需要將ID_1的每個樣本修改為獨一無二的字符。可以與ID_2保持一致。
報錯2:!! Error: the number of individuals (xxx) in the sample file differs from the number (yyy) in the genotypes file
解決方法:將基因型文件(.bed)的順序和數量與表型文件(.sample)的順序和數量保持一致
報錯3:二分類表型識別不了
解決方法:將二分類表型修改撐0,1編碼,SNPtest識別不了1,2

