對性染色體進行關聯分析


歡迎來到"bio生物信息"的世界

1 前言

早期的研究普遍只做常染色體的全基因組關聯分析,很少做性染色體的。

主要原因是性染色體的遺傳模式比較復雜,存在X染色體失活,而且男女效應值不大一樣。

其次,也不是所有的表型都是男女有差異的。

再然后,也沒有很好的工具計算性染色體的關聯分析。

隨着遺傳學的研究發展,現在有很多工具是允許計算性染色體的關聯分析。

下面簡單介紹一個常見的工具SNPTEST

網址:https://mathgen.stats.ox.ac.uk/genetics_software/snptest/snptest.html

2 SNPTEST支持什么分析

SNPTEST支持很多分析

比如,

二分類、單個或者多個連續型表型的關聯分析

貝葉斯、加性模型、顯性模型、隱性模型、常規模型、雜合子模型

對一個或多個協變量、SNP位點進行條件分析

變量間的交互作用分析

性染色體關聯分析

3 如何使用SNPTEST對性染色體進行關聯分析

3.1 下載、安裝(以CentOS6.6為例)

對於linux系統而言,建議選擇動態鏈接版本(文件寫着dynamic)

wget http://www.well.ox.ac.uk/~gav/resources/snptest_v2.5.4-beta3_CentOS6.6_x86_64_dynamic.tgz

tar zxvf snptest_v2.5.4-beta3_CentOS6.6_x86_64_dynamic.tgz

3.2 准備輸入文件

輸入文件需要兩種類型。一種是表型文件,以.sample后綴,一種是基因型文件。

3.2.1 表型文件.sample的准備

下圖是表型文件的格式

M6agmV.md.png

第一行是表型的title,第二行是對每一列的數據說明。

注意,頭兩行是必須的,不然會報錯。

先講第一行的格式:

第一列和第二列是樣本的family ID 和個體ID。

第三列是missing,指的是樣本的缺失率,這一列可以通過plink的--missing參數獲得。

第四列到第七列都是協變量。(紅色框框)

第八列到第十一列都是表型。(藍色框框)

最后一列是性別。(綠色框框)

再講第二行的格式:

第二行的0 0 0 D D C C P P B B D又是什么呢

前三個0 0 0不需要修改,直接照着寫。

紅色框框D D C C 指的是協變量的類型為離散型(D)和連續型(C)

藍色框框P P B B指的是表型的類型為連續型(P)和二分類(B)

綠色框框D指的是性別為離散型(D)

3.2.2 基因型文件的准備

基因型文件支持三種格式。

第一種:GEN 或 gzipped GEN 格式,以.gen 或 .gen.gz結尾

第二種:BGEN格式,以.bgen結尾

第三種:plink格式,以.bed結尾

3.3 做性染色體的關聯分析

輸入如下命令:

./snptest \

-data ./example/cohort1_0X.bed ./example/cohort1.sample ./example/cohort2_0X.bed ./example/cohort2.sample \

-o ./example/ex.out \

-method newml \

-frequentist 1 \

-pheno bin1

解釋一下這些參數的意思。

-data后面跟的是一個或多個隊列的基因型文件(.bed)和表型文件(.sample),這里列舉了兩個隊列。在實際的分析中,可以只分析一個,也可以同時分析多個隊列。

-o指的是輸出的文件路徑(./example/)和文件名(ex.out)。

-method指的是所用的方法。

-frequentist指的是用的模型。模型可選加性模型、顯性模型、隱性模型、常規模型、雜合子模型。分別用1,2,3,4,5表示。 1=Additive, 2=Dominant, 3=Recessive, 4=General and 5=Heterozygote

-pheno指的是所分析的表型列名。

3.4 可能出現的報錯

報錯1:!! Error: (genfile::DuplicateIndividualError) A duplicate sample occurs on line 4 of the file

解決方法:這個報錯說明ID_1的字段是一樣的。需要將ID_1的每個樣本修改為獨一無二的字符。可以與ID_2保持一致。

報錯2:!! Error: the number of individuals (xxx) in the sample file differs from the number (yyy) in the genotypes file

解決方法:將基因型文件(.bed)的順序和數量與表型文件(.sample)的順序和數量保持一致

報錯3:二分類表型識別不了

解決方法:將二分類表型修改撐0,1編碼,SNPtest識別不了1,2


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM