一、數據為什么要做質量控制
比起表觀學研究,GWAS研究很少有引起偏差的來源,一般來說,一個人的基因型終其一生幾乎不會改變的,因此很少存在同時影響表型又影響基因型的變異。但即便這樣,我們在做GWAS時也要去除一些可能引起偏差的因素。
這種因素主要有:群體結構、個體間存在血緣關系、技術性操作。
二、怎么看數據是否需要進行質量控制
下面分別為樣本和SNP位點在數據中的直方圖,當數據不在絕大多數的分布當中時,我們會傾向於認為那是測序、人工操作等其他方面造成的誤差,而非該個體的真實情況,因此是需要將這些樣本和位點過濾掉的。
這個閾值的設定並沒有一個金標准,可參考往年發表的文獻的常用閾值。
1、樣本過濾閾值的設定
2、SNP過濾閾值的設定
三、怎么進行質量控制
質量控制包括兩個方向,一個是樣本的質量控制,一個是SNP的質量控制
1、樣本的質量控制
樣本的質量控制包括:缺失率、雜合性、基因型性別和記錄的性別是否一致。
1)檢測缺失率,通常情況下,將樣本缺失率大於5%的個體去除
plink --bfile file --mind 0.05 --make-bed --out file_mind
2)檢測雜合性
plink --bfile file --het --make-bed --out file_het
3) 檢測性別不一致的個體
plink --bfile file --check-sex --make-bed --out file_checksex
4)去除不符合的樣本
將1-3)獲得不符合的樣本去除
plink --bfile file --remove removesample.txt --make-bed --out file_qcsample
removesample.txt的格式如下:
FID IID
ASN ind1
ASN ind2
2、SNP位點的質量控制
SNP位點的質量控制包括:MAF值、call出率、Hardy-Weinberg Equilibrium
其命令見如下:
plink --bfile file_mind_file_qcsample --hwe 0.00001 --geno 0.02 --maf 0.01 --make-bed --out file_qcsample_snp
--hwe指的是不符合哈溫伯格平衡的SNP位點,P值小於0.00001;
--geno指的是基因型缺失率大於2%的樣本;
--maf指的是次等位基因頻率低於1%的SNP位點;
最后,會得出干凈的SNP和樣本。
文中圖片出處:
https://jvanderw.une.edu.au/Mod2Lecture_PLINK.pdf