GWAS基因芯片數據預處理:質量控制(quality control)


一、數據為什么要做質量控制

比起表觀學研究,GWAS研究很少有引起偏差的來源,一般來說,一個人的基因型終其一生幾乎不會改變的,因此很少存在同時影響表型又影響基因型的變異。但即便這樣,我們在做GWAS時也要去除一些可能引起偏差的因素。

這種因素主要有:群體結構、個體間存在血緣關系、技術性操作。

 

二、怎么看數據是否需要進行質量控制

下面分別為樣本和SNP位點在數據中的直方圖,當數據不在絕大多數的分布當中時,我們會傾向於認為那是測序、人工操作等其他方面造成的誤差,而非該個體的真實情況,因此是需要將這些樣本和位點過濾掉的。

這個閾值的設定並沒有一個金標准,可參考往年發表的文獻的常用閾值。

 

1、樣本過濾閾值的設定

 

2、SNP過濾閾值的設定

三、怎么進行質量控制

質量控制包括兩個方向,一個是樣本的質量控制,一個是SNP的質量控制

 

1、樣本的質量控制

樣本的質量控制包括:缺失率、雜合性、基因型性別和記錄的性別是否一致。

 

1)檢測缺失率,通常情況下,將樣本缺失率大於5%的個體去除

plink --bfile file --mind 0.05 --make-bed --out file_mind

  

 

2)檢測雜合性

plink --bfile file --het --make-bed --out file_het

  

 

3) 檢測性別不一致的個體

plink --bfile file --check-sex --make-bed --out file_checksex

  

 

4)去除不符合的樣本

將1-3)獲得不符合的樣本去除

plink --bfile file --remove removesample.txt --make-bed --out file_qcsample

  

removesample.txt的格式如下:

FID IID 

ASN ind1

ASN ind2

 

2、SNP位點的質量控制

SNP位點的質量控制包括:MAF值、call出率、Hardy-Weinberg Equilibrium

其命令見如下:

plink --bfile file_mind_file_qcsample --hwe 0.00001 --geno 0.02 --maf 0.01 --make-bed --out file_qcsample_snp

  

--hwe指的是不符合哈溫伯格平衡的SNP位點,P值小於0.00001;

--geno指的是基因型缺失率大於2%的樣本;

--maf指的是次等位基因頻率低於1%的SNP位點;

 

 

最后,會得出干凈的SNP和樣本。

 

 

 

文中圖片出處:

https://jvanderw.une.edu.au/Mod2Lecture_PLINK.pdf

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM