GWAS基因芯片數據預處理：質量控制（quality control）

本文轉載自查看原文 2019-03-20 11:38 2307 GWAS

一、數據為什么要做質量控制

比起表觀學研究，GWAS研究很少有引起偏差的來源，一般來說，一個人的基因型終其一生幾乎不會改變的，因此很少存在同時影響表型又影響基因型的變異。但即便這樣，我們在做GWAS時也要去除一些可能引起偏差的因素。

這種因素主要有：群體結構、個體間存在血緣關系、技術性操作。

二、怎么看數據是否需要進行質量控制

下面分別為樣本和SNP位點在數據中的直方圖，當數據不在絕大多數的分布當中時，我們會傾向於認為那是測序、人工操作等其他方面造成的誤差，而非該個體的真實情況，因此是需要將這些樣本和位點過濾掉的。

這個閾值的設定並沒有一個金標准，可參考往年發表的文獻的常用閾值。

1、樣本過濾閾值的設定

2、SNP過濾閾值的設定

三、怎么進行質量控制

質量控制包括兩個方向，一個是樣本的質量控制，一個是SNP的質量控制

1、樣本的質量控制

樣本的質量控制包括：缺失率、雜合性、基因型性別和記錄的性別是否一致。

1）檢測缺失率，通常情況下，將樣本缺失率大於5%的個體去除

plink --bfile file --mind 0.05 --make-bed --out file_mind

2）檢測雜合性

plink --bfile file --het --make-bed --out file_het

3) 檢測性別不一致的個體

plink --bfile file --check-sex --make-bed --out file_checksex

4）去除不符合的樣本

將1-3）獲得不符合的樣本去除

plink --bfile file --remove removesample.txt --make-bed --out file_qcsample

removesample.txt的格式如下：

FID IID

ASN ind1

ASN ind2

2、SNP位點的質量控制

SNP位點的質量控制包括：MAF值、call出率、Hardy-Weinberg Equilibrium

其命令見如下：

plink --bfile file_mind_file_qcsample --hwe 0.00001 --geno 0.02 --maf 0.01 --make-bed --out file_qcsample_snp

--hwe指的是不符合哈溫伯格平衡的SNP位點，P值小於0.00001；

--geno指的是基因型缺失率大於2%的樣本；

--maf指的是次等位基因頻率低於1%的SNP位點；

最后，會得出干凈的SNP和樣本。

文中圖片出處：

https://jvanderw.une.edu.au/Mod2Lecture_PLINK.pdf

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 用R和BioConductor進行基因芯片數據分析(六)：差異表達基因測序數據質量控制 RNA測序的質量控制質量控制點的設置代碼質量控制 & 編程注意項數據預處理-采樣數據預處理的方法有什么？數據預處理流程數據預處理 2(1).數據預處理方法