一、為什么要校正case和control數量比例不平衡情況 試問作為生信屆人員,最怕的是什么,當然是統計結果不靠譜。統計結果不靠譜包括兩方面:一個是假陰性,一個是假陽性。假陰性可以理解為白天鵝被誤當成丑小鴨了,假陽性可以理解為一大堆青蛙,你不知道哪個才是你的真命天子。假陰性就罷了,最多讓你錯過 ...
GWAS研究中,表型分兩種。第一種是線性的表型,如果身高 體重 智力等 第二種是二元的表型,比如患病和未患病,即通常所說的case和control。對於表型是線性的樣本來說,是不存在case和control比例不平衡的情況的,但是對於表型是二元的樣本,比如疾病和對照組 健康人群 ,case和control比例失衡,可能會出現N多的假陽性結果。具體看看下面的例子。 例子 :case和control比 ...
2019-03-29 14:38 3 927 推薦指數:
一、為什么要校正case和control數量比例不平衡情況 試問作為生信屆人員,最怕的是什么,當然是統計結果不靠譜。統計結果不靠譜包括兩方面:一個是假陰性,一個是假陽性。假陰性可以理解為白天鵝被誤當成丑小鴨了,假陽性可以理解為一大堆青蛙,你不知道哪個才是你的真命天子。假陰性就罷了,最多讓你錯過 ...
基因: 基因型: 單倍型 二倍體: 等位基因: 雜合體: 純合體: 同源染色體: 連鎖不平衡: 基因分型: 次等位基因頻率MAF: 參 ...
1、列表包括數據庫名稱、表型、是否能下載到基因型(genotype)、是否能下載到GWAS結果文件(P值、效應值、SNP位點)。目前收集到的有如下: 參考到這些數據庫的文獻:Genome-wide association study identifies 74 loci associated ...
SNP的rsid匹配 在處理 Nealelab 中的summary data sets時,發現數據缺失SNP對應rs號: 可以看到數據中只有variant變量,這里提供了解決方案:https://www.biostars.org/p/349284/ ,實踐一下! Getting ...
一、數據為什么要做質量控制 比起表觀學研究,GWAS研究很少有引起偏差的來源,一般來說,一個人的基因型終其一生幾乎不會改變的,因此很少存在同時影響表型又影響基因型的變異。但即便這樣,我們在做GWAS時也要去除一些可能引起偏差的因素。 這種因素主要有:群體結構、個體間存在血緣關系、技術性操作 ...
之前項目需求中遇到一個復雜排序使用到了order by case when,由於新來的后端不懂,所以我自己研究了下,見之前博客:查詢排序:order by case when理解、在order By子句中使用case語句的理解 其實當時看到這篇博客(ORDER BY 高級用法之CASE ...
在GWAS分析的結果中,偶爾會遇到到pvalue為0的SNP位點,這時如果直接做曼哈頓或QQ圖,會出錯,因為log0無意義。 此時,該如何處理? 如果你用的是Plink1.9來做的GWAS,可加一個參數: --output-min-p 1e-99,即將小於1e-99的pvalue都當成 ...
看到一些很實用的腳本,由於之前對於bash腳本的積累都比較離散,沒有一個全面的了解,在這里記錄一下: bash的case語句用法 case語句的語法規則是: 注意的是, case比較的是pattern,然后既然是通配符,那么: 切記通配符本身不能用引號括起來。 而對於變量 ...