原文:GWAS研究中case和control的比例是有講究的?

GWAS研究中,表型分兩種。第一種是線性的表型,如果身高 體重 智力等 第二種是二元的表型,比如患病和未患病,即通常所說的case和control。對於表型是線性的樣本來說,是不存在case和control比例不平衡的情況的,但是對於表型是二元的樣本,比如疾病和對照組 健康人群 ,case和control比例失衡,可能會出現N多的假陽性結果。具體看看下面的例子。 例子 :case和control比 ...

2019-03-29 14:38 3 927 推薦指數:

查看詳情

GWAS:拒絕假陽性之casecontrol數量比例嚴重失衡的解決方案(SAIGE模型的應用)

一、為什么要校正casecontrol數量比例不平衡情況 試問作為生信屆人員,最怕的是什么,當然是統計結果不靠譜。統計結果不靠譜包括兩方面:一個是假陰性,一個是假陽性。假陰性可以理解為白天鵝被誤當成丑小鴨了,假陽性可以理解為一大堆青蛙,你不知道哪個才是你的真命天子。假陰性就罷了,最多讓你錯過 ...

Tue Apr 02 19:49:00 CST 2019 0 896
GWAS的名稱概念

基因: 基因型: 單倍型 二倍體: 等位基因: 雜合體: 純合體: 同源染色體: 連鎖不平衡: 基因分型: 次等位基因頻率MAF: 參 ...

Sat Jun 01 00:38:00 CST 2019 0 577
GWAS研究可利用的數據庫(20200424更新)

1、列表包括數據庫名稱、表型、是否能下載到基因型(genotype)、是否能下載到GWAS結果文件(P值、效應值、SNP位點)。目前收集到的有如下: 參考到這些數據庫的文獻:Genome-wide association study identifies 74 loci associated ...

Sun Apr 29 04:03:00 CST 2018 0 3576
GWAS summary數據SNP的rsid匹配

SNP的rsid匹配 在處理 Nealelab 的summary data sets時,發現數據缺失SNP對應rs號: 可以看到數據只有variant變量,這里提供了解決方案:https://www.biostars.org/p/349284/ ,實踐一下! Getting ...

Mon Oct 19 04:33:00 CST 2020 0 518
GWAS基因芯片數據預處理:質量控制(quality control

一、數據為什么要做質量控制 比起表觀學研究GWAS研究很少有引起偏差的來源,一般來說,一個人的基因型終其一生幾乎不會改變的,因此很少存在同時影響表型又影響基因型的變異。但即便這樣,我們在做GWAS時也要去除一些可能引起偏差的因素。 這種因素主要有:群體結構、個體間存在血緣關系、技術性操作 ...

Wed Mar 20 19:38:00 CST 2019 0 2307
ORDER BY 高級用法之CASE WHEN繼續研究

  之前項目需求遇到一個復雜排序使用到了order by case when,由於新來的后端不懂,所以我自己研究了下,見之前博客:查詢排序:order by case when理解、在order By子句中使用case語句的理解   其實當時看到這篇博客(ORDER BY 高級用法之CASE ...

Fri Jul 31 20:34:00 CST 2020 0 533
GWAS分析結果pvalue/p.ajust為0時如何處理?

GWAS分析的結果,偶爾會遇到到pvalue為0的SNP位點,這時如果直接做曼哈頓或QQ圖,會出錯,因為log0無意義。 此時,該如何處理? 如果你用的是Plink1.9來做的GWAS,可加一個參數: --output-min-p 1e-99,即將小於1e-99的pvalue都當成 ...

Wed May 05 05:43:00 CST 2021 0 976
bashcase的用法

看到一些很實用的腳本,由於之前對於bash腳本的積累都比較離散,沒有一個全面的了解,在這里記錄一下: bash的case語句用法 case語句的語法規則是: 注意的是, case比較的是pattern,然后既然是通配符,那么: 切記通配符本身不能用引號括起來。 而對於變量 ...

Fri Jun 07 23:00:00 CST 2019 0 978
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM