plink --bfile file --extract all.snp --r2 --ld-window-kb 1000 --ld-window-r2 0.8 --ld-snp-list all.s ...
哈代 温伯格平衡定律 Hardy Weinberg equilibrium ,即HW平衡,是指对于一个大且随机交配的种群,基因频率和基因型频率在没有迁移 突变和选择的条件下会保持不变。它是建立在一个理想的群体模式上的,有四个假设前提: .群体无限大 .随机婚配 .没有突变 .没有大规模迁移和选择因素的影响。其结论是群体中的基因频率和基因型频率在逐代传递中保持不变。实际上这种理想群体的条件不可能完全 ...
2017-03-29 16:31 0 1464 推荐指数:
plink --bfile file --extract all.snp --r2 --ld-window-kb 1000 --ld-window-r2 0.8 --ld-snp-list all.s ...
数据不平衡 1.什么是数据不平衡 一般都是假设数据分布是均匀的,每种样本的个数差不多,但是现实情况下我们取到的数据并不是这样的,如果直接将分布不均的数据直接应用于算法,大多情况下都无法取得理想的结果。 这里着重考虑二分类,因为解决了二分类种的数据不平衡问题后,推而广之酒能得到多分类情况下 ...
类别不平衡问题指分类任务中不同类别的训练样本数目差别很大的情况。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就会受到影响。一个例子,训练集中有99个正例样本,1个负例样本。在不考虑样本不平衡的很多情况下,学习算法会使分类器放弃 ...
最近需要画LD block,之前一直用haploview软件画,haploview软件毛病比较多,比如不能有多态位点,输入的变异位点不能太多等。动不动就报错。 最近试了一下另外一个画LD block ...
PLINK提供了“--ld”的参数计算两个SNP位点的连锁不平衡值。 命令如下: plink --file file --ld rs123 rs134 --out rs123_rs134 生成如下数据: --ld rs123 rs134: R-sq ...
本文首发于“生信补给站”,https://mp.weixin.qq.com/s/Gl6BChxSYbSHMo9oMpufPg 连锁不平衡图,用来可视化不同SNP之间的连锁程度,前同事间俗称“倒三角”图。 本文使用自己的数据,因为安装R包后使用内置数据集运行出结果较容易 ...
传统处理方法 1.加权 即其对不同类别分错的代价不同,这种方法的难点在于设置合理的权重,实际应用中一般让各个分类间的加权损失值近似相等。当然这并不是通用法则,还是需要具体问题具体分析。和代价敏感类 ...
上一篇介绍了从数据角度出发,如果去处理不平衡问题,主要是通过过采样和欠采样以及它们的改进方式。 本篇博客,介绍不平衡问题可以采样的算法。 一、代价敏感学习 在通常的学习任务中,假定所有样本的权重一般都是相等的,或者说误分类成本是相同的。但是在大多数实际应用中,这种假设是不正确的。 最简单 ...