标签【机器学习笔记】

浅谈p值（p-value是什么）

当我们说到p-value时，我们在说什么？ “这个变量的p-value小于0.05，所以这个变量很重要” ........ 你真的知道自己在说什么么？？？这个p-value到底是个什 ...

------------------------------------本博客所有内容以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，并且是非商业用途，谢谢！-------------- ...

　　在机器学习的实践中，我们通常会遇到实际数据中正负样本比例不平衡的情况，也叫数据倾斜。对于数据倾斜的情况，如果选取的算法不合适，或者评价指标不合适，那么对于实际应用线上时效果往往会不尽人意，所以如何 ...

------------------------------------本博客所有内容以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，并且是非商业用途，谢谢！-------------- ...

总结一下我读过的机器学习/数据挖掘/数据分析方面的书，有的适合入门，有的适合进阶，没有按照层次排列，先总结一下，等总结的差不多了再根据入门--->进阶分块写。下面列的书基本上我写的都是读完过的， ...

写在前面：本来这篇应该是上周四更新，但是上周四写了一篇深度学习的反向传播法的过程，就推迟更新了。本来想参考PRML来写，但是发现里面涉及到比较多的数学知识，写出来可能不好理解，我决定还是用最通俗的方法 ...

Python实现SVM（Support Vector Machine）

1.SVM概念支持向量机即 Support Vector Machine，简称 SVM 。SVM模型的主要思想是在样本特征空间上找到最佳的分离超平面（二维是线）使得训练集上正负样本间 ...

　　 kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包（当然自己写也很简单）。那么在Spark里能不能也直接使用sklean包呢？目前来说直接 ...

使用python划分数据集

无论是训练机器学习或是深度学习，第一步当然是先划分数据集啦，今天小白整理了一些划分数据集的方法，希望大佬们多多指教啊，嘻嘻~ 首先看一下数据集的样子，flower_data文件夹下有四个文件夹，每个 ...

这几天在做用户画像，特征是用户的消费商品的消费金额，原始数据（部分）是这样的：我们看到同一个id下面有不同的消费记录，这个数据不能直接拿来用，写了python程序来进行处理：t ...