GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类、回归、排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost, ...
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类、回归、排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost, ...
决策树模型在监督学习中非常常见,可用于分类(二分类、多分类)和回归。虽然将多棵弱决策树的Bagging、Random Forest、Boosting等tree ensembel 模型更为常 ...
1.熵与最大熵原理 熵是随机变量不确定性的度量,不确定性越大,熵值就越大;若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布 假设离散随机变量X的概率分布为P(x),则其熵为: 联合 ...
课程地址:https://class.coursera.org/ntumltwo-002/lecture 重要!重要!重要~ 一、决策树(Decision Tree)、口袋(Baggi ...
在微博上看到七月算法寒老师总结的完整机器的学习项目的工作流程,结合天池比赛的经历写的。现在机器学习应用非常流行,了解机器学习项目的流程,能帮助我们更好的使用机器学习工具来处理实际问题。 ...
集成学习是机器学习算法中非常强大的工具,有人把它称为机器学习中的“屠龙刀”,非常万能且有效,在各大机器学习、数据挖掘竞赛中使用非常广泛。它的思想非常简单,集合多个模型的能力,达到“三个 ...
cppjieba分词包主要提供中文分词、关键词提取、词性标注三种功能 一、分词 cppjieba分词用的方法是最大概率分词(MP)和隐马尔科夫模型(HMM),以及将MP和HMM结合成的MixS ...
1. 正则化概述(Regularization) 监督学习可以简单的理解为在最小化loss function 的同时,保证模型的复杂度尽可能的低,防止出现过拟合(overfit ...
课程地址:https://class.coursera.org/ntumltwo-002/lecture 之前看过别人的竞赛视频,知道GBDT这个算法应用十分广泛。林在第八讲,简单的介绍了AdaBo ...
课程地址:https://class.coursera.org/ntumltwo-002/lecture 重要!重要!重要~ 一、随机森林(RF) 1.RF介绍 RF通过Baggin ...