秦曾昌人工智能課程---7、決策樹集成學習Tree Ensembles
一、總結
一句話總結:
其實機器模型減少variance的比較好的方式就是 多個模型取平均值
1、CART是什么?
classification and regression tree
2、決策樹模型的本質是什么?
divide the input space into a few regions
3、我們如何用決策樹去做預測?
信息不同屬性按重要性依次下分:先划分x1的范圍,這就形成了一個二叉樹分支,再划分x2的范圍,就形成的決策樹。
葉子節點是分類,也是預測:預測的話就是不同范圍的(x1,x2)就對應了不同的y,這個y就是可以用作預測的
葉子節點是預測值:決策樹,非葉子節點就是x1,x2的范圍,葉子節點就是預測的值y
4、CART tree 分割的一個例子?
|||-begin
x 1 | 2 3 4 | 5 6 7 8 9 10
y 0 | 1 2 3 | 4 5 6 7 8 9
|||-end
求不同分割的重要性:如果是1.5處分割,那么loss(1.5)=每一部分的差值平方和的和,比如第二部分xi={1-9},x平均數=5,(xi-5)^2
5、CART tree的本質是什么?
二分·遞歸·分割樹:感覺和線段樹的分割非常相似,只不過cart tree的葉子節點是y值
6、如何用cart tree做集成學習?
多個角色投票產生:每個角色可能准確度不高,但是多個角色投票起來,准確率就高了很多(和多次模型取平均值很相似)
7、用cart tree做集成學習中Bagging 和 Boosting的區別是什么?
Bagging:每個臭皮匠的能力都是一樣:每個模型是單獨訓練,方便做分布式,最后各個模型投票決定
Boosting:給臭皮匠分了等級:后一個模型的訓練依賴於前一個,給分錯的數據增加權限方便下一個模型分對,給訓練的模型增加權限為了最后投票,最后也是各個模型投票決定
8、用cart tree做集成學習的好處是什么?
去掉了噪音:即那些不着邊際的數據
二、內容在總結中