機器學習(五)-決策樹和隨機森林


這節課終於不是那么迷糊了,如果100分滿分的話,聽懂程度有70分了,初學者就是這么容易滿足。 :| 老師說這是這20次課里最簡單的一次。。。oh。。。no。

不廢話了,接着記筆記吧。

CART:classsification and regression tree

三種決策樹:ID3,C4.5,CART

樹是最重要的數據結構。

決策樹示意圖:

決策樹最重要的知識點:

決策樹學習采用的是自頂向下的遞歸方法,其基本思想是以信息熵為度量構造一棵熵值下降最快的樹,到葉子節點處的熵值為零。此時每個葉節點中的實例都屬於同一類。

算法最大的優點是可以自學習。不需要使用者了解過多知識背景,只需要對訓練實例進行較好的標注,就能夠進行學習。屬於有監督學習。

從一類無序、無規則的事物中推理決策樹表示的分類規則。

建立決策樹的關鍵:即在當前狀態下選擇哪個屬性作為分類依據。根據不同的目標函數,建立決策樹主要有以下三種算法:ID3,C4.5,CART.

經驗熵:由數據估計概率得到的熵。

經驗條件熵:有數據估計概率得到的條件熵。

信息增益:得知特征A的信息而使類X的信息的不確定性減少的程度。

 

剪枝是為了防止過擬合,提高泛化能力。(為了適應測試)

分為前剪枝和后剪枝。

前剪枝:比如約束樹的高度,葉子節點的個數。

后剪枝:樹建好了以后再以某種標准進行剪枝。

Bagging:

可以加權。

最后鄒老師的總結。

*********************************************分割線*********************************************

現在回過頭來,看開頭說聽懂了70%說高了。555555555555555555555555.............不灰心,不放棄。下午更新最愛的SVM。不知道看了幾遍了,看能總結成什么樣吧。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM