這節課終於不是那么迷糊了,如果100分滿分的話,聽懂程度有70分了,初學者就是這么容易滿足。 :| 老師說這是這20次課里最簡單的一次。。。oh。。。no。
不廢話了,接着記筆記吧。
CART:classsification and regression tree
三種決策樹:ID3,C4.5,CART
樹是最重要的數據結構。
決策樹示意圖:

決策樹最重要的知識點:
決策樹學習采用的是自頂向下的遞歸方法,其基本思想是以信息熵為度量構造一棵熵值下降最快的樹,到葉子節點處的熵值為零。此時每個葉節點中的實例都屬於同一類。
算法最大的優點是可以自學習。不需要使用者了解過多知識背景,只需要對訓練實例進行較好的標注,就能夠進行學習。屬於有監督學習。
從一類無序、無規則的事物中推理決策樹表示的分類規則。
建立決策樹的關鍵:即在當前狀態下選擇哪個屬性作為分類依據。根據不同的目標函數,建立決策樹主要有以下三種算法:ID3,C4.5,CART.
經驗熵:由數據估計概率得到的熵。
經驗條件熵:有數據估計概率得到的條件熵。
信息增益:得知特征A的信息而使類X的信息的不確定性減少的程度。




剪枝是為了防止過擬合,提高泛化能力。(為了適應測試)
分為前剪枝和后剪枝。
前剪枝:比如約束樹的高度,葉子節點的個數。
后剪枝:樹建好了以后再以某種標准進行剪枝。

Bagging:

可以加權。
最后鄒老師的總結。

*********************************************分割線*********************************************
現在回過頭來,看開頭說聽懂了70%說高了。555555555555555555555555.............不灰心,不放棄。下午更新最愛的SVM。不知道看了幾遍了,看能總結成什么樣吧。
