淺談決策樹,RF和GBDT


以下內容僅為自己梳理知識,是許多人博客看后和思考的結晶,無故意抄襲,也記不清都看了哪些大神的博客。。。大家看見切勿怪罪!

 

決策樹:

  決策樹可分為分類樹和回歸樹.

  ID3,C45是經典的分類模型,可二分類,多分類。它是通過挑選對整體區分度較大的屬性,朝着混亂程度減小的方向,迭代建立的過程。使得最終也節點中的樣本大體上屬於同一類。本質上試講空間分成葉子節點個互不相交的子空間,標明每個空間的屬性,達到分類模型的建立。這樣,每來一個新的樣本,就會被放入唯一的某個子空間,達到預測分類的效果。

  ID3 使用信息熵來表示混亂程度;C45使用信息增益率。

  熵的計算公式: P(X = xi)= pi   

         H(X)= - ∑ plog pi  通常左式log都是以2或者e為底。這是熵的單位是比特(bit)或者納特(nat),所以熵 只依賴於X的分布,與X的具體值無關,熵越大,隨機變量的不確定性越大。

  CART可用於分類也可用於回歸,分類時使用的混亂程度表示是Gini指數

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM