以下內容僅為自己梳理知識,是許多人博客看后和思考的結晶,無故意抄襲,也記不清都看了哪些大神的博客。。。大家看見切勿怪罪!
決策樹:
決策樹可分為分類樹和回歸樹.
ID3,C45是經典的分類模型,可二分類,多分類。它是通過挑選對整體區分度較大的屬性,朝着混亂程度減小的方向,迭代建立的過程。使得最終也節點中的樣本大體上屬於同一類。本質上試講空間分成葉子節點個互不相交的子空間,標明每個空間的屬性,達到分類模型的建立。這樣,每來一個新的樣本,就會被放入唯一的某個子空間,達到預測分類的效果。
ID3 使用信息熵來表示混亂程度;C45使用信息增益率。
熵的計算公式: P(X = xi)= pi
H(X)= - ∑ pi log pi 通常左式log都是以2或者e為底。這是熵的單位是比特(bit)或者納特(nat),所以熵 只依賴於X的分布,與X的具體值無關,熵越大,隨機變量的不確定性越大。
CART可用於分類也可用於回歸,分類時使用的混亂程度表示是Gini指數