一.熵
自然界中的熵:
自封閉系統的運動總是倒向均勻分布:
1.自信息:
信息: i(x) = -log(p(x))
a.如果說概率p是對確定性的度量
b.那么信息就是對不確定性的度量
c.當一個小概率事件發生了,這個事件的信息量很大;反之如果一個大概率事件發生了,這個事件的信息量就很少。
2.熵:自信息的期望
熵是對平均不確定性的度量.
熵的理解:熵其實定義了一個函數(概率分布函數)到一個值(信息熵)的映射:P(x)->H(函數->值)
3.聯合熵和條件熵
a.聯合熵:兩個隨機變量X,Y的聯合分布,可以形成聯合熵Joint Entropy,用H(X,Y)表示。
b.條件熵:在隨機變量X發生的前提下,隨機變量Y發生所新帶來的熵定義為Y的條件熵,用H(Y|X)表示,用來衡量在已知隨機變量X的條件下隨機變量Y的不確定性, 用H(X|Y)表示
4.相對熵
相對熵,又稱互熵,交叉熵,鑒別信息,Kullback熵,Kullback-Leible散度等,設p(x)、q(x)是X中取值的兩個概率分布,則p對q的相對熵是:
在一定程度上,相對熵可以度量兩個隨機變量的“距離”
5.互信息
兩個隨機變量X,Y的互信息定義為X,Y的聯合分布和各自獨立分布乘積的相對熵,用I(X,Y)表示:
性質:
I(x,y)>>0:x和y關聯強度大
I(x,y)=0:x和y無關
I(x,y)<<0:x和y具有互補的分布
6.各個熵之間的關系
7.信息增益和熵的關系
a.信息增益是針對一個一個的特征而言的,就是看一個特征t,系統有它和沒它的時候信息量各是多少,兩者的差值就是這個特征給系統帶來的信息量,即增益。
b.系統含有特征t的時候信息量很好計算,就是剛才的式子,它表示的是包含所有特征時系統的信息量。
8.信息論與機器學習的關系
二.決策樹
決策樹是一個預測模型;他代表的是對象屬性與對象值之間的一種映射關系。樹中每個節點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復數輸出,可以建立獨立的決策樹以處理不同輸出。每個決策樹都表述了一種樹型結構,它由它的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源數據庫的分割進行數據測試。這個過程可以遞歸式的對樹進行修剪。
例如: 天氣情況對顧客打球的預測
歷史打球數據:
決策樹模型就被建起來用於解決問題。
決策樹是一個有向無環圖。根結點代表所有數據。分類樹算法可以通過變量outlook,找出最好地解釋非獨立變量play(打高爾夫的人)的方法。變量outlook的范疇被划分為以下三個組:
晴天,多雲天和雨天。
我們得出第一個結論:如果天氣是多雲,人們總是選擇玩高爾夫,而只有少數很着迷的甚至在雨天也會玩。
接下來我們把晴天組的分為兩部分,我們發現顧客不喜歡濕度高於70%的天氣。最終我們還發現,如果雨天還有風的話,就不會有人打了。
決策樹算法:
熵:自信息的期望
經驗熵:
信息增益:定義:特征A對訓練數據集D的信息增益g(D,A),定義為集合D的經驗熵H(D)與特征A給定條件下D的經驗條件熵H(D|A)之差:
g(D,A)=H(D) – H(D|A)
信息增益表示得知特征A的信息而使得類X的信息的不確定性減少(就是確定性的增加)的程度。
決策樹的建立:
基本思想是以信息熵為度量構造一棵熵值下降最快的樹,到葉子節點處的熵值為零, 需要遍歷所有特征,選擇信息增益最大的特征作為當前的分裂特征,一個特征的信息增益越大,表明屬性對樣本的熵減少的能力更強,這個屬性使得數據由不確定性變成確定性的能力越強。
主要有三種算法,區別在於算分裂特征的度量不同
1.ID3:(分類樹)
信息增益:g(D,A)=H(D) – H(D|A)
2.C4.5:(分類樹)
信息增益率: g(D,A) = g(D,A) / H(A)
3.CART:(分類樹和回歸樹)
基尼指數:
決策樹剪枝:
作用:防止過擬合
決策樹的優點與缺點:
優點: 1.決策樹易於理解和實現.人們在通過解釋后都有能力去理解決策樹所表達的意義。
2.對於決策樹,數據的准備往往是簡單或者是不必要的.其他的技術往往要求先把數據一般化,比如去掉多余的或者空白的屬性。
3.能夠同時處理數據型和常規型屬性。其他的技術往往要求數據屬性的單一。
4.是一個白盒模型如果給定一個觀察的模型,那么根據所產生的決策樹很容易推出相應的邏輯表達式。
5.易於通過靜態測試來對模型進行評測。表示有可能測量該模型的可信度。
6.在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。
缺點:對於那些各類別樣本數量不一致的數據,在決策樹當中信息增益的結果偏向於那些具有更多數值的特征。