什么是機器學習?
機器學習:簡單來說就是機器通過一系列任務從經驗(數據)中學習並且評估效果如何。
機器學習中很多地方都要根據目前的信息做出決策,信息熵主要是反應信息的不確定性,他的一個很重要的作用就是做決策時提供一定的判斷依據,比如決策樹根據熵來往下設置分支。
信息上實際反應的是一個信息的不確定度。在一個隨機事件中,某個事件發生的不確定度越大,熵也越大,那么我們要搞清楚所需要的信息越多。
那么信息熵本質到底是什么呢,我認為本質就是我要獲得某些信息的代價,當信息的稀有程度越高,得到這個信息需要付出的代價越大。
信息:用於消除隨機不確定性東西
一、不純度:
(1)基尼不純度可以作為 衡量系統混亂程度的 標准;
(2)基尼不純度越小,純度越高,集合的有序程度越高,分類的效果越好;
(3)基尼不純度為 0 時,表示集合類別一致;
(4)在決策樹中,比較基尼不純度的大小可以選擇更好的決策條件(子節點)。
為了要將表格轉化為一棵樹,決策樹需要找出最佳節點和最佳的分枝方法,而衡量這個“最佳”的指標叫做“不純度”。通常來說,不純度越低,決策樹對訓練集的擬合越好。現在使用的決策樹算法在分枝方法上的核心大多是圍繞在對某個不純度相關指標的最優化上。
不純度基於葉子節點來計算的,所以樹中的每個節點都會有一個不純度,並且子節點的不純度一定是低於父節點的,
也就是說,在同一棵決策樹上,葉子節點的不純度一定是最低的。
二、信息熵
當一件事情有多種可能情況時,這件事情(宏觀態)對某人(觀察者)而言具體是哪種情況的不確定性叫做熵,而能夠消除該不確定性的事物叫做信息。熵和信息數量相等意義相反,獲取信息意味着消除不確定性(熵)。
熵值越大代表着隨機變量的不確定性越大,熵值越小代表着隨機變量的不確定性越小,當所有事件的不確定性相等的時候熵最大。
三、信息增益:
意義: 表示已知特征A的信息而使得類D的不確定性減少的程度
四、基尼指數:(基尼不純度)
表示樣本集合中一個隨機選中的樣本被分錯的概率。基尼指數越小表示集合中被選中的樣本被分錯的概率越小,也就說集合的純度越高,反之,集合越不純。
基尼指數=樣本呢被選中的概率*樣本被分錯的概率。