1.信息熵:信息熵就是指不確定性,熵越大,不確定性越大
2.關於信息增益:
信息增益是針對一個一個的特征而言的,就是看一個特征t,系統有它和沒它的時候信息量各是多少,兩者的差值就是這個特征給系統帶來的信息量,即增益。系統含有特征t的時候信息量很好計算,就是剛才的式子,它表示的是包含所有特征時系統的信息量。
問題是當系統不包含t時,信息量如何計算?我們換個角度想問題,把系統要做的事情想象成這樣:說教室里有很多座位,學生們每次上課進來的時 候可以隨便坐,因而變化是很大的(無數種可能的座次情況);但是現在有一個座位,看黑板很清楚,聽老師講也很清楚,於是校長的小舅子的姐姐的女兒托關系 (真輾轉啊),把這個座位定下來了,每次只能給她坐,別人不行,此時情況怎樣?對於座次的可能情況來說,我們很容易看出以下兩種情況是等價的:(1)教室 里沒有這個座位;(2)教室里雖然有這個座位,但其他人不能坐(因為反正它也不能參與到變化中來,它是不變的)。
對應到我們的系統中,就是下面的等價:(1)系統不包含特征t;(2)系統雖然包含特征t,但是t已經固定了,不能變化。
我們計算分類系統不包含特征t的時候,就使用情況(2)來代替,就是計算當一個特征t不能變化時,系統的信息量是多少。這個信息量其實也有專門的名稱,就叫做“條件熵”,條件嘛,自然就是指“t已經固定“這個條件。
因此有這樣兩個條件熵的表達式:
這是指特征X被固定為值xi時的條件熵,
這是指特征X被固定時的條件熵,注意與上式在意義上的區別。第二個式子與第一個式子的關系就是:
具體到我們文本分類系統中的特征t,t有幾個可能的值呢?注意t是指一個固定的特征,比如他就是指關鍵詞“經濟”或者“體育”,當我們說特征“經濟”可能的取值時,實際上只有兩個,“經濟”要么出現,要么不出現。一般的,t的取值只有t(代表t出現)和(代表t不出現),注意系統包含t但t 不出現與系統根本不包含t可是兩回事。
因此固定t時系統的條件熵就有了,為了區別t出現時的符號與特征t本身的符號,我們用T代表特征,而用t代表T出現,那么:
與剛才的式子對照一下,含義很清楚對吧,P(t)就是T出現的概率,就是T不出現的概率。這個式子可以進一步展開,其中的
另一半就可以展開為:
因此特征T給系統帶來的信息增益就可以寫成系統原本的熵與固定特征T后的條件熵之差: