一、信息熵
- 百科:信息熵
- 衡量信息的不確定度;
1)理論提出
- 信息論之父 C. E. Shannon 指出:任何信息都存在冗余,冗余大小與信息中每個符號(數字、字母或單詞)的出現概率或者說不確定性有關。
- Shannon 把信息中排除了冗余后的平均信息量稱為“信息熵”。
- 通常,一個信源發送出什么符號是不確定的(不同的符號可以看做不同的樣本類型),衡量它可以根據其出現的概率來度量。概率大,出現機會多,不確定性小;反之就大。
2)基本內容
- 根據事件發生的概率 P,可得出發生該事件的不確定性:
;
- 不同事件的不確定性可以相加:f(P1, P2) = f(P1) + f(P2);
- 一個數據集的不確定性:f(P1, P2, ... , Pk) = f(P1) + ... + f(Pk) = H
- 在信源中,考慮的不是某一單個符號發生的不確定性,而是要考慮這個信源所有可能發生情況的平均不確定性。若信源符號有n種取值:U1…Ui…Un,對應概率為:P1…Pi…Pn,且各種符號的出現彼此獨立。這時,信源的平均不確定性應當為單個符號不確定性-logPi的統計平均值(E),可稱為信息熵,即
,式中對數一般取2為底,單位為比特。但是,也可以取其它對數底,采用其它相應的單位,它們間可用換底公式換算。
二、基尼系數
- 百科:基尼系數
- 多用於經濟學中,分析國家貧富差距;
- 基尼系數是指國際上通用的、用以衡量一個國家或地區居民收入差距的常用指標。基尼系數介於0-1之間,基尼系數越大,表示不平等程度越高;
- 有赫希曼提出,而不是基尼;
1)通用算法
- 赫希曼根據洛倫茨曲線提出的判斷分配平等程度的指標。設實際收入分配曲線和收入分配絕對平等曲線之間的面積為A,實際收入分配曲線右下方的面積為B。並以A除以(A+B)的商表示不平等程度;
- 如果A為零,基尼系數為零,表示收入分配完全平等;
- 如果B為零則系數為1,收入分配絕對不平等。
- 收入分配越是趨向平等,洛倫茨曲線的弧度越小,基尼系數也越小,反之,收入分配越是趨向不平等,洛倫茨曲線的弧度越大,那么基尼系數也越大。