一、簡單介紹
按照信息論基本原理的解釋,信息是系統有序程度的一個度量,熵是系統無序程度的一個度量;如果指標的信息熵越小,該指標提供的信息量越大,在綜合評價中所起作用理當越大,權重就應該越高。
二、計算方法
(一)歸一化
假設原式數據$X$為一個n*p維矩陣(n個樣本,p個變量)
$$\begin{pmatrix} x_{11}&x_{12}&\cdots&x_{1p}\
\vdots\
x_{n1}&x_{n2}&{\cdots}&x_{np} \end{pmatrix} $$
則對每一個變量的取值,也就是每一列進行歸一化處理得Y。
對於歸一化處理后的每一列$y_{\cdot j}$
$$y_{ij} = \frac{x_{ij}-min{x_{\cdot j}}}{max{x_{\cdot j}}-min{x_{\cdot j}}}$$
(二)求各變量的信息熵
對於變量j,其信息熵$$H_j = E(-ln\ p_{ij})=-\sum_{i=1}^{n}p_{i j}\cdot ln\ p_{ij}$$
其中
$$p_{ij} = \frac{y_{ij}}{\sum_{i=1}^{n}y_{ij}}$$
如果$p_{ij} = 0$,則定義$$\lim_{p_{ij} \to 0}p_{i j}\cdot ln\ p_{ij} = 0$$
(三)根據信息熵求各變量權重
上面可以計算出p個變量的信息熵:$H_1,H_2,\cdots,H_p$
則第j個變量的權重:
$$w_j = \frac{1-H_j}{p - \sum_{j=1}^{p}H_j},j\in{1,2,\cdots,p}$$