熵值法是一種客觀賦權法,是指根據各項指標觀測值所提供的信息的大小來確定指標權重。在信息論中,熵是對不確定性信息的一種度量。信息量越大,不確定性就越小,熵也就越小;信息量越小,不確定性就越大,熵也越大。
熵大 |
越不確定 |
信息量小 |
影響小 |
權重小 |
熵小 |
越確定 |
信息量大 |
影響大 |
權重大 |
根據指標的特性,我們可以用熵值來判斷某個指標的離散程度:指標熵值越小,離散程度越大,該指標對綜合評價的影響(即權重)也越大。
業務情景:設有m個樣本,n個評價指標,形成原始數據矩陣
對某項指標,指標值
的差距越大,則該指標在綜合評價中所起的作用越大;如果某項指標的指標值全部相等,則該指標在綜合評價中不起作用。
熵值法步驟:
1. 空值處理:指標值如果含有空值,則剔除整條數據
2. 異常值處理:對於占比大於1的剔除(對特殊指標占比除外),再分別計算每個指標下數據的均值和標准差,如果數據大於均值+3*標准差或小於均值-3*標准差,則剔除整條數據。
3. 數據標准化:
由於正向指標和負向指標數值代表的含義不同(正向指標數值越高越好,負向指標數值越低越好),因此,對於高低指標我們用不同的算法進行數據標准化處理。其具體方法如下:
對於正向指標:
對於負向指標:
其中,為標准化后第i個樣本的第j個指標的數值,
4. 計算第j個指標下第i個樣本占該指標的比重:
5. 計算第j個指標的熵值:
其中,,ln為自然對數,
。式中常數k與樣本數m有關,一般
,則
6. 計算第j個指標的信息效用值:
7. 計算各項指標的權重:
8. 計算各樣本的綜合得分:
熵值法避免了人為因素帶來的偏差,但由於忽略了指標本身重要程度,有時確定的指標權重會與預期的結果相差甚遠,同時熵值法不能減少評價指標的維數。
2018-08-05 21:30:06