變異系數(離散系數)


事件還原

        在一次數據清洗過程中,需要將多方數據庫進行整合,將各類數據分別由不同的小組去處理,開始需要一個指標來衡量各類數據整合的契合度,也就是離散程度,所以一開始采用了標准差來衡量;
        后來又需要將各類數據的清洗情況做一個排名,因為各類數據的數據量不同,量大的方差也大,沒辦法橫向比較,想到可以用方差除以平均數來消除數據量的影響,后來在網上查到這個公式叫變異系數,也叫離散系數,所以記錄下來以免忘記;
        書到用時方恨少,早知道這個公式直接拿來用就行,就不用費腦筋了;

        以下內容來自百度;

概念

       在概率論和統計學中,變異系數,又稱“離散系數”(英文:coefficient of variation),是概率分布離散程度的一個歸一化量度,其定義為標准差與平均值之比:
       變異系數(coefficient of variation)只在平均值不為零時有定義,而且一般適用於平均值大於零的情況。變異系數也被稱為標准離差率或單位風險。
       變異系數只對由比率標量計算出來的數值有意義。舉例來說,對於一個氣溫的分布,使用開爾文或攝氏度來計算的話並不會改變標准差的值,但是溫度的平均值會改變,因此使用不同的溫標的話得出的變異系數是不同的。也就是說,使用區間標量得到的變異系數是沒有意義的。

       一般來說,變量值平均水平高,其離散程度的測度值越大,反之越小。 
       變異系數是衡量資料中各觀測值變異程度的另一個統計量。當進行兩個或多個資料變異程度的比較時,如果度量單位與平均數相同,可以直接利用標准差來比較。如果單位和(或)平均數不同時,比較其變異程度就不能采用         標准差,而需采用標准差與平均數的比值(相對值)來比較。標准差與平均數的比值稱為變異系數,記為C·V。變異系數可以消除單位和(或)平均數不同對兩個或多個資料變異程度比較的影響。
       變異系數的計算公式為:變異系數 C·V =( 標准偏差 SD / 平均值Mean )× 100%
       在進行數據統計分析時,如果變異系數大於15%,則要考慮該數據可能不正常,應該剔除。

公式

C.V = (SD ÷ MN) × 100%

(標准偏差SD、平均值MN)

應用

優點
1、比起標准差來,變異系數的好處是不需要參照數據的平均值。變異系數是一個無量綱量,因此在比較兩組量綱不同或均值不同的數據時,應該用變異系數而不是標准差來作為比較的參考。
缺陷
1、當平均值接近於0的時候,微小的擾動也會對變異系數產生巨大影響,因此造成精確度不足。
2、變異系數無法發展出類似於均值的置信區間的工具。

應用場景
變異系數在概率論的許多分支中都有應用,比如說在更新理論、排隊理論和可靠性理論中。在這些理論中,指數分布通常比正態分布更為常見。
由於指數分布的標准差等於其平均值,所以它的變異系數等於一。變異系數小於一的分布,比如愛爾朗分布稱為低差別的,而變異系數大於一的分布,如超指數分布則被稱為高差別的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM