sklearn的class_weight設置為'balanced'的計算方法

本文轉載自查看原文 2019-12-05 21:44 2461 機器學習/ python相關文檔/ class_weight/ sklearn/ Python

分類的時候，當不同類別的樣本量差異很大時，很容易影響分類結果，因此要么每個類別的數據量大致相同，要么就要進行校正。

sklearn的做法可以是加權，加權就要涉及到class_weight和sample_weight，當不設置class_weight參數時，默認值是所有類別的權值為1。

在python中：

# class_weight的傳參
class_weight : {dict, 'balanced'}, optional
        Set the parameter C of class i to class_weight[i]*C for
        SVC. If not given, all classes are supposed to have
        weight one. The "balanced" mode uses the values of y to automatically
        adjust weights inversely proportional to class frequencies as
        ``n_samples / (n_classes * np.bincount(y))``
#  當使用字典時，其形式為：Weights associated with classes in the form ``{class_label: weight}``，比如：{0: 1, 1: 1}表示類0的權值為1，類1的權值為1.

# sample_weight的傳參
sample_weight : array-like, shape (n_samples,)
            Per-sample weights. Rescale C per sample. Higher weights
            force the classifier to put more emphasis on these points.

1. 在：from sklearn.utils.class_weight import compute_class_weight 里面可以看到計算的源代碼。

2. 除了通過字典形式傳入權重參數，還可以設置的是：class_weight = 'balanced'，例如使用SVM分類：

clf = SVC(kernel = 'linear', class_weight='balanced', decision_function_shape='ovr')
clf.fit(X_train, y_train)

3. 那么'balanced'的計算方法是什么呢？看例子：

import numpy as np

y = [0,0,0,0,0,0,0,0,1,1,1,1,1,1,2,2]  #標簽值，一共16個樣本

a = np.bincount(y)  # array([8, 6, 2], dtype=int64) 計算每個類別的樣本數量
aa = 1/a  #倒數 array([0.125     , 0.16666667, 0.5       ])
print(aa)

from sklearn.utils.class_weight import compute_class_weight 
class_weight = 'balanced'
classes = np.array([0, 1, 2])  #標簽類別
weight = compute_class_weight(class_weight, classes, y)
print(weight) # [0.66666667 0.88888889 2.66666667]

print(0.66666667*8)  #5.33333336
print(0.88888889*6)  #5.33333334
print(2.66666667*2) #5.33333334
# 這三個值非常接近
# 'balanced'計算出來的結果很均衡，使得懲罰項和樣本量對應

可以看出計算出來的值，乘以樣本量之后，三個類別的數字很接近，我想的是：個人覺得懲罰項就用樣本量的倒數未嘗不可，因為乘以樣本量都是1，相當於'balanced'這里是多乘以了一個常數

4. 真正的魔法到了：還記得上面所給出的python中，當class_weight為'balanced'時的計算公式嗎？

# weight_ = n_samples / (n_classes * np.bincount(y))``
# 這里
# n_samples為16
# n_classes為3
# np.bincount(y)實際上就是每個類別的樣本數量

於是：

print(16/(3*8))  #輸出 0.6666666666666666
print(16/(3*6))  #輸出 0.8888888888888888
print(16/(3*2))  #輸出 2.6666666666666665

是不是跟計算出來的權值一樣？這就是class_weight設置為'balanced'時的計算方法了。

5. 當然，需要說明一下傳入字典時的情形

import numpy as np

y = [0,0,0,0,0,0,0,0,1,1,1,1,1,1,2,2]  #標簽值，一共16個樣本

from sklearn.utils.class_weight import compute_class_weight 
class_weight = {0:1,1:3,2:5}   # {class_label_1:weight_1, class_label_2:weight_2, class_label_3:weight_3}
classes = np.array([0, 1, 2])  #標簽類別
weight = compute_class_weight(class_weight, classes, y)
print(weight)   # 輸出：[1. 3. 5.]，也就是字典中設置的值

參考：

https://blog.csdn.net/go_og/article/details/81281387

https://www.zhihu.com/question/265420166/answer/293896934

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Keras class_weight和sample_weight用法 sklearn決策樹特征權重計算方法 QPS的計算方法電流的計算方法 TPS及計算方法日期的計算方法響度計算方法 TPS及計算方法 AUC計算方法 TPS及計算方法