LogisticRegression 和 LogisticRegressionCV

本文轉載自查看原文 2019-06-18 10:31 1809 機器學習筆記

在scikit-learn中，與邏輯回歸有關的主要是這3個類。LogisticRegression， LogisticRegressionCV 和logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要區別是LogisticRegressionCV使用了交叉驗證來選擇正則化系數C。而LogisticRegression需要自己每次指定一個正則化系數。除了交叉驗證，以及選擇正則化系數C以外， LogisticRegression和LogisticRegressionCV的使用方法基本相同。

LogisticRegression參數class_weight的含義：

class_weight參數用於標示分類模型中各種類型的權重，可以不輸入，即不考慮權重，或者說所有類型的權重一樣。如果選擇輸入的話，可以選擇balanced，讓類庫自己計算類型權重，或者我們自己輸入各個類型的權重，比如對於0,1的二元模型，我們可以定義class_weight={0:0.9, 1:0.1}，這樣類型0的權重為90%，而類型1的權重為10%。

如果class_weight選擇balanced，那么類庫會根據訓練樣本量來計算權重。某種類型樣本量越多，則權重越低，樣本量越少，則權重越高。

那么class_weight有什么作用呢？在分類模型中，我們經常會遇到兩類問題：

第一種是誤分類的代價很高。比如對合法用戶和非法用戶進行分類，將非法用戶分類為合法用戶的代價很高，我們寧願將合法用戶分類為非法用戶，這時可以人工再甄別，但是卻不願將非法用戶分類為合法用戶。這時，我們可以適當提高非法用戶的權重。

第二種是樣本是高度失衡的，比如我們有合法用戶和非法用戶的二元樣本數據10000條，里面合法用戶有9995條，非法用戶只有5條，如果我們不考慮權重，則我們可以將所有的測試集都預測為合法用戶，這樣預測准確率理論上有99.95%，但是卻沒有任何意義。這時，我們可以選擇balanced，讓類庫自動提高非法用戶樣本的權重。

提高了某種分類的權重，相比不考慮權重，會有更多的樣本分類划分到高權重的類別，從而可以解決上面兩類問題。

當然，對於第二種樣本失衡的情況，還可以考慮用下一節講到的樣本權重參數： sample_weight，而不使用class_weight。

LogisticRegression優化算法選擇參數solver的含義：

solver參數決定了我們對邏輯回歸損失函數的優化方法，有4種算法可以選擇，分別是：

a) liblinear：使用了開源的liblinear庫實現，內部使用了坐標軸下降法來迭代優化損失函數。

b) lbfgs：擬牛頓法的一種，利用損失函數二階導數矩陣即海森矩陣來迭代優化損失函數。

c) newton-cg：也是牛頓法家族的一種，利用損失函數二階導數矩陣即海森矩陣來迭代優化損失函數。

d) sag：即隨機平均梯度下降，是梯度下降法的變種，和普通梯度下降法的區別是每次迭代僅僅用一部分的樣本來計算梯度，適合於樣本數據多的時候。

從上面的描述可以看出，newton-cg、lbfgs和sag這三種優化算法時都需要損失函數的一階或者二階連續導數，因此不能用於沒有連續導數的L1正則化，只能用於L2正則化，而liblinear通吃L1正則化和L2正則化。

同時，sag每次僅僅使用了部分樣本進行梯度迭代，所以當樣本量少的時候不要選擇它，而如果樣本量非常大，比如大於10萬，sag是第一選擇。但是sag不能用於L1正則化，所以當你有大量的樣本，又需要L1正則化的話就要自己做取舍了。要么通過對樣本采樣來降低樣本量，要么回到L2正則化。

從上面的描述，大家可能覺得，既然newton-cg、lbfgs和sag這么多限制，如果不是大樣本，我們選擇liblinear不就行了嘛！錯，因為liblinear也有自己的弱點！我們知道，邏輯回歸有二元邏輯回歸和多元邏輯回歸。對於多元邏輯回歸常見的有one-vs-rest(OvR)和many-vs-many(MvM)兩種。而MvM一般比OvR分類相對准確一些。郁悶的是liblinear只支持OvR，不支持MvM，這樣如果我們需要相對精確的多元邏輯回歸時，就不能選擇liblinear了，也意味着如果我們需要相對精確的多元邏輯回歸不能使用L1正則化了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 LogisticRegression 和 LogisticRegressionCV Python實現LogisticRegression #關於 OneVsRestClassifier(LogisticRegression(太慢了，要用超過的機器) 【機器學習基礎】邏輯回歸——LogisticRegression sklearn.linear_model.LogisticRegression參數說明基於jieba,TfidfVectorizer,LogisticRegression進行搜狐新聞文本分類 sklearn.linear_model.LogisticRegression邏輯回歸參數詳解《機器學習(周志華)》筆記--線性模型（5）--邏輯回歸實現二分類、LogisticRegression、多分類學習、糾錯輸出碼(ECOC)