《機器學習》（西瓜書）筆記（3）--線性模型

本文轉載自查看原文 2017-06-20 16:09 1312 讀書筆記/ 機器學習

第三章線性模型

3.1 基本形式

線性模型（linear model）試圖學得一個通過屬性的線性組合來進行預測的函數，即

一般用向量形式寫成

，其中

w 和 b 學得之后，模型就得以確定。

3.2 線性回歸

對離散屬性的處理：

若屬性值間存在序關系，可通過連續化將其轉化為連續值，例如二值屬性“身高”的取值“高”“矮”可轉化為 {1.0, 0.0}；
若屬性值間不存在序關系，假定有 k 個屬性值，則通常轉化為 k 維向量。

均方差誤差最小

基於均方誤差最小化來進行模型求解的方法稱為 最小二乘法（least square method）。

線性回歸模型的最小二乘參數估計：指求解 w 和 b 使 E(w, b) = ∑(y _i - wx _i - b) ² 最小化的過程。

對數線性回歸（log-linear regression）：

廣義線性模型：考慮單調可微函數g，令

這樣得到的模型稱為廣義線性模型（generalized linear model），函數 g 稱為聯系函數（link function）。

3.3 對數幾率回歸

分類任務如何處理？

對數幾率函數（logistic function）：

幾率：若將 y 看做樣本 x 為正例的可能性，則 1-y 為樣本 x 為反例的可能性，這兩者的比例稱為幾率。

對數幾率：將上述幾率取對數。

對數幾率回歸：(**)式實際上是用線性回歸模型的預測結果去逼近真實標記的對數幾率，因此，其對應的模型稱為對數幾率回歸（logistic regression）。

它是一種分類學習方法。

對數幾率回歸的優點：

它直接對分類可能性進行建模，無需事先假設數據分布，避免了假設分布不准確所帶來的問題。
它不僅預測出類別，還得到近似概率預測，對許多需利用概率輔助決策的任務很有用。
對率函數是任意階可導的凸函數，有很好的數學性質，現有的許多數值優化算法都可直接用於求取最優解。

如何確定(**)式中的 w 和 b？

3.4 線性判別分析

線性判別分析（Linear Discriminant Analysis，簡稱LDA）的思想：

給定訓練樣例集，設法將樣例投影到一條直線上，使得同類樣例的投影盡可能接近，異類樣例的投影盡可能遠離。在對新樣本進行分類時，將其投影到同樣的這條直線上，再根據投影點的位置來去頂新樣本的類別。

3.5 多分類問題

多分類問題的 基本思路是拆解法，即將多分類的任務拆為若干個二分類任務求解。

最經典的 拆分策略有三種：一對一（One vs. One，簡稱OvO），一對其余（One vs. Rest，簡稱OvR）和多對多（Many vs. Many，簡稱MvM）。

考慮 N 個類別C ₁,C ₂,...,C _N,

給定數據集 D = {(x ₁,y ₁),( x₂,y₂ ),...,( x_m,y_m )}, y_i ∈ { C ₁ ,C ₂ ,...,C _N }

OvO將這 N 個類別兩兩配對，從而產生 N(N-1)/2 個二分類任務。

OvR是每次將一個類的樣例作為正例、所有其他類的樣例作為反例來訓練 N 個分類器。

MvM是每次將若干個類作為正類，若干個其他類作為反類。MvM的正、反類構造必須有特殊的設計，不能隨意選取。最常見的MvM技術為 糾錯輸出碼（Error Correcting Output Codes, 簡稱ECOC）。

糾錯：在測試階段，ECOC編碼對分類的錯誤有一定的容忍和修正能力。

一般來說，對同一個學習任務，ECOC編碼越長，糾錯能力越強。
對同等長度的編碼，理論上來說，任意兩個類別之間的編碼距離越遠，則糾錯能力越強。

3.6 類別不平衡問題

前面幾個分類學習方法都有一個共同的假設：不同類別的訓練樣例數目相同。

類別不平衡（class-imbalance）：指分類任務中不同類別的訓練樣例數目差別很大的情況。

以線性分類器為例，在用 y = w ^Tx + b對新樣本 x 進行分類時，實際上是在用預測出的 y 值與一個閾值進行比較，大於閾值時為正例，反之則為反例。

1. 正、反例數目相同時的閾值是0.5，即

2. 正、反例數目不同時的閾值是 m ⁺ / (m ⁺ + m ^-)，即

m ⁺ 表示正例數目， m ^- 表示返利數目。

這就是類別不平衡學習的一個基本策略—— 再縮放（rescaling）。

當“訓練集是真實樣本總體的無偏采樣”這個假設不成立時，有以下方法：

方法	欠采樣（undersampling）	過采樣（oversampling）	閾值移動（threshold-moving）
詳情	去除一些反例使得正、反例數目接近，然后進行學習	增加一些正例使得正、反例數目接近，然后再進行學習	直接基於原始訓練集進行學習，但在用訓練好的分類器進行預測時，將再縮放的公式嵌入到決策過程中
注	1. 時間開銷較小 2. 不能隨機丟棄反例，可能丟失重要信息。 3. 代表算法EasyEnsemble	1.不能簡單的對初始正例樣本進行重復采樣，否則會招致嚴重的過擬合。 2. 代表算法SMOTE	再縮放也是代價敏感學習的基礎。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 《機器學習》（西瓜書）筆記（2）--模型評估與選擇機器學習西瓜書課后習題答案---2、模型評估【西瓜書】周志華《機器學習》學習筆記與習題探討（一）《機器學習》(周志華)西瓜書讀書筆記(完結) 《機器學習》（西瓜書）筆記（4）--決策樹《機器學習》（西瓜書）筆記（5-1）--神經網絡《機器學習》西瓜書習題第 4 章《機器學習》西瓜書習題第 6 章《機器學習》西瓜書習題第 3 章《機器學習》西瓜書習題第 5 章