《機器學習》(西瓜書)筆記(3)--線性模型


第三章    線性模型
3.1  基本形式
線性模型(linear model)試圖學得一個通過屬性的線性組合來進行預測的函數,即
一般用向量形式寫成
,其中
w 和 b 學得之后, 模型就得以確定。
 
 
3.2  線性回歸
對離散屬性的處理:
  1. 若屬性值間存在序關系,可通過連續化將其轉化為連續值,例如二值屬性“身高”的取值“高”“矮”可轉化為 {1.0, 0.0};
  2. 若屬性值間不存在序關系,假定有 k 個屬性值,則通常轉化為 k 維向量。
 
均方差誤差最小
 基於均方誤差最小化來進行模型求解的方法稱為 最小二乘法(least square method)
線性回歸模型的最小二乘參數估計:指求解 w 和 b 使 E(w, b) = ∑(y i - wx i - b) 2 最小化的過程。
 
對數線性回歸(log-linear regression)
 
 廣義線性模型:考慮單調可微函數g,令
這樣得到的模型稱為廣義線性模型(generalized linear model),函數 g 稱為聯系函數(link function)。
 
 
3.3  對數幾率回歸
分類任務如何處理?
對數幾率函數(logistic function)
 
 
 幾率:若將 y 看做樣本 x 為正例的可能性,則 1-y 為樣本 x 為反例的可能性,這兩者的比例稱為幾率。
對數幾率:將上述幾率取對數。
 
對數幾率回歸:(**)式實際上是用線性回歸模型的預測結果去逼近真實標記的對數幾率,因此,其對應的模型稱為對數幾率回歸(logistic regression)。
它是一種分類學習方法。
 
對數幾率回歸的 優點
  1. 它直接對分類可能性進行建模,無需事先假設數據分布,避免了假設分布不准確所帶來的問題。
  2. 它不僅預測出類別,還得到近似概率預測,對許多需利用概率輔助決策的任務很有用。
  3. 對率函數是任意階可導的凸函數,有很好的數學性質,現有的許多數值優化算法都可直接用於求取最優解。
 
如何確定(**)式中的 w 和 b?
 
 
 
3.4  線性判別分析
線性判別分析(Linear Discriminant Analysis,簡稱LDA)的 思想
給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影盡可能接近,異類樣例的投影盡可能遠離。在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來去頂新樣本的類別。
 
 
 
3.5  多分類問題
多分類問題的 基本思路是拆解法,即將多分類的任務拆為若干個二分類任務求解。
最經典的 拆分策略有三種:一對一(One vs. One,簡稱OvO),一對其余 (One vs. Rest,簡稱OvR) 和多對多 (Many vs. Many,簡稱MvM)
 
考慮 N 個類別C 1,C 2,...,C N,
給定數據集 D = {(x 1,y 1),( x2,y2 ),...,( xm,ym )}, yi ∈ { C 1 ,C 2 ,...,C N }
OvO將這 N 個類別兩兩配對,從而產生 N(N-1)/2 個二分類任務。
OvR是每次將一個類的樣例作為正例、所有其他類的樣例作為反例來訓練 N 個分類器。
 
 
MvM是每次將若干個類作為正類,若干個其他類作為反類。MvM的正、反類構造必須有特殊的設計,不能隨意選取。最常見的MvM技術為 糾錯輸出碼(Error Correcting Output Codes, 簡稱ECOC)。
 
 糾錯:在測試階段,ECOC編碼對分類的錯誤有一定的容忍和修正能力。
  1. 一般來說,對同一個學習任務,ECOC編碼越長,糾錯能力越強。
  2. 對同等長度的編碼,理論上來說,任意兩個類別之間的編碼距離越遠,則糾錯能力越強。
 
 
3.6  類別不平衡問題
前面幾個分類學習方法都有一個共同的假設:不同類別的訓練樣例數目相同。
類別不平衡(class-imbalance):指分類任務中不同類別的訓練樣例數目差別很大的情況。
 
以線性分類器為例,在用 y = w Tx + b對新樣本 x 進行分類時,實際上是在用預測出的 y 值與一個閾值進行比較,大於閾值時為正例,反之則為反例。
1. 正、反例數目相同時的閾值是0.5,即
 2. 正、反例數目不同時的閾值是 m + / (m + + m -),即
  m 表示正例數目, m 表示返利數目。 
  這就是類別不平衡學習的一個基本策略—— 再縮放(rescaling)
  
 
當“訓練集是真實樣本總體的無偏采樣”這個假設不成立時,有以下方法:
方法 欠采樣(undersampling) 過采樣(oversampling) 閾值移動(threshold-moving)
詳情 去除一些反例使得正、反例數目接近,然后進行學習 增加一些正例使得正、反例數目接近,然后再進行學習 直接基於原始訓練集進行學習,但在用訓練好的分類器進行預測時,將再縮放的公式嵌入到決策過程中
1. 時間開銷較小
2. 不能隨機丟棄反例,可能丟失重要信息。
3. 代表算法EasyEnsemble
1.不能簡單的對初始正例樣本進行重復采樣,否則會招致嚴重的過擬合。
2. 代表算法SMOTE
再縮放也是代價敏感學習的基礎。
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM