基本形式:
d個屬性描述的示例x=(x1;x2;...;xd),xi是x在第i個屬性上的取值。線性模型試圖學一個通過屬性的線性組合進行預測的函數:
f(x)=w1x1+w2x2+...+wdxd+b,
向量形式為
f(x)=wTx+b
w=(w1;w2;...;wd),w和b學得之后,模型可以確定。
非線性模型可以在線性模型基礎上引入層級結構或高緯映射而得,此外w可以直觀表達各屬性在預測中農的重要性,有很好的解釋性。
回歸任務:
線性回歸, 屬性值間存在“序”的關系,則可以通過連續化將其轉化為連續值,無“序”則可轉化為向量。線性回歸試圖學得:
關鍵在於衡量f(x)與y之間的差別.其中,均方誤差是回歸任務中最常用的性能度量,可以試圖讓均方誤差最小化:
幾何意義:對應於常用的歐幾里得距離“歐氏距離”,基於均方誤差最小化來進行模型求解的方法稱為“最小二乘法”,就是試圖找到一條直線,使所有樣本到直線上的歐式距離之和最小。
這個最小化的過程,稱為線性回歸模型的最小二乘"參數估計".
分別對w和b分別求導。
當都為0時,得到w和b最優解的閉式解
更一般的情形是如本節開頭的數據集D,樣本由d個屬性描述,試圖學得
此為“多元線性回歸”
將標記寫成向量形式y=(y1;y2;...;ym)有
令 對 w求導得
做一個簡單的討論當XTX為滿秩矩陣或正定矩陣時,令求得的導為0得到多元最優解模型:
可以變換為ln y = wtx+b 此為“對數線性回歸” 此為廣義線性模型在g()=ln()時的特例
或者考慮到單調可微函數g(')
y=g-1(wtx+b)(廣義線性模型)
3.3 對數幾率回歸
找一個單調可微函數將分類任務的真實標記y與線性回歸模型的預測值聯系起來,二分類問題:輸出標記y為{0,1},線性回歸模型產生的預測值z=wtx+b是實值
“單位階躍函數”:
對數幾率函數(logistic function):
y/1-y 稱為“幾率”,反映了x作為正例的相對可能性。對幾率取對數則得到“對數幾率”ln(y/1-y)
實際就是用線性回歸模型的預測結果逼近真實標記的對數幾率,因此,其對應的模型稱為“對數幾率回歸”
接下來 確定式中的w和b,若將y視為后驗概率估計p(y=1|x)則可重寫為
lnp(y=1|x)/p(y=0|x) = wtx+b
顯然 p(y=1|x) = ewtx+b/1+ewtx+b , p(y=0|x) = 1/1+ewtx+b
所以此處通過“極大似然法”(最大似然估計:現在已經拿到了很多個樣本(你的數據集中所有因變量),這些樣本值已經實現,最大似然估計就是去找到那個(組)參數估計值,使得前面已經實現的樣本值發生概率最大。)
-->
-->
-->更新公式
-->一階、二階導數
線性判別分析:大概什么原理,解決什么問題
線性判別分析:設法將樣例投影到一條直線上,同類樣例投影盡可能接近,異類樣例盡可能遠離。對新樣本分類時,將其投影到同樣的直線上,根據投影點的位置確定新樣本的類別。本質是根據兩者數據集的類間散度矩陣(均值向量相減相乘)、和兩者協方差矩陣求類內散度矩陣進行相加。而多分類任務定義了“全局散度矩陣”為兩類矩陣之和。類內散度矩陣重定義為每個類別的散度矩陣之和,則Sb為全局減去類內散度矩陣。
LDA可以用於多分類、也被視為一種經典的降維技術
多分類任務:
對問題進行拆分,為拆出的每個二分類任務訓練一個分類器;在測試時,對分類器的預測結果進行集成以獲得最終的多分類結果。
經典拆分有三種,1對1,1對多,多對多
類別不平衡的問題:
分類任務中不同類別的訓練樣例數目差別很大。分類器決策規則為:若y/1-y > 1 。預測為正例。 實際情況為 y/1-y > m+/m- 則預測為正例。
解決的三種辦法:再縮放:欠采樣、過采樣、閾值移動