一、什么是回歸(Regression)
一說回歸最先想到的是終結者那句:I'll be back
regress,re表示back,gress等於go,數值go back to mean value
,也就是I'll be back
的意思
在數理統計中,回歸是確定多種變量相互依賴的定量關系的方法
通俗理解:越來越接近期望值的過程,回歸於事物的本質
二、什么是線性回歸(Linear Regression)
線性回歸假設輸出變量是若干輸出變量的線性組合,並根據這一關系求解線性組合中的最優系數。
通俗理解:輸出一個線性函數,例如\(y=f(x)\)
假定一個實例可以用列向量\(x=(x_1;x_2;⋯,x_n)\)表示,每個\(x_i\)代表實例在第i個屬性上的取值,線性回歸就是都求出一組參數\(wi,i=0,1,⋯,n\),使預測輸出可以表示為以這組參數為權重的實例屬性的線性組合。
例如引入常量\(x_i=1\),線性回歸試圖學習的模型就是\(f(x)=w^Tx=\sum_{i=0}^nw_ix_i\)
- 當實例只有一個屬性時,輸入輸出之間關系就是二維平面的一條直線
- 當實例屬性數目較多時,得到的是n+1維空間的一個超平面,對應一個維度等於於n的線性子空間
三、什么是單變量線性回歸(Unary Linear Regression)
也叫一元線性回歸,一元線性回歸是分析只有一個自變量。
從一個輸入值預測一個輸出值,輸入/輸出的對應關系就是一個線性函數。
例如,肌肉塊頭和訓練重量的關系可以簡單看成一組線性的關系
四、什么是多元線性回歸(Multiple Linear Regression)
在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。
當樣本的描述涉及多個屬性時,這類問題就被稱為多元線性回歸。
例如,肌肉是睡眠、飲食、訓練多種因素共同作用的結果。
五、什么是邏輯回歸(Logistic Regression)
線性回歸能對連續值進行預測,而現實中學常見的另一類問題是分類,邏輯回歸解決的就是分類問題
邏輯回歸輸出的實例屬於每個類別的似然概率,似然概率最大的類別就是分類結果。
通俗理解:邏輯就是True或False,判斷出是True還是False,相當於分類了
在二分類任務中,邏輯回歸可以視為在平面直角坐標系上划定一條數據分類的判定邊界。
六、什么是多項式回歸(Polynomial Regression)
研究一個因變量與一個或多個自變量間多項式的回歸分析方法,稱為多項式回歸。
最終輸出的是一個多項式回歸方程,例如\(y=ax+bx^2+c\)
七、常見概念
歐幾里得距離
指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到到原點的距離)
度量歐幾里得空間中兩點的距離。
均方誤差
預測輸出和真實輸出之間的歐幾里得距離
最小二乘法
使均方誤差最小為目標的模型求解方法。
在單變量線性回歸任務中,最小二乘法就是找到一條直線,使得樣本到直線的歐幾里得距離之和最小。
與梯度下降法的區別
最小二乘定義了最優化的目標函數,梯度下降要找到最優化問題的最優解,兩者大致是目的和手段的關系。最小二乘是有解析解的,如果解析解難以求解,就可以用梯度下降這些數值方法
偏導數
固定面上一點的切線斜率。
導數和偏導數沒有本質區別。
一元函數中,一個y對應一個x,導數只有一個。
一個z對應一個x和一個y,那就有兩個導數了,一個是z對x的導數,一個是z對y的導數,稱之為偏導。