一、定義與公式
線性回歸(Linear regression)是一種線性模型,利用回歸方程(函數)對一個或多個自變量(特征值)和因變量(目標值)之間關系進行建模的一種分析方式。
- 具體來說,利用線性回歸模型,可以從一組輸入變量x的線性組合中,計算輸出變量y。
- 只有一個自變量的情況稱為單變量回歸,大於一個自變量情況的叫做多元回歸
那么怎么理解呢?我們來看幾個例子
- 期末成績:0.7×考試成績+0.3×平時成績
- 房子價格 = 0.02×中心區域的距離 + 0.04×城市一氧化氮濃度 + (-0.12×自住房平均房價) + 0.254×城鎮犯罪率
上面兩個例子,我們看到特征值與目標值之間建立的一個關系,這個可以理解為回歸方程。
多元線性回歸
如果有兩個或兩個以上的自變量,這樣的線性回歸分析就成為多元線性回歸。
實際問題中,一個現象往往是受到多個因素影響的,所以多元線性回歸比一元線性回歸的實際應用更廣。
二、最小二乘法
線性回歸模型的關鍵就是確定w和b。w和b學得之后,模型也就確定了。
那么該如何確定w和b?
假設輸入特征只有一個。
使f(x)與y之間的均方誤差最小
試圖找到一條直線,使得所有樣本到直線上的歐式距離之和最小,這就是最小二乘法。
基於均方誤差最小化來進行模型求解的方法稱為“最小二乘法”(least square method)。
它的主要思想就是選擇未知參數,使得理論值與觀測值只差的平方和達到最小。
2.1 公式推導
使得
最小化的過程,稱為線性回歸模型的“最小二乘參數估計”,分別對w和b求偏導。
推導過程參見南瓜書:https://datawhalechina.github.io/pumpkin-book/#/chapter3/chapter3