前言
以下內容是個人學習之后的感悟,轉載請注明出處~
簡介
回歸屬於有監督學習中的一種方法。該方法的核心思想是從連續型統計數據中得到數學模型,然后將該數學模型用於
預測或者分類。該方法處理的數據可以是多維的。
一、線性回歸
- 原理:
在連續型統計數據情況下,選取大量的樣本數據,如下圖中的紅色十字表示的(x,y)值,根據這些樣本的趨勢,
選擇合適的假設函數,此處選擇的是線性回歸的假設函數。根據樣本,計算代價函數的極小值,此時的θ值就是我們
需要得到的數學模型的參數值。
計算代價函數的極小值~ why? (沒學過統計概率學的童鞋可能不太清楚)
首先,我們要尋找的目標,是能夠盡量符合所有樣本的數學模型。當然,一般情況下,這是找不到的,那么,我
們就會考慮:就算不能找到完全符合的數學模型,我們也可以找盡可能符合的數學模型來代替。沒錯~,在線性規划
中,我們采用了最小二乘法,使樣本在數學模型中的誤差平方和最小,這也就產生了代價函數。我們只需要找到
代價函數的極小值,此時的θ代入到假設函數中,我們就得到了比較符合的數學模型。
- 假設函數(hθ(x)=θx):
- 代價函數:
有人會問:不是說代價函數J(θ0,θ1)是由最小二乘法中的誤差平方和推導而來嗎?前面的1/m,我們能
理解,是平均了一下,那么1/2是哪來的呢?
其實吧,剛開始我也不是特別明白,直到求解J(θ0,θ1)的極小值時,我才恍然大悟。原來,我們在使用
梯度下降法時,需要求導(懂了嗎?誤差的平方求導的時候會產生一個2)。當然,這只是我個人理解~
- 目標:
尋找J(θ0,θ1)的極小值點,獲得此時的θ值。
- 方法:
梯度下降法(具體詳情點鏈接)
兩種方法的比較如下:
二、多項式回歸
- 原理:
前面提到,根據樣本的趨勢來決定假設函數,當趨勢較為復雜時,線性模型就不適用了。下圖是房子的價格與尺
寸的關系圖,從圖中我們可以看出,符合樣本趨勢的數學模型應該是非線性的,在這里我們采用的是二次曲線。
但是,我們怎么去求該數學模型的代價函數極小值呢?太復雜了,oh~ no!
其實,我們可以簡化求解的復雜度,只需要把符合趨勢的假設函數轉換為等價的線性模型即可。具體轉換見下面。
- 假設函數:
- 轉換函數:
通過以下轉換:
得到:
- 方法:
既然得到了線性數學模型,接下來就是你的showtime了~~
以上是全部內容,如果有什么地方不對,請在下面留言,謝謝~