機器學習疑難---1、什么是多元線性回歸
一、總結
一句話總結:
多元線性回歸就是 用多個x(變量或屬性)與結果y的關系式來描述一些散列點之間的共同特性。
也可以逐詞來理解:多元就是有多個變量或屬性,線性就是一條線,回歸就是輸入變量與輸出變量均為連續變量的預測問題
二、什么是多元線性回歸
博客對應課程的視頻位置:
1、分類和回歸任務的區別
我們可以按照任務的種類,將任務分為回歸任務和分類任務。那這兩者的區別是什么呢?按照較官方些的說法,輸入變量與輸出變量均為連續變量的預測問題是回歸問題,輸出變量為有限個離散變量的預測問題成為分類問題。
通俗一點講,我們要預測的結果是一個數,比如要通過一個人的飲食預測一個人的體重,體重的值可以有無限多個,有的人50kg,有的人51kg,在50和51之間也有無限多個數。這種預測結果是某一個確定數,而具體是哪個數有無限多種可能的問題,我們會訓練出一個模型,傳入參數后得到這個確定的數,這類問題我們稱為回歸問題。預測的這個變量(體重)因為有無限多種可能,在數軸上是連續的,所以我們稱這種變量為連續變量。
我們要預測一個人身體健康或者不健康,預測會得癌症或者不會得癌症,預測他是水瓶座,天蠍座還是射手座,這種結果只有幾個值或者多個值的問題,我們可以把每個值都當做一類,預測對象到底屬於哪一類。這樣的問題稱為分類問題。如果一個分類問題的結果只有兩個,比如"是"和"不是"兩個結果,我們把結果為"是"的樣例數據稱為"正例",將結果為"不是"的樣例數據稱為"負例",對應的,這種結果的變量稱為離散型變量。
2、什么是多元線性回歸
我們知道y=ax+b是一元一次方程,_$y=ax_1+bx_2+c_$是二元一次方程。其中,"次"指的是未知數的最大冪數,"元"指的是表達式中未知數的個數(這里就是x的個數)。那么"多元"的意思可想而知,就是表達式中x(或者叫自變量,也叫屬性)有很多個。
當b=0時,我們說y=ax,y和x的大小始終符合y/x=a,圖像上任意一點的坐標,y值都是x值的a倍。我們把這種橫縱坐標始終呈固定倍數的關系叫做"線性"。線性函數的圖像是一條直線。所以我們知道了多元線性回歸函數的圖像一定也是一條直線。
現在我們知道了多元線性回歸的多元和線性,而回歸的概念我們在我們在上面中有講述,所以多元線性回歸就是:用多個x(變量或屬性)與結果y的關系式來描述一些散列點之間的共同特性。
這些x和一個y關系的圖像並不完全滿足任意兩點之間的關系(兩點一線),但這條直線是綜合所有的點,最適合描述他們共同特性的,因為他到所有點的距離之和最小也就是總體誤差最小。
所以多元線性回歸的表達式可以寫成:
$$ y= w_0x_0 + w_1x_1 + w_2x_2 + ... + w_nx_n$$
我們知道y=ax+b這個線性函數中,b表示截距。我們又不能確定多元線性回歸函數中預測出的回歸函數圖像經過原點,所以在多元線性回歸函數中,需要保留一項常數為截距。所以我們規定 _$ y= w_0x_0 + w_1x_1 + w_2x_2 + ... + w_nx_n _$中,x0=1,這樣多元線性回歸函數就變成了: _$ y= w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n _$,w0項為截距。
如果沒有w0項,我們 _$ y= w_0x_0 + w_1x_1 + w_2x_2 + ... + w_nx_n _$ 就是一個由n+1個自變量所構成的圖像經過原點的直線函數。那么就會導致我們一直在用一條經過原點的直線來概括描述一些散列點的分布規律。這樣顯然增大了局限性,造成的結果就是預測出的結果函數准確率大幅度下降。
有的朋友還會糾結為什么是x0=1而不是x2,其實不管是哪個自變量等於1,我們的目的是讓函數 _$ y= w_0x_0 + w_1x_1 + w_2x_2 + ... + w_nx_n _$ 編程一個包含常數項的線性函數。選取任何一個x都可以。選x0是因為他位置剛好且容易理解。
參考:https://blog.csdn.net/weixin_39445556/article/details/81416133