機器學習(八) 多項式回歸與模型泛化(上)


一、什么是多項式回歸

直線回歸研究的是一個依變量與一個自變量之間的回歸問題,但是,在畜禽、水產科學領域的許多實際問題中,影響依變量的自變量往往不止一個,而是多個,比如綿羊的產毛量這一變量同時受到綿羊體重、胸圍、體長等多個變量的影響,因此需要進行一個依變量與多個自變量間的回歸分析,即多元回歸分析。
研究一個因變量與一個或多個自變量間多項式的回歸分析方法,稱為多項式回歸(Polynomial Regression)。如果自變量只有一個時,稱為一元多項式回歸;如果自變量有多個時,稱為多元多項式回歸。在一元回歸分析中,如果依變量y與自變量x的關系為非線性的,但是又找不到適當的函數曲線來擬合,則可以采用一元多項式回歸。
一元m次多項式回歸方程為:
   
二元二次多項式回歸方程為:
   
多項式回歸的最大優點就是可以通過增加x的高次項對實測點進行逼近,直至滿意為止。事實上,多項式回歸可以處理相當一類非線性問題,它在回歸分析中占有重要的地位,因為任一函數都可以分段用多項式來逼近。因此,在通常的實際問題中,不論依變量與其他自變量的關系如何,我們總可以用多項式回歸來進行分析。
多項式回歸問題可以通過變量轉換化為多元線性回歸問題來解決。
對於一元m次多項式回歸方程,令
   
,則該一元m次多項式就轉化為m元線性回歸方程
   
。因此用多元線性函數的回歸方法就可解決多項式回歸問題。需要指出的是,在多項式回歸分析中,檢驗回歸系數
   
是否顯著,實質上就是判斷自變量x的i次方項
   
對依變量y的影響是否顯著。
對於二元二次多項式回歸方程,令
   
,則該二元二次多項式函數就轉化為五元線性回歸方程
   
。但隨着自變量個數的增加,多元多項式回歸分析的計算量急劇增加。多元多項式回歸屬於多元非線性回歸問題。  [2] 
模型如以下形式的稱為一元多項式回歸模型:

 

 

二、scikit-learn中的多項式回歸與Pipeline

三、過擬合與欠擬合

四、為什么要有訓練數據集與測試數據集

 

 

 

 

五、學習曲線

 

 

 

 

 我寫的文章只是我自己對bobo老師講課內容的理解和整理,也只是我自己的弊見。bobo老師的課 是慕課網出品的。歡迎大家一起學習。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM