機器學習-線性回歸(基於R語言)


基本概念

利用線性的方法,模擬因變量與一個或多個自變量之間的關系。自變量是模型輸入值,因變量是模型基於自變量的輸出值。

因變量是自變量線性疊加和的結果。

 

線性回歸模型背后的邏輯——最小二乘法計算線性系數

最小二乘法怎么理解?

它的主要思想就是求解未知參數,使得理論值與觀測值之差(即誤差,或者說殘差)的平方和達到最小。在這里模型就是理論值,點為觀測值。使得擬合對象無限接近目標對象。

一元線性回歸與多元線性回歸

自變量只有一個的時候叫一元線性回歸,自變量有多個時候叫多元線性回歸。

 

R語言實現

bike.data <- read.csv("Shared Bike Sample Data - ML.csv")

lm(formula = 分數 ~ 城區 + 年齡 + 組別, data = bike.data)

 summary(lm_fit)

上面變量中城區 缺少 朝陽區,組別 缺少對照組。原因是由所有分類變量組成的啞變量中,有一個作為參考系不出現在線性回歸結果中。

 

補充材料——啞變量

啞變量,取值為0或者1的變量,它將分類變量轉換為數值變量,進而可以輸入到線性回歸模型中。在輸入模型前將一個分類變量轉換為多個啞變量。

在實際操作中遇到分類變量怎么辦?

舉例:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM