基本概念
利用線性的方法,模擬因變量與一個或多個自變量之間的關系。自變量是模型輸入值,因變量是模型基於自變量的輸出值。

因變量是自變量線性疊加和的結果。
線性回歸模型背后的邏輯——最小二乘法計算線性系數
最小二乘法怎么理解?
它的主要思想就是求解未知參數,使得理論值與觀測值之差(即誤差,或者說殘差)的平方和達到最小。在這里模型就是理論值,點為觀測值。使得擬合對象無限接近目標對象。

一元線性回歸與多元線性回歸
自變量只有一個的時候叫一元線性回歸,自變量有多個時候叫多元線性回歸。
R語言實現
bike.data <- read.csv("Shared Bike Sample Data - ML.csv")
lm(formula = 分數 ~ 城區 + 年齡 + 組別, data = bike.data)
summary(lm_fit)


上面變量中城區 缺少 朝陽區,組別 缺少對照組。原因是由所有分類變量組成的啞變量中,有一個作為參考系不出現在線性回歸結果中。
補充材料——啞變量
啞變量,取值為0或者1的變量,它將分類變量轉換為數值變量,進而可以輸入到線性回歸模型中。在輸入模型前將一個分類變量轉換為多個啞變量。
在實際操作中遇到分類變量怎么辦?
舉例:


