線性回歸模型

本文轉載自查看原文 2021-10-21 21:47 1070

# 主要用來解決影響某個事物變化的元素只有一種條件的情況
    y = a + bx + 誤差項
"""
y是因變量 a是截距項 b是斜率項 x是自變量 誤差項用於描述無法解釋的部分
"""
描點划線:盡可能多的讓點落在直線上 其他點到直線的距離的平方和一定要最小

案例准備

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df1 = pd.read_csv(r'Salary_Data.csv')
df1.head()

1.先通過散點圖查看線性關系

plt.scatter(x=df1['YearsExperience'],y=df1['Salary'])
plt.show()

2.再通過numpy查看得知是正向線性關系

np.corrcoef(df1['YearsExperience'],df1['Salary'])

3.創建模型代碼

import statsmodels.api as sm

# 利用收入數據集，構建回歸模型
fit = sm.formula.ols('Salary~YearsExperience',data=df1).fit()

# 返回模型的參數值
fit.params

4.測試模型的准確性

# 假設工作了2年，猜測薪資多少?

target_salary = 25792.20 + 9449.96 * 2
target_salary

多元線性回歸

# 主要用來解決影響某個事物變化的因素有多種條件的情況
    y = a + b1x2 + b2x2 + b3x3 + ... + 誤差項

案例准備

profit = pd.read_excel(r'Predict to Profit.xlsx')
profit.head()

導入模塊

from sklearn import model_selection

1.將數據划分為訓練集和測試集

train,test = model_selection.train_test_split(profit,test_size=0.2,random_state=1234)

訓練集與測試集

# 訓練集
用於模型的訓練創建

# 測試集
用於模型的測試檢驗


"""一般情況下訓練集占總數據的80%、測試集占總數的20%"""

2.創建訓練集模型代碼:

model = sm.formula.ols('Profit~RD_Spend+Administration+Marketing_Spend+C(State)',data=train).fit()

model.params

啞變量

數學模型的構建只能是數字類型的數據參與
非數字類型的數據如果要參與構建需要先轉換成數字類型(該過程稱之為構造啞變量)

啞變量構造完成后還需要確保多個啞變量之間不存在多種共線性

# 構造啞變量 >>> C(State)

查看由State變量衍生的啞變量

dummies = pd.get_dummies(profit.State)
dummies

3.刪除test數據集中的Profit變量，⽤剩下的⾃變量進⾏預測

test_x = test.drop(columns=['Profit'])
pred = model.predict(exog=test_x)

4.對⽐預測值和實際值的差異

pd.DataFrame({"預測值":pred,'真實值':test.Profit})

自定義啞變量

# 生成由State變量衍生的啞變量
dummies = pd.get_dummies(Profit.State)
# 將啞變量與原始數據集水平合並
Profit_New = pd.concat([Profit,dummies], axis = 1)
# 刪除State變量和California變量（因為State變量已被分解為啞變量，New York變量需要作為參照組）
Profit_New.drop(labels = ['State','New York'], axis = 1, inplace = True)
# 拆分數據集Profit_New
train, test = model_selection.train_test_split(Profit_New, test_size = 0.2, random_state=1234)
# 建模
model2 = sm.formula.ols('Profit~RD_Spend+Administration+Marketing_Spend+Florida+California', data = train).fit()
print('模型的偏回歸系數分別為：\n', model2.params)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 線性模型(1) —— 多元線性回歸多元線性回歸模型廣義線性回歸模型（三）多元線性回歸模型線性回歸模型用Pytorch訓練線性回歸模型【線性回歸】線性回歸模型中幾個參數的解釋 Python- 簡單的線性回歸模型一元線性回歸模型的原理及實現機器學習--線性回歸模型原理

線性回歸模型

目錄

常用數學符號

因變量

自變量

線性回歸模型

如何判斷兩個變量之間是否存在線性關系與非線性關系

1.散點圖

2.公式計算

公式代碼:

3.numpy中的corrcoef方法

代碼:

4.pandas中的corr方法:

一元線性回歸模型的應用

導入模塊

重要參數

一元線性回歸模型

案例准備

1.先通過散點圖查看線性關系

2.再通過numpy查看得知是正向線性關系

3.創建模型代碼

4.測試模型的准確性

多元線性回歸

案例准備

導入模塊

1.將數據划分為訓練集和測試集

訓練集與測試集

2.創建訓練集模型代碼:

啞變量

查看由State變量衍生的啞變量

3.刪除test數據集中的Profit變量，⽤剩下的⾃變量進⾏預測

4.對⽐預測值和實際值的差異

自定義啞變量

免責聲明！