超級簡單的多元線性回歸應用

本文轉載自查看原文 2019-09-30 17:17 921 數據分析

首先表達一下自己對多元線性回歸的理解：

方程：

y為正確的結果。p0為常數項，e為誤差，p1,p2,p3等是我們要通過sklearn訓練數據集得出來的回歸系數，x1,x2,x3等是我們訓練集里的特征向量。

這次我用到的數據集是kaggle的入學幾率預測數據集：

去kaggle搜索admission就是了

https://www.kaggle.com/datasets

長這個樣子：

其中Chance of Admit 是最終要自己預測的label

思路非常之簡單，上代碼~


一：數據探索

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


csv_data = pd.read_csv('./data/Admission_Predict.csv')
#  讀取csv文件內容
print(csv_data.info())
#  了解數據表的基本情況：行數、列數、每列的數據類型、數據完整度。可以看到每列都有500行，可以說是沒有缺失值的。
print(csv_data.describe())
#  了解總數、平均值、標准差等一些統計數據
print(csv_data.head())
#  了解數據的模樣~
csv_data.drop('Serial No.',axis=1,inplace=True)
#  去掉沒什么用的ID一列

#數據歸一化，簡單地除以它們的最大值...
csv_data['GRE Score'] = csv_data['GRE Score']/340
csv_data['TOEFL Score'] = csv_data['TOEFL Score']/120
csv_data['University Rating'] = csv_data['University Rating']/5
csv_data['SOP'] = csv_data['SOP']/5
csv_data['LOR '] = csv_data['LOR ']/5
csv_data['CGPA'] = csv_data['CGPA']/10

#數據探索

運行結果：

二：簡單進行可視化

import seaborn as sns


print(csv_data.columns)
sns.regplot('GRE Score','Chance of Admit ',data=csv_data)

查看所有特征的聯系：

sns.pairplot(csv_data,diag_kind='kde',plot_kws={'alpha':0.2})

從圖可以看到，的確有那么一點回歸的樣子~

三：模型構建

from sklearn import linear_model


features = ['GRE Score', 'TOEFL Score', 'University Rating', 'SOP', 'LOR ', 'CGPA', 'Research',]
# 特征選擇
X = csv_data[features].iloc[:420,:-1]
Y = csv_data.iloc[:420,-1]
#選擇訓練集
X_test = csv_data[features].iloc[420:,:-1]
Y_test = csv_data.iloc[420:,-1]
#選擇測試集

regr = linear_model.LinearRegression()
#構造線性回歸模型
regr.fit(X,Y)
#模型訓練
print(regr.predict(X_test))  # 預測
print(list(Y_test))  #答案
print(regr.score(X_test,Y_test))  #准確度

結果：

嘿，達到88%的准確度了呢,有用，開心/

The End~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 多元線性回歸（Multivariate Linear Regression）簡單應用【R】多元線性回歸 R語言——多元線性回歸多元線性回歸變量篩選簡單線性回歸、多元線性回歸、交互項、預測變量的非線性變換、定性預測變量多元線性回歸模型的特征壓縮：嶺回歸和Lasso回歸數學 - 回歸分析 - 第 3 章多元線性回歸 - 3.6 多元線性回歸的區間估計 Python 實現多元線性回歸預測 MATLAB實現多元線性回歸預測多元線性回歸算法python實現（非常經典）