分析目的
分析空氣中主要污染物濃度與空氣指數之間的關系
分析數據
天氣污染物濃度的數據集,該數據集源自天氣后報網站上爬取的數據,為北京2013年10月28日到2016年1月31日的空氣污染物濃度的數據。包括空氣質量等級、AQI指數和當天排名。
import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline import statsmodels.api as sm
線性回歸
1.數據預處理
data = pd.read_csv("beijing.csv",index_col = 0) data.head()
X = data.iloc[:,2:8] X = sm.add_constant(X) y = data.iloc[:,0] print(X.head())
2.建立模型
model1 = sm.OLS(y,X) #建立模型 result = model1.fit() #訓練模型 print(result.summary())
result.f_pvalue #檢驗線性回歸關系顯著性
result.params #回歸系數
改進模型
由於So2與Co的p值大於0.05,所以排除這兩個變量,重新建立模型
data = pd.read_csv("beijing.csv",index_col = 0) data.head()
X = data.iloc[:,[2,3,5,7]] X = sm.add_constant(X) y = data.iloc[:,0] print(X.head())
model2 = sm.OLS(y,X) #建立模型 result = model2.fit() #訓練模型 print(result.summary())