數學建模：1.概述& 監督學習--回歸分析模型

本文轉載自查看原文 2018-09-19 22:28 1946 監督學習/ python-數據分析/ python數據分析

數學建模概述

監督學習-回歸分析（線性回歸）

監督學習-分類分析（KNN最鄰近分類）

非監督學習-聚類（PCA主成分分析& K-means聚類）

隨機算法-蒙特卡洛算法

1.回歸分析

在統計學中，回歸分析（regression analysis）指的是確定兩種或兩種以上變量間互相依賴的定量關系的一種統計分析方法。

按照自變量和因變量之間的關系類型，可分為線性回歸分析和非線性回歸分析。

2.線性回歸的python實現

線性回歸的python實現方法

線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中，因變量是連續的，自變量可以是連續的也可以是離散的，回歸線的性質是線性的。
線性回歸使用最佳的擬合直線（也就是回歸線）在因變量（Y）和一個或多個自變量（X）之間建立一種關系。

簡單線性回歸 / 多元線性回歸

2.1 簡單線性回歸（一元線性回歸）

（1）示例

創建線性回歸模型：

model = LinearRegression() 
model.fit(xtrain[:, np.newaxis], ytrain)
model.coef_斜率的參數  、 model.intercept_ 截距的參數

擬合測試：

xtest = np.linspace(0, 10, 1000) #測試值、根據擬合曲線求出 ytest = model.predict(xtest[:, np.newaxis])

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline

# 簡單線性回歸（一元線性回歸）
# （1）數據示例

from sklearn.linear_model import LinearRegression
# 導入線性回歸模塊

rng = np.random.RandomState(1)  #選擇隨機數里邊的種子1
xtrain = 10 * rng.rand(30)
ytrain = 8 + 4 * xtrain + rng.rand(30)
# np.random.RandomState → 隨機數種子，對於一個隨機數發生器，只要該種子（seed）相同，產生的隨機數序列就是相同的
# 生成隨機數據x與y
# 樣本關系：y = 8 + 4*x

fig = plt.figure(figsize =(12,3))
ax1 = fig.add_subplot(1,2,1)
plt.scatter(xtrain,ytrain,marker = '.',color = 'k')
plt.grid()
plt.title('樣本數據散點圖')
# 生成散點圖

model = LinearRegression() #創建線性回歸模型
model.fit(xtrain[:, np.newaxis], ytrain) #填上值自變量和因變量，如果是多元線性回歸自變量給它個矩陣就可以了，model.fit(xtrain, ytrain)這樣子是不行的，要把它轉置為列的值，
# xtrain.shape #(30,)  # xtrain[:, np.newaxis] #預測結果就會放到這個model里邊
# LinearRegression → 線性回歸評估器，用於擬合數據得到擬合直線
# model.fit(x,y) → 擬合直線，參數分別為x與y
# x[:,np.newaxis] → 將數組變成(n,1)形狀 把xtrain數組變成列排布（30,1）

#print(model.coef_)  #[ 4.00448414]斜率的參數
#print(model.intercept_) #8.44765949943截距的參數

xtest = np.linspace(0, 10, 1000) #測試值
ytest = model.predict(xtest[:, np.newaxis])
# 創建測試數據xtest，並根據擬合曲線求出ytest
# model.predict → 預測

ax2 = fig.add_subplot(1, 2, 2)
plt.scatter(xtrain, ytrain, marker = '.', color = 'k')
plt.plot(xtest, ytest, color = 'r')
plt.grid()
plt.title('線性回歸擬合')
# 繪制散點圖、線性回歸擬合直線

（2）誤差

# 簡單線性回歸（一元線性回歸）
# （2）誤差

rng = np.random.RandomState(8)
xtrain = 10 * rng.rand(15)
ytrain = 8 + 4 * xtrain + rng.rand(15) * 30 model.fit(xtrain[:,np.newaxis],ytrain)
xtest = np.linspace(0,10,1000)
ytest = model.predict(xtest[:,np.newaxis]) # 創建樣本數據並進行擬合

plt.plot(xtest,ytest,color = 'r',linestyle = '--')  # 擬合直線
plt.scatter(xtrain,ytrain,marker = '.',color = 'k')  # 樣本數據散點圖
ytest2 = model.predict(xtrain[:,np.newaxis])  # 樣本數據x在擬合直線上的y值
plt.scatter(xtrain,ytest2,marker = 'x',color = 'g')   # ytest2散點圖
plt.plot([xtrain,xtrain],[ytrain,ytest2],color = 'gray')  # 誤差線
plt.grid()
plt.title('誤差')
# 繪制圖表

（3）求解a，b

# 簡單線性回歸（一元線性回歸）
# （3）求解a，b

rng = np.random.RandomState(1)  
xtrain = 10 * rng.rand(30)
ytrain = 8 + 4 * xtrain + rng.rand(30)
# 創建數據

model = LinearRegression()
model.fit(xtrain[:,np.newaxis],ytrain)
# 回歸擬合

print('斜率a為：%.4f' % model.coef_[0])
print('截距b為：%.4f' % model.intercept_)
print('線性回歸函數為：\ny = %.4fx + %.4f' % (model.coef_[0],model.intercept_))
# 參數輸出

2.2 多元線性回歸

model = LinearRegression()
model.fit(df[['b1', 'b2', 'b3', 'b4']], df['y'])

# 多元線性回歸

rng = np.random.RandomState(5)  
xtrain = 10 * rng.rand(150,4)
ytrain = 20 + np.dot(xtrain ,[1.5,2,-4,3])
df = pd.DataFrame(xtrain, columns = ['b1','b2','b3','b4'])
df['y'] = ytrain
pd.scatter_matrix(df[['b1','b2','b3','b4']],figsize=(10,6),
                 diagonal='kde',
                 alpha = 0.5,
                 range_padding=0.1)
print(df.head())
# 創建數據，其中包括4個自變量
# 4個變量相互獨立

model = LinearRegression()
model.fit(df[['b1', 'b2', 'b3', 'b4']], df['y'])
print('斜率a為:', model.coef_)
print('線性回歸函數為：\ny = %.1fx1 + %.1fx2 + %.1fx3 + %.1fx4 + %.1f' 
      % (model.coef_[0],model.coef_[1],model.coef_[2],model.coef_[3],model.intercept_))
# 參數輸出

3. 線性回歸模型評估

線性回歸模型評估

通過幾個參數驗證回歸模型

SSE(和方差、誤差平方和)：The sum of squares due to error
MSE(均方差、方差)：Mean squared error
RMSE(均方根、標准差)：Root mean squared error
R-square(確定系數) Coefficient of determination

# 模型評價
# MSE, RMES, R-square

from sklearn import metrics

rng = np.random.RandomState(1)  
xtrain = 10 * rng.rand(30)
ytrain = 8 + 4 * xtrain + rng.rand(30) * 3
# 創建數據

model = LinearRegression()
model.fit(xtrain[:,np.newaxis],ytrain)
# 多元回歸擬合

ytest = model.predict(xtrain[:,np.newaxis])  # 求出預測數據
mse = metrics.mean_squared_error(ytrain,ytest)  # 求出均方差MSE
rmse = np.sqrt(mse)  # 求出均方根RMSE
print(mse)
print(rmse)

# ssr = ((ytest - ytrain.mean())**2).sum()  # 求出預測數據與原始數據均值之差的平方和
# sst = ((ytrain - ytrain.mean())**2).sum()  # 求出原始數據和均值之差的平方和
# r2 = ssr / sst # 求出確定系數 #0.99464521596949995
r2 = model.score(xtrain[:,np.newaxis],ytrain)  # 求出確定系數 #0.99464521596949995
r2

print("均方差MSE為: %.5f" % mse)
print("均方根RMSE為: %.5f" % rmse)
print("確定系數R-square為: %.5f" % r2)
# 確定系數R-square非常接近於1，線性回歸模型擬合較好

總結：

能比較的有兩個 R_square '確定系數' 、 MSE，

做兩個回歸模型可以分別判斷哪個MSE更小就好，R哪個接近於1哪個就更好。如果只有一個回歸模型，判斷是否接近1，只要是大於0.6、0.8就非常不錯了。同時在后邊做組成成分，假如現在有10個參數，做一個回歸模型，做一個R模型評估，比如說為0.85，把這10個參數降維，降維為3個主成分，再做一個3元的線性回歸，這個叫回歸模型2，為0.92，這個時候我們就選擇那個3元的線性回歸模型0.92更好，相互比較做出最優比較。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數學建模：2.監督學習--分類分析- KNN最鄰近分類算法監督學習概述數學模型：3.非監督學習--聚類分析和K-means聚類半監督學習（三）——混合模型半監督學習（基於生成模型）半監督學習自監督學習監督學習半監督學習監督學習