【Spark機器學習速成寶典】模型篇03線性回歸【LR】（Python版）

本文轉載自查看原文 2017-12-11 15:43 1005 0020.Spark機器學習/ 機器學習/ 大數據

# -*-coding=utf-8 -*-  
from pyspark import SparkConf, SparkContext
sc = SparkContext('local')

from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD, LinearRegressionModel

# Load and parse the data 加載和解析數據，將每一個數轉化為浮點數。每一行第一個數作為標記，后面的作為特征
def parsePoint(line):
    values = [float(x) for x in line.replace(',', ' ').split(' ')]
    return LabeledPoint(values[0], values[1:])

data = sc.textFile("data/mllib/ridge-data/lpsa.data")
print data.collect()[0] #-0.4307829,-1.63735562648104 -2.00621178480549 -1.86242597251066 -1.024....-0.864466507337306
parsedData = data.map(parsePoint)
print parsedData.collect()[0] #(-0.4307829,[-1.63735562648,-2.00621178481,-1.86242597251,-1.024....,-0.864466507337])

# Build the model 建立模型
model = LinearRegressionWithSGD.train(parsedData, iterations=1000, step=0.1)

# Evaluate the model on training data 評估模型在訓練集上的誤差
valuesAndPreds = parsedData.map(lambda p: (p.label, model.predict(p.features)))
MSE = valuesAndPreds \
    .map(lambda vp: (vp[0] - vp[1])**2) \
    .reduce(lambda x, y: x + y) / valuesAndPreds.count()
print("Mean Squared Error = " + str(MSE)) #Mean Squared Error = 6.32693963099

# Save and load model 保存模型和加載模型
model.save(sc, "pythonLinearRegressionWithSGDModel")
sameModel = LinearRegressionModel.load(sc, "pythonLinearRegressionWithSGDModel")
print sameModel.predict(parsedData.collect()[0].features) #-1.86583391312

返回目錄

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【Spark機器學習速成寶典】模型篇08保序回歸【Isotonic Regression】（Python版）【Spark機器學習速成寶典】模型篇04朴素貝葉斯【Naive Bayes】（Python版）【Spark機器學習速成寶典】模型篇07梯度提升樹【Gradient-Boosted Trees】（Python版）【機器學習速成寶典】模型篇04k近鄰法【kNN】（Python版） Spark機器學習5·回歸模型(pyspark) 《機器學習Python實現_01_線性模型_線性回歸》機器學習之linear_model (線性回歸算法模型) 機器學習之線性回歸吳裕雄 python 機器學習——支持向量機線性回歸SVR模型《機器學習Python實現_01_線性模型_線性回歸_正則化(Lasso,Ridge,ElasticNet)》

【Spark機器學習速成寶典】模型篇03線性回歸【LR】（Python版）

目錄

線性回歸原理

線性回歸代碼(Spark Python)

免責聲明！