相關內容簡體繁體

【Spark機器學習速成寶典】基礎篇01Windows下spark開發環境搭建（Python版）

本文轉載自查看原文 2017-12-01 16:12 1032 0020.Spark機器學習/ 機器學習/ 大數據/ 環境搭建

目錄

　　安裝jdk

　　安裝eclipse

　　安裝PyDev插件

　　配置Spark

　　配置Hadoop

　　Python代碼

配置Spark

　　下載Spark

　　http://spark.apache.org/downloads.html

　　

　　配置環境變量

　　變量名：SPARK_HOME　　變量值：D:\spark （不能有空格）

　　

　　添加到Path

　　　

　　安裝pyspark包：

　　將spark/python中的pyspark和pyspark.egg-info拷貝到python的Anaconda2\Lib\site-packages目錄下

　　

配置Hadoop

　　無需安裝完整的Hadoop，但需要hadoop.dll，winutils.exe等。根據下載的Spark版本，下載相應版本的hadoop2.7.1。

　　鏈接：https://pan.baidu.com/s/1jHRu9oE 密碼：wdf9

　　

　　配置環境變量

　　

　　添加到Path

　　

　　重啟計算機！！！環境變量才生效！！！

Python代碼

# -*-coding=utf-8 -*-  
from operator import add
import random
from pyspark import SparkConf, SparkContext
sc = SparkContext('local')


NUM_SAMPLES = 100000

def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1

count = sc.parallelize(xrange(0, NUM_SAMPLES)) \
             .filter(inside).count()
print "Pi is roughly %f" % (4.0 * count / NUM_SAMPLES)

'''運行結果：
Pi is roughly 3.140160
'''

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【Spark機器學習速成寶典】基礎篇01Windows下spark開發環境搭建（Scala版）【Spark機器學習速成寶典】基礎篇02RDD常見的操作（Python版）【Spark機器學習速成寶典】模型篇01支持向量機【SVM】（Python版）【Spark機器學習速成寶典】模型篇05決策樹【Decision Tree】（Python版）【Spark機器學習速成寶典】模型篇06隨機森林【Random Forests】（Python版）【Spark機器學習速成寶典】模型篇03線性回歸【LR】（Python版）【Spark機器學習速成寶典】模型篇08保序回歸【Isotonic Regression】（Python版）【Spark機器學習速成寶典】模型篇04朴素貝葉斯【Naive Bayes】（Python版）【Spark機器學習速成寶典】模型篇07梯度提升樹【Gradient-Boosted Trees】（Python版）【機器學習之一】python開發spark環境搭建

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM