【Spark機器學習速成寶典】基礎篇01Windows下spark開發環境搭建(Python版)


目錄

  安裝jdk

  安裝eclipse

  安裝PyDev插件

  配置Spark

  配置Hadoop

  Python代碼


 

配置Spark

  下載Spark

  http://spark.apache.org/downloads.html

  

 

  配置環境變量

  變量名:SPARK_HOME  變量值:D:\spark    (不能有空格)

  

  添加到Path

 

   

  安裝pyspark包:

  將spark/python中的pyspark和pyspark.egg-info拷貝到python的Anaconda2\Lib\site-packages目錄下

  

配置Hadoop

  無需安裝完整的Hadoop,但需要hadoop.dll,winutils.exe等。根據下載的Spark版本,下載相應版本的hadoop2.7.1。 

  鏈接:https://pan.baidu.com/s/1jHRu9oE 密碼:wdf9

  

  配置環境變量

  

 

 

  添加到Path

  

  重啟計算機!!!環境變量才生效!!!

Python代碼

 

# -*-coding=utf-8 -*-  
from operator import add
import random
from pyspark import SparkConf, SparkContext
sc = SparkContext('local')


NUM_SAMPLES = 100000

def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1

count = sc.parallelize(xrange(0, NUM_SAMPLES)) \
             .filter(inside).count()
print "Pi is roughly %f" % (4.0 * count / NUM_SAMPLES)

'''運行結果:
Pi is roughly 3.140160
'''

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM