目錄
安裝jdk
安裝eclipse
安裝PyDev插件
配置Spark
配置Hadoop
Python代碼
配置Spark |
下載Spark
http://spark.apache.org/downloads.html
配置環境變量
變量名:SPARK_HOME 變量值:D:\spark (不能有空格)
添加到Path
安裝pyspark包:
將spark/python中的pyspark和pyspark.egg-info拷貝到python的Anaconda2\Lib\site-packages目錄下
配置Hadoop |
無需安裝完整的Hadoop,但需要hadoop.dll,winutils.exe等。根據下載的Spark版本,下載相應版本的hadoop2.7.1。
鏈接:https://pan.baidu.com/s/1jHRu9oE 密碼:wdf9
配置環境變量
添加到Path
重啟計算機!!!環境變量才生效!!!
Python代碼 |
# -*-coding=utf-8 -*- from operator import add import random from pyspark import SparkConf, SparkContext sc = SparkContext('local') NUM_SAMPLES = 100000 def inside(p): x, y = random.random(), random.random() return x*x + y*y < 1 count = sc.parallelize(xrange(0, NUM_SAMPLES)) \ .filter(inside).count() print "Pi is roughly %f" % (4.0 * count / NUM_SAMPLES) '''運行結果: Pi is roughly 3.140160 '''