win10下spark+Python開發環境配置

本文轉載自查看原文 2017-01-11 10:32 1934 Spark

Step0:安裝好Java ，jdk

Step1：下載好:

Step2: 將解壓后的hadoop和spark設置好環境變量：

在系統path變量里面+：

Step3：

　　使用pip安裝 py4j ： pip install py4j

　　如果沒裝pip那就先裝一下

例程：wordcount.py

　　運行worldcount例程發現，SPARK_HOME keyerror 然后使用os設置了臨時的環境變量。麻蛋~ 發現重啟一下編譯器pycharm就好了

from pyspark import SparkContext
import os
os.environ["SPARK_HOME"] = "H:\Spark\spark-2.0.1-bin-hadoop2.7"
sc = SparkContext('local')
doc = sc.parallelize([['a', 'b', 'c'], ['b', 'd', 'd']])
words = doc.flatMap(lambda d: d).distinct().collect()
word_dict = {w: i for w, i in zip(words, range(len(words)))}
word_dict_b = sc.broadcast(word_dict)


def word_count_per_doc(d):
    dict_tmp = {}
    wd = word_dict_b.value
    for w in d:
        dict_tmp[wd[w]] = dict_tmp.get(wd[w], 0) + 1
    return dict_tmp

print(doc.map(word_count_per_doc).collect())
print("successful!")

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Windows10搭建Spark+Python開發環境 windows下搭建spark+python 開發環境 WIN10下搭建vue開發環境 win10下PHP開發環境搭建 WIN10下OpenGL開發環境的搭建 win10下搭建vue開發環境 Win10下安裝Go開發環境 WIN10下WNMP開發環境部署 Win10下配置Pytorch開發環境(GPU-CUDA10.0-CUDANN7) win10 64位下 VSCode 配置 C/C++ 開發環境