前言
最近在搞hadoop+spark+python,所以就搭建了一個本地的hadoop環境,基礎環境搭建地址hadoop2.7.7 分布式集群安裝與配置,spark集群安裝並集成到hadoop集群,沒有配置的朋友可以參考文章搞一搞.
本篇博客主要說明,如何通過pycharm將程序發送到遠端spark集群上進行操作處理.
注意:本地環境與遠端的集群必須可以互相通信(建議配置內網虛擬機,同一網段).不然的話本地程序在接收spark集群發來的數據會報連接超時.如果本地與遠端不在同一網段,這篇博客可能無法給你解決問題,僅供參考
說明
本地環境:指本人開發環境,即pycharm運行的電腦
遠端集群:指服務端spark集群
Python環境:本地與遠端python相同 Python3.5.6(不知道版本不同是否會有問題)
配置流程
配置本地環境spark
將遠端集群中master服務器上的spark打包,並復制到本地環境中
配置pycharm
添加新的路徑
新的路徑地址是你本地spark路徑下的python文件夾
指定這個路徑后,我們在編寫程序的時候導入SparkContext才不會報錯
配置環境變量
新建一個文件,配置Edit Configurations
上圖紅框中是我已經配置好的,添加SPARK_HOME變量
Value表示你本地spark的絕對路徑
測試
參考地址
https://blog.csdn.net/mycafe_/article/details/79430320#commentsedit