本地Pycharm將spark程序發送到遠端spark集群進行處理


前言

  最近在搞hadoop+spark+python,所以就搭建了一個本地的hadoop環境,基礎環境搭建地址hadoop2.7.7 分布式集群安裝與配置,spark集群安裝並集成到hadoop集群,沒有配置的朋友可以參考文章搞一搞.

  本篇博客主要說明,如何通過pycharm將程序發送到遠端spark集群上進行操作處理.

  注意:本地環境與遠端的集群必須可以互相通信(建議配置內網虛擬機,同一網段).不然的話本地程序在接收spark集群發來的數據會報連接超時.如果本地與遠端不在同一網段,這篇博客可能無法給你解決問題,僅供參考

說明

  本地環境:指本人開發環境,即pycharm運行的電腦

  遠端集群:指服務端spark集群

  Python環境:本地與遠端python相同 Python3.5.6(不知道版本不同是否會有問題)

配置流程

配置本地環境spark

將遠端集群中master服務器上的spark打包,並復制到本地環境中

配置pycharm

添加新的路徑

新的路徑地址是你本地spark路徑下的python文件夾

指定這個路徑后,我們在編寫程序的時候導入SparkContext才不會報錯

配置環境變量

新建一個文件,配置Edit Configurations

上圖紅框中是我已經配置好的,添加SPARK_HOME變量

Value表示你本地spark的絕對路徑

測試

參考地址

https://blog.csdn.net/mycafe_/article/details/79430320#commentsedit

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM