本地Pycharm將spark程序發送到遠端spark集群進行處理 - 碼上歡樂

相關內容簡體繁體

本地Pycharm將spark程序發送到遠端spark集群進行處理

本文轉載自查看原文 2019-07-25 11:32 774 大數據

前言

　　最近在搞hadoop+spark+python,所以就搭建了一個本地的hadoop環境,基礎環境搭建地址hadoop2.7.7 分布式集群安裝與配置,spark集群安裝並集成到hadoop集群,沒有配置的朋友可以參考文章搞一搞.

　　本篇博客主要說明,如何通過pycharm將程序發送到遠端spark集群上進行操作處理.

　　注意:本地環境與遠端的集群必須可以互相通信(建議配置內網虛擬機,同一網段).不然的話本地程序在接收spark集群發來的數據會報連接超時.如果本地與遠端不在同一網段,這篇博客可能無法給你解決問題,僅供參考

說明

　　本地環境:指本人開發環境,即pycharm運行的電腦

　　遠端集群:指服務端spark集群

　　Python環境:本地與遠端python相同 Python3.5.6(不知道版本不同是否會有問題)

配置流程

配置本地環境spark

將遠端集群中master服務器上的spark打包,並復制到本地環境中

配置pycharm

添加新的路徑

新的路徑地址是你本地spark路徑下的python文件夾

指定這個路徑后,我們在編寫程序的時候導入SparkContext才不會報錯

配置環境變量

新建一個文件,配置Edit Configurations

上圖紅框中是我已經配置好的,添加SPARK_HOME變量

Value表示你本地spark的絕對路徑

測試

參考地址

https://blog.csdn.net/mycafe_/article/details/79430320#commentsedit

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十一）定制一個arvo格式文件發送到kafka的topic，通過Structured Streaming讀取kafka的數據 Spark+Kafka的Direct方式將偏移量發送到Zookeeper實現（轉） SpringBoot RestTemplate接收文件，並將文件發送到另外一個程序進行存儲 Python選擇多個本地文件以附件發送到Email Linux文件夾打包發送到本地本地調試spark程序 Spark程序本地運行 [Spark Core] 在 Spark 集群上運行程序 Tornado——將數據發送到前端最近買了個kindle，為了方便閱讀，寫了個程序抓取網頁內容發送到Kindle

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM