本地Pycharm将spark程序发送到远端spark集群进行处理

本文转载自查看原文 2019-07-25 11:32 774 大数据

　　最近在搞hadoop+spark+python,所以就搭建了一个本地的hadoop环境,基础环境搭建地址hadoop2.7.7 分布式集群安装与配置,spark集群安装并集成到hadoop集群,没有配置的朋友可以参考文章搞一搞.

　　本篇博客主要说明,如何通过pycharm将程序发送到远端spark集群上进行操作处理.

　　注意:本地环境与远端的集群必须可以互相通信(建议配置内网虚拟机,同一网段).不然的话本地程序在接收spark集群发来的数据会报连接超时.如果本地与远端不在同一网段,这篇博客可能无法给你解决问题,仅供参考

　　本地环境:指本人开发环境,即pycharm运行的电脑

　　远端集群:指服务端spark集群

　　Python环境:本地与远端python相同 Python3.5.6(不知道版本不同是否会有问题)

将远端集群中master服务器上的spark打包,并复制到本地环境中

新的路径地址是你本地spark路径下的python文件夹

指定这个路径后,我们在编写程序的时候导入SparkContext才不会报错

新建一个文件,配置Edit Configurations

上图红框中是我已经配置好的,添加SPARK_HOME变量

Value表示你本地spark的绝对路径

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据 Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转） SpringBoot RestTemplate接收文件，并将文件发送到另外一个程序进行存储 Python选择多个本地文件以附件发送到Email Linux文件夹打包发送到本地本地调试spark程序 Spark程序本地运行 [Spark Core] 在 Spark 集群上运行程序 Tornado——将数据发送到前端最近买了个kindle，为了方便阅读，写了个程序抓取网页内容发送到Kindle