利用Pycharm本地調試spark-streaming（包含kafka和zookeeper等操作）

本文轉載自查看原文 2017-11-17 10:32 2068

環境准備就不說了！

第一步：打開Pycharm，在File->Setting->Project Structure中點擊Add Content Root 添加本地python調用java和spark的組件（因為python和spark通訊是通過調用Jvm的相關組件實現的），包含兩個壓縮包可以在spark的安裝包里面找到

第二步：在項目文件內添加本地配置

 os.environ['SPARK_HOME'] = r'C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6'
 os.environ['JAVA_HOME'] = r'C:\software\jdk1.8'
 sys.path.append(r"C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6\python")



 第三步：也是最重要的一步需要在本地的spark安裝包內找到spark-defaults.conf的配置文件在末尾添加一行
  spark.jars.packages   org.apache.spark:spark-streaming-kafka-0-8_2.10:2.0.1
 這是本地操作kafka和一些組件的必備jar包。配置完畢以后就可以在maven倉庫下載相關jar包了
 （報了很多錯誤，查閱了很多英文文檔才找到答案，國內沒有找到相關問題答案）

 成功后就可以利用本地的python和本地相關組件（spark,kafka hdfs）調試和操作遠程組件了！
 成功后會在本地環境生成（多線程模擬集群）寫入的hdfs文件


可以調試了，操作本地文件還是很有用的哈！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scala spark-streaming整合kafka （spark 2.3 kafka 0.10） spark-streaming讀kafka數據到hive遇到的問題 Spark-Streaming結合Redis spark-streaming任務提交遇到的坑【Spark】Spark Streaming + Kafka direct 的 offset 存入Zookeeper並重用 Spark Streaming 讀取Kafka數據寫入ES Spark Streaming on Kafka解析和安裝實戰 Offset Management For Apache Kafka With Apache Spark Streaming Spark streaming消費Kafka的正確姿勢關於Spark Streaming感知kafka動態分區的問題