利用Pycharm本地調試spark-streaming(包含kafka和zookeeper等操作)


                          環境准備就不說了!

                          第一步:打開Pycharm,在File->Setting->Project Structure中點擊Add Content Root 添加本地python調用java和spark的組件(因為python和spark通訊是通過調用Jvm的相關組件實現的) ,包含兩個壓縮包可以在spark的安裝包里面找到

                          

 

                        

 

                         第二步:在項目文件內添加本地配置

 os.environ['SPARK_HOME'] = r'C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6'
os.environ['JAVA_HOME'] = r'C:\software\jdk1.8'
sys.path.append(r"C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6\python")



第三步:也是最重要的一步需要在本地的spark安裝包內找到spark-defaults.conf的配置文件在末尾添加一行
 spark.jars.packages   org.apache.spark:spark-streaming-kafka-0-8_2.10:2.0.1
這是本地操作kafka和一些組件的必備jar包。配置完畢以后就可以在maven倉庫下載相關jar包了
(報了很多錯誤,查閱了很多英文文檔才找到答案,國內沒有找到相關問題答案)

成功后就可以利用本地的python和本地相關組件(spark,kafka hdfs)調試和操作遠程組件了!
成功后會在本地環境生成(多線程模擬集群)寫入的hdfs文件


可以調試了,操作本地文件還是很有用的哈!

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM