環境准備就不說了!
第一步:打開Pycharm,在File->Setting->Project Structure中點擊Add Content Root 添加本地python調用java和spark的組件(因為python和spark通訊是通過調用Jvm的相關組件實現的) ,包含兩個壓縮包可以在spark的安裝包里面找到
第二步:在項目文件內添加本地配置
os.environ['SPARK_HOME'] = r'C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6'
os.environ['JAVA_HOME'] = r'C:\software\jdk1.8'
sys.path.append(r"C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6\python")
第三步:也是最重要的一步需要在本地的spark安裝包內找到spark-defaults.conf的配置文件在末尾添加一行
spark.jars.packages org.apache.spark:spark-streaming-kafka-0-8_2.10:2.0.1
這是本地操作kafka和一些組件的必備jar包。配置完畢以后就可以在maven倉庫下載相關jar包了
(報了很多錯誤,查閱了很多英文文檔才找到答案,國內沒有找到相關問題答案)
成功后就可以利用本地的python和本地相關組件(spark,kafka hdfs)調試和操作遠程組件了!
成功后會在本地環境生成(多線程模擬集群)寫入的hdfs文件
可以調試了,操作本地文件還是很有用的哈!