使用Pyspark進行特征工程時的那些坑

本文轉載自查看原文 2019-04-01 10:16 849

以腳本spark_clean_online_action.py、數據集new_sxf_time_count_1781115582.csv為例：集群節點包括212、216、217、218。需要注意的是：

每台節點有且僅有Python 2.7.5 和Python 2.6.8 兩個環境完成相關依賴安裝

1、上傳待處理文件到HDFS

2、Pyspark默認調用的是Python 2.7.5 解釋器，所以需更改調用版本，每個節點執行： export PYSPARK_PYTHON=/usr/local/python3/bin/python3

3、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.py

或者不執行2和3，僅執行：

4、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.py

版本

pandas==0.20.3
pyspark==2.3.0
pyarrow==0.12.1

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用pyspark進行spark-submit 使用sklearn做特征工程使用SqlBulkCopy進行批量插入數據時踩過的坑 oracle 使用count()函數進行分組計數時所踩的坑！【轉】使用sklearn做單機特征工程特征工程使用sklearn做單機特征工程特征工程（上）特征工程 - 特征篩選特征工程1：特征的抽取