Pysparkを使用してフィーチャーエンジニアリングを行う場合のピット


スクリプトspark_clean_online_action.py、データセットnew_sxf_time_count_1781115582.csvを例にとると、クラスタノードは212、216、217、218を含む.次の点に注意してください.
  • 各ノードにPython 2.7.5とPython 2.6.8の2つの環境のみが依存インストールを完了
    1、処理対象ファイルをHDFSにアップロードする
    2、PysparkはデフォルトでPython 2.7.5解釈器を呼び出しているので、呼び出しバージョンを変更する必要があります.各ノードはexport PYSPARK_PYTHON=/usr/local/python3/bin/python3を実行します.
    3、 spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.py
    または、2と3を実行せずに、次の操作のみを実行します.
    4、 spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.py
    バージョン#バージョン#
  • pandas==0.20.3
  • pyspark==2.3.0
  • pyarrow==0.12.1

  • 転載先:https://www.cnblogs.com/wkang/p/10634873.html