Pysparkを使用してフィーチャーエンジニアリングを行う場合のピット
スクリプト各ノードにPython 2.7.5とPython 2.6.8の2つの環境のみが依存インストールを完了
1、処理対象ファイルをHDFSにアップロードする
2、PysparkはデフォルトでPython 2.7.5解釈器を呼び出しているので、呼び出しバージョンを変更する必要があります.各ノードは
3、
または、2と3を実行せずに、次の操作のみを実行します.
4、
バージョン#バージョン# pandas==0.20.3 pyspark==2.3.0 pyarrow==0.12.1
転載先:https://www.cnblogs.com/wkang/p/10634873.html
spark_clean_online_action.py
、データセットnew_sxf_time_count_1781115582.csv
を例にとると、クラスタノードは212、216、217、218を含む.次の点に注意してください.1、処理対象ファイルをHDFSにアップロードする
2、PysparkはデフォルトでPython 2.7.5解釈器を呼び出しているので、呼び出しバージョンを変更する必要があります.各ノードは
export PYSPARK_PYTHON=/usr/local/python3/bin/python3
を実行します.3、
spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.py
または、2と3を実行せずに、次の操作のみを実行します.
4、
spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.py
バージョン#バージョン#
転載先:https://www.cnblogs.com/wkang/p/10634873.html