Pysparkを使用してフィーチャーエンジニアリングを行う場合のピット

956 ワード

python ビッグデータ

スクリプトspark_clean_online_action.py、データセットnew_sxf_time_count_1781115582.csvを例にとると、クラスタノードは212、216、217、218を含む.次の点に注意してください.

各ノードにPython 2.7.5とPython 2.6.8の2つの環境のみが依存インストールを完了
1、処理対象ファイルをHDFSにアップロードする
2、PysparkはデフォルトでPython 2.7.5解釈器を呼び出しているので、呼び出しバージョンを変更する必要があります.各ノードはexport PYSPARK_PYTHON=/usr/local/python3/bin/python3を実行します.
3、

spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.py

または、2と3を実行せずに、次の操作のみを実行します.
4、

spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.py

バージョン#バージョン#

pandas==0.20.3

pyspark==2.3.0

pyarrow==0.12.1

転載先:https://www.cnblogs.com/wkang/p/10634873.html

Android APPT 2報異常処理

AndroidにおけるkeyEventのメッセージ処理