EMRがsparkに標準対応したのでBootStrapActionから切り替えた

1292 ワード

EMR Spark Spark テキストリンク

特に何も考えずに切り替えても動いたが、何故かジョブの実行時間がものすごく伸びた

調査するとbootStrapActionではspark-defaultに設定してくれていた以下の設定がaws標準だとなくなっていた

/home/hadoop/spark/conf/spark-default.sh

spark.executor.instances        5
spark.executor.cores    8
spark.executor.memory   9404M
spark.default.parallelism       40

stepを投入するスクリプトに手を入れて対応した。

STEP_ID=`aws emr add-steps --cluster-id $EMR_CLUSTER_ID --steps \
Type=CUSTOM_JAR,Name="$STEP_NAME",\
Jar=s3://ap-northeast-1.elasticmapreduce/libs/script-runner/script-runner.jar,\
Args=[\
/home/hadoop/spark/bin/spark-submit,\
--master,yarn-cluster,\
--driver-java-options,"-Dspark.akka.frameSize=128 -DXss=10m -Dspark.driver.maxResultSize=$DRIVER_MAX_RESULT_SIZE -Dspark.executor.instances=$EXECUTER_INSTANCES -Dspark.default.parallelism=$DEFAULT_PARALLELISM",\
--driver-cores,$DRIVER_CORES,\
--driver-memory,$DRIVER_MEM,\
--executor-cores,$EXECUTER_CORES,\
--executor-memory,$EXECUTER_MEM,\
--conf,spark.hadoop.validateOutputSpecs=false,\
--class,$MAIN_CLASS,\
"$JAR_NAME","$ARGS"],\
ActionOnFailure=CONTINUE --query 'StepIds[0]' --output text`

Author And Source

この問題について(EMRがsparkに標準対応したのでBootStrapActionから切り替えた), 我々は、より多くの情報をここで見つけました https://qiita.com/ma2k8/items/1fe08e62e7f0d4ba4305

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

C++におけるMessageBox()におけるパラメータerror C 2664:

フォルダの下にある種類のファイル名を巡回(C++)