Spark-submitパラメータの説明


spark-submitを使用してアプリケーションのコミットを行う場合は、多くのパラメータを追加する必要があります.spark-submit -hコマンドを使用して表示できます.Spark-submitの使用説明は、Sparkアプリケーション発行ガイドの具体的な使用パラメータを参照して以下のように説明できます.
Usage: spark-submit [options]  [app options]
Usage: spark-submit [options]  [app arguments]
Usage: spark-submit --kill [submission ID] --master [spark://...]
Usage: spark-submit --status [submission ID] --master [spark://...]
Usage: spark-submit run-example [options] example-class [example args]

パラメータ名
意味
–master MASTER_URL
はいspark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local
–deploy-mode DEPLOY_MODE
Driverプログラムが実行されている場所、clientまたはcluster
–class CLASS_NAME
パッケージ名を含むプライマリクラス名
–name NAME
アプリケーション名
–jars JARS
Driver依存サードパーティjarパッケージ
–py-files PY_FILES
PythonアプリケーションPYTHONPATH上にカンマで区切られた.zip, .egg, .pyファイルリスト
–files FILES
各executor作業ディレクトリに配置するファイルのリストをカンマで区切った
–conf PROP=VALUE
spark関連設定の構成
–properties-file FILE
アプリケーションのプロパティのファイルパスを設定します.デフォルトはconf/spark-defaultsです.conf
–driver-memory MEM
Driverプログラム使用メモリサイズ
–driver-java-options
追加javaオプションをアプリケーションに渡す
–driver-library-path
Driverプログラムのライブラリパス
–driver-class-path
Driverプログラムのクラスパス
–executor-memory MEM
executorメモリサイズ、デフォルト1 G
–proxy-user NAME
–driver-cores NUM
DriverプログラムのCPU使用個数は、Spark Aloneモードのみ
–supervise
失敗後にDriverを再起動するかどうかは、Spark Aloneモードのみです
–kill SUBMISSION_ID
指定プログラムを殺す
–status SUBMISSION_ID
指定したドライバのステータスを取得
–total-executor-cores NUM
executorで使用される総コア数は、Spark Alone、Spark on Mesosモードのみ
–driver-cores NUM
ドライバが使用するカーネルの数は、クラスタモードのみ(デフォルト:1).Spark on Yarnモードのみ
–executor-cores NUM
各executorで使用されるカーネル数は、デフォルトでは1で、Spark on Yarnモードのみ
–queue QUEUE_NAME
アプリケーションがどのYARNのキューに送信されるかは、デフォルトではdefaultキューで、Spark on Yarnモードのみです.
–num-executors NUM
起動したexecutorの数は、デフォルトでは2つで、Spark on Yarnモードのみ
–archives ARCHIVES
Spark on Yarnモードのみ
クラスタリソースが変更された場合、アプリケーションの実行性能を向上させるために、スレッド、メモリ、cpuコア数などの関連構成を適宜変更します.