jupyterでyarn-clientのsparkを使う設定


  • sparkを使うにはtoreeを使う
  • defaultで --master local[2]になっているのをyarn-clientに変える
  • toreeの設定fileは/usr/local/share/jupyter/kernels/toree/kernel.jsonにある。
    • これでsparkのspark-submitのオプション指定をしている。
    • masterをyarn-clientに変えるには下記のように変更する。
/usr/local/share/jupyter/kernels/toree/kernel.json

{
  "env": {
    "SPARK_HOME": "/usr/local/spark",
    "SPARK_OPTS": "--master=yarn-client --driver-java-options=-Xms1024M --driver-java-options=-Xmx8096M --driver-java-options=-Dlog4j.logLevel=info",
    "CAPTURE_STANDARD_ERR": "true",
    "SEND_EMPTY_OUTPUT": "false",
    "PYTHONPATH": "/usr/local/spark/python:/usr/local/spark/python/lib/py4j-0.8.2.1-src.zip",
    "MAX_INTERPRETER_THREADS": "16",
    "CAPTURE_STANDARD_OUT": "true"
  },
  "argv": [
    "/usr/local/share/jupyter/kernels/toree/bin/run.sh",
    "--profile",
    "{connection_file}"
  ],
  "language_info": {
    "name": "scala"
  },
  "display_name": "Toree",
  "codemirror_mode": "scala"
}