jupyter notebook (IPython notebook) でapache Sparkを使う


結論

次のコマンドを実行すれば良い。

PYSPARK_PYTHON=/Users/username/.pyenv/shims/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ~/somewhere/spark-1.5.2/bin/pyspark --master local[4]

前提

  • jupyter notebook と Apache Spark がインストールされている

起動方法

結論

  • 基本的に,https://spark.apache.org/docs/latest/programming-guide.html#using-the-shell に書かれている通りに起動するだけです。

  • ${PYSPARK_DRIVER_PYTHON}${PYSPARK_DRIVER_PYTHON_OPTS}の環境変数を正しくセットして,pysparkを起動するだけです。

  • 今回は,手元のノードでテストするため,--master local[4]オプションをつけます。

  • また,マスターとワーカーで同じバージョンのpythonを使うことを確認するため,${PYSPARK_PYTHON}にpythonのパスを指定しました。

    • 自分の環境のpythonへのパスは,which pythonなどで調べるとわかります。
  • 以上まとめて,下記のコマンドとなります。

PYSPARK_PYTHON=/Users/username/.pyenv/shims/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ~/somewhere/spark-1.5.2/bin/pyspark --master local[4]