IPythonによるデータの探索と可視化


Anacondaをお勧めします.プリコンパイルされた科学Pythonキットです.(またはEnthougt)
  • Anaconda-2.3をダウンロードします.0-Linux-x86_64.shおよびcopyは、/usr/local/appsディレクトリの下にあり、bash Anaconda-2.3.0-Linux-x86_64.shを実行してインストールを完了する.
  • 環境変数の更新:/home/hadoop/.bashrcexport PATH=/usr/local/apps/anaconda/bin:$PATH
  • を追加する.
  • IPython 3を使用する場合.0 ;conda update conda
    conda update ipython ipython-notebook ipython-qtconsole
  • を次のように更新する.
  • jupyter(IPython 3.x以上):conda install jupyterまたはconda update jupyter
  • クラスタ内のマシンを同じ構成にする.hadoop、sparkを起動します.次のコマンドでpyspark端末を起動します.IPYTHON=1 IPYTHON_OPTS="--pylab" ./bin/pysparkにより、起動したpysparkでIPythonとpylabを一緒に有効にできます.起動に成功した
    IPython 4.0.0 -- An enhanced Interactive Python.
    ?         -> Introduction and overview of IPython's features.
    %quickref -> Quick reference.
    help      -> Python's own help system.
    object?   -> Details about 'object', use 'object??' for extra details.
    Using matplotlib backend: Qt4Agg
    
    で問題が発生しました.xshellを使用してホストにリモート接続すると、同じコマンドでcannot connect to X serverエラーが発生し、一時的に解決されませんでした.