spark分散プラットフォームにおけるpython環境の構築

2808 ワード

実はこの環境はもう2週間もやっています.2週間前、私はこのプロジェクトを受け取って、pythonが書いたspark分布式プラットフォームに基づく音楽推薦システムを完成しました.以前pythonを聞いたことがありますが、今回は何気なく「life is short,you need python」という言葉を見ました.ぜひpythonをしっかり勉強したいと思います.
まず、今回のプロジェクトはpythonの開発環境が必要なため、彼のバージョン>2.7.3を必要としますが、私はcentosオペレーティングシステムを使用しています.そのpythonバージョンは2.6.0で、要求に達することができません.だから私が最初にしたことはpythonのバージョンをアップグレードすることです.
1.pythonバージョンのアップグレード:
1)Python-2.7.3をダウンロード
             wget  http://python.org/ftp/python/2.7.3/Python-2.7.3.tar.bz2
2)解凍
            tar -jxvf Python-2.7.3.tar.bz2
3)ssl yum install openssl-devel-yを事前にインストールする必要がある
4)sslを開く
          vim   Python-2.7.3/Modules/Setup.dist
SSL関連部分を見つけてコメントを消せばいい
#変更の変更は次のとおりです.
                        # Socket module helper for socket(2) 
                         _socket socketmodule.c timemodule.c 
                       # Socket module helper for SSL support; you must comment out the other 
                        # socket line above, and possibly edit the SSL variable:#SSL=/usr/local/ssl 
                        _ssl _ssl.c\-DUSE_SSL -I$(SSL)/include -I$(SSL)/include/openssl\ 
                        -L$(SSL)/lib -lssl -lcrypto
5)Pythonのインストール:
                 ./configure 
                 make all 
                make install 
                make clean 
                make distclean
6)インストールされたPythonのバージョンを確認します.
              /usr/local/bin/python2.7 -V
7)システムのデフォルトpythonを2.7バージョンに指定
              mv/usr/bin/python/usr/bin/python2.6.0
             ln -s/usr/local/bin/python2.7/usr/bin/python
そしてpython-Vで見ると2.7.3と表示されます.
2.このプロジェクトはpythonの3つのライブラリ、numpy、scipy、recsysを使用する必要があるためです.
ここでは、この3つのライブラリについて簡単に説明します.
numpy:pythonで実現された科学計算パッケージ.1、強力なN次元配列オブジェクトArray;2、比較的成熟した(放送)関数ライブラリ;3、C/C++とFortranコードを統合するためのツールパッケージ;4、実用的な線形代数、フーリエ変換と乱数生成関数.numpyと疎マトリクス演算パケットscipyを組み合わせて使用すると便利です.NumPy(Numeric Python)は、マトリクスデータ型、ベクトル処理、精密な演算ライブラリなど、多くの高度な数値プログラミングツールを提供しています.厳格なデジタル処理のために生まれた.
scipy:便利で、使いやすく、科学と工程のために設計されたPythonツールパッケージです.それは統計、最適化、統合、線形代数モジュール、フーリエ変換、信号と画像処理、常微分方程式ソルバなどを含む.
recsys:いくつかのアルゴリズムのマトリクス演算を提供します(詳細は「http://ocelma.net/software/python-recsys/build/html/index.html)
インストールプロセス:
sudo apt-get install python-scipy python-numpy
sudo apt-get install python-pip
sudo pip install csc-pysparse networkx divisi2

# If you don't have pip installed
# (i.e. the last command, sudo pip install, fails)
# then do:
# sudo easy_install csc-pysparse
# sudo easy_install networkx
# sudo easy_install divisi2
python-recsysをダウンロードします(githubリンク:https://github.com/ocelma/python-recsys)
tar xvfz python-recsys.tar.gz
cd python-recsys
sudo python setup.py install
これで、sparkベースのpython開発環境が完成しました.