Spark分散インストール

2240 ワード

クラスタ計画:
ホスト名
IP
実行プロセス
hadoop01
192.168.1.201
master
hadoop05
192.168.1.205
worker
hadoop06
192.168.1.206
worker
hadoop07
192.168.1.207
worker
1、Scalaの取り付け
環境変数の設定
vim .bash_profile
export SCALA_HOME=/home/hadoop/scala-2.11.8
export $SCALA_HOME/bin:$PATH
source .bash_profile

2、spark圧縮パッケージを解凍する
tar -zxvf spark-1.5.0-cdh5.6.0.tar.gz -C /spark/
ln -s spark-1.5.0-cdh5.6.0 spark-1.5.0

3、プロファイルの変更
cd spark-1.5.0-cdh5.6.0
cp conf/spark-env.sh.template conf/spark-env.sh
vim conf/spark-env.sh       :
export SCALA_HOME=/home/hadoop/scala-2.11.8
export JAVA_HOME=/home/hadoop/jdk1.7
export SPARK_MASTER_IP=192.168.1.201
export SPARK_WORKER_INSTANCES=3
export SPARK_MASTER_PORT=8070
export SPARK_MASTER_WEBUI_PORT=8090
export SPARK_WORKER_PORT=8092
export SPARK_WORKER_MEMORY=5000m

SPARK_MASTER_IPとはmasterのIPアドレスを指す.SPARK_MASTER_PORTこれはマスターポートです.SPARK_MASTER_WEBUI_PORTこれはクラスタの動作状況を表示するWEB UIのポート番号である.SPARK_WORKER_PORTこれは各workerのポート番号です.SPARK_WORKER_MEMORYという構成は各workerの実行メモリです. 
vim conf/slaves     worker    (     host    IP     ),    :
192.168.1.205
192.168.1.206
192.168.1.207

4、環境変数の設定
vim .bash_profile
export SPARK_HOME=/spark/spark-1.5.0
export $SPARK_HOME/bin:$PATH
source .bash_profile

5.次に、構成およびインストールファイルを各ノードに同期し、環境変数を有効にします. 
scp -r spark-1.5.0-cdh5.6.0 192.168.1.205:/spark
scp -r spark-1.5.0-cdh5.6.0 192.168.1.206:/spark
scp -r spark-1.5.0-cdh5.6.0 192.168.1.207:/spark

6、sparkクラスタの起動
実行./sbin/start-all.sh start-all方式で関連プロセスを正常に起動できない場合は$SPARK_HOME/logsディレクトリの下に関連するエラー情報を表示します.実際には、Hadoopのように関連するプロセスを個別に起動し、masterノードで次のコマンドを実行することもできます.Masterで実行:./sbin/start-master.sh Workerで実行:./sbin/start-slave.sh 3 spark://10.32.21.165:8070--webui-port 8090プロセスが開始されたかどうかを確認し、jpsコマンドを実行すると、WorkerプロセスまたはMasterプロセスが表示されます.WEB UIでご覧いただけますhttp://masterSpark:8090/すべてのワークノードと、CPUの個数やメモリなどの情報が表示されます.
7、サンプルプログラムの実行
./bin/run-example SparkPi 10 > Sparkpilog.txt

出力されるログは2つの部分に分けられ、一部は汎用ログ情報であり、後述する一連のスクリプトとプログラムによって生成され、もう一部はプログラムを実行する出力結果である.