Sparkの取り付け

1485 ワード

sparkをインストールする前にscalaをインストールし、spark-1.6.3-bin-without-hadoopをダウンロードします.tgzは、/usr/local/spark-1.6.3-bin-without-hadoop構成環境変数sudo nano /etc/profileに解凍し、以下の内容を追加します.
export SPARK_HOME=/usr/local/spark-1.6.3-bin-without-hadoop
export PATH=$SPARK_HOME/bin:$PATH

confフォルダのtemplateをコピーし、spark-envと名前を変更します.sh,ここでsparkクラスタのパラメータcp conf/spark-env.sh.template conf/spark-env.shを修正する一番下に以下の行を加える
export JAVA_HOME=/usr/local/jdk1.7.0_80
export SCALA_HOME=/usr/local/scala-2.11.11
export SPARK_MASTER_IP=master1
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.5/etc/Hadoop
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.6.5/bin/Hadoop classpath)

export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=10
export SPARK_WORKER_MEMORY=10g
export SPARK_WORKER_INSTANCES=1
export SPARK_EXECUTOR_CORES=5
export SPARK_EXECUTOR_MEMORY=7g
export SPARK_EXECUTOR_INSTANCES=2
export SPARK_DRIVER_MEMORY=4g
export SPARK_WORKER_DIR=/usr/local/spark-1.6.3-bin-without-hadoop/worker_dir

confの下にslavesというファイルを新規作成します.このファイルにはsparkクラスタサブノードのhostnameが以下の行を追加しています.
master1
master2
slave1
slave2
slave3

sparkフォルダの権限の変更
sudo chown –R hadoop-sna /usr/local/spark-1.6.3-bin-without-hadoop
sudo chgrp –R hadoop-sna /usr/local/spark-1.6.3-bin-without-hadoop

すべてのノード(slavesとプライマリノード)で以上の操作を行い、sbinディレクトリのstart-masterを使用します.shマスターノードを起動するstart-slavesを使用する.sh起動サブノード