Spark on YARNの導入
2961 ワード
Spark on YARNの原理はyarnに頼ってSparkをスケジューリングすることであり、デフォルトのSpark運転モードよりも性能が優れている.まずhadoop HDFSを配備しyarn上で実行し、その後spark on yarnの配備を開始することができることを前提としている.現在、準備環境が配備済みであると仮定すると、ここではCDH環境下でSparkを配備する
上記の環境準備に加え、Sparkをインストールする前に、Scalaの正常なインストールを保証する必要があります.Scalaベースの場合、Sparkの導入を開始することができます.
まずSparkを解凍し、インストール場所は/bigdata/sparkです
ここではアップグレードを容易にするために/bigdata/sprakを使用して特定のsparkディレクトリを指し、次に環境変数を構成することができ、いつでもコマンドを入力して関連プログラムを提出することができ、直接環境変数プロファイルのPATH変数に追加することができます:/bigdata/spark/binで構成することができ、構成が完了したらsourceが有効になります
次に、プロファイルを処理します.
この場合slavesはデフォルトを変更する必要はありません.sparkが複数ある場合はmaster以外のホスト名リストを構成することもできます.これは構成しなくてもいいです.
vim conf/spark-envを実行します.shプロファイルを編集し、最後に以下のプロファイルを追加します.
これらの構成が完了すると、sparkはyarnに走ることができ、ここまで配置が完了し、sparkのmasterやslavesサービスを起動する必要もありません.yarnによるタスクスケジューリングなので、直接タスクを提出すればいいです.
上記の環境準備に加え、Sparkをインストールする前に、Scalaの正常なインストールを保証する必要があります.Scalaベースの場合、Sparkの導入を開始することができます.
まずSparkを解凍し、インストール場所は/bigdata/sparkです
tar -xvzf spark-1.6.2-bin-hadoop2.6.tgz
mv spark-1.6.2-bin-hadoop2.6 /bigdata/
ln -s /bigdata/spark-1.6.2-bin-hadoop2.6 /bigdata/spark
cd /bigdata/spark
ここではアップグレードを容易にするために/bigdata/sprakを使用して特定のsparkディレクトリを指し、次に環境変数を構成することができ、いつでもコマンドを入力して関連プログラムを提出することができ、直接環境変数プロファイルのPATH変数に追加することができます:/bigdata/spark/binで構成することができ、構成が完了したらsourceが有効になります
次に、プロファイルを処理します.
cp conf/spark-env.sh.template conf/spark-env.sh
cp conf/slaves.template conf/slaves
この場合slavesはデフォルトを変更する必要はありません.sparkが複数ある場合はmaster以外のホスト名リストを構成することもできます.これは構成しなくてもいいです.
vim conf/spark-envを実行します.shプロファイルを編集し、最後に以下のプロファイルを追加します.
# JDK
export JAVA_HOME=/usr/local/java/jdk1.8.0_73
# Scala
export SCALA_HOME=/usr/local/scala/scala-2.11.8
# Master IP
export SPARK_MASTER_IP=192.168.0.187
# Worker
export SPARK_WORKER_MEMORY=2G
# hadoop cdh hadoop yarn spark yarn
export HADOOP_CONF_DIR=/etc/hadoop/conf
# spark master 7077
export SPARK_MASTER_PORT=7077
#
export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}
これらの構成が完了すると、sparkはyarnに走ることができ、ここまで配置が完了し、sparkのmasterやslavesサービスを起動する必要もありません.yarnによるタスクスケジューリングなので、直接タスクを提出すればいいです.