Spark on YARNの導入

2961 ワード

Spark on YARNの原理はyarnに頼ってSparkをスケジューリングすることであり、デフォルトのSpark運転モードよりも性能が優れている.まずhadoop HDFSを配備しyarn上で実行し、その後spark on yarnの配備を開始することができることを前提としている.現在、準備環境が配備済みであると仮定すると、ここではCDH環境下でSparkを配備する
上記の環境準備に加え、Sparkをインストールする前に、Scalaの正常なインストールを保証する必要があります.Scalaベースの場合、Sparkの導入を開始することができます.
まずSparkを解凍し、インストール場所は/bigdata/sparkです
tar -xvzf spark-1.6.2-bin-hadoop2.6.tgz
mv spark-1.6.2-bin-hadoop2.6 /bigdata/
ln -s /bigdata/spark-1.6.2-bin-hadoop2.6 /bigdata/spark
cd /bigdata/spark

ここではアップグレードを容易にするために/bigdata/sprakを使用して特定のsparkディレクトリを指し、次に環境変数を構成することができ、いつでもコマンドを入力して関連プログラムを提出することができ、直接環境変数プロファイルのPATH変数に追加することができます:/bigdata/spark/binで構成することができ、構成が完了したらsourceが有効になります
次に、プロファイルを処理します.
cp conf/spark-env.sh.template conf/spark-env.sh
cp conf/slaves.template conf/slaves

この場合slavesはデフォルトを変更する必要はありません.sparkが複数ある場合はmaster以外のホスト名リストを構成することもできます.これは構成しなくてもいいです.
vim conf/spark-envを実行します.shプロファイルを編集し、最後に以下のプロファイルを追加します.
# JDK  
export JAVA_HOME=/usr/local/java/jdk1.8.0_73
# Scala  
export SCALA_HOME=/usr/local/scala/scala-2.11.8
# Master IP  
export SPARK_MASTER_IP=192.168.0.187
# Worker    
export SPARK_WORKER_MEMORY=2G
# hadoop       cdh           hadoop     yarn  spark               yarn    
export HADOOP_CONF_DIR=/etc/hadoop/conf
# spark master     7077       
export SPARK_MASTER_PORT=7077
#           
export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}

これらの構成が完了すると、sparkはyarnに走ることができ、ここまで配置が完了し、sparkのmasterやslavesサービスを起動する必要もありません.yarnによるタスクスケジューリングなので、直接タスクを提出すればいいです.