ビッグデータ技術の_19_Spark学習_01_Spark基礎解析小結(画像なし)
5178 ワード
1、インストールパッケージの準備
2、Spark Standaloneすなわち独立モード 2.1、インストールパッケージをインストールしたディレクトリに解凍します. 2.2、confディレクトリの下のslavesファイルをコピーし、slaveノードのhostnameをファイルに1行ずつ書きます. 2.3、confディレクトリの下のspark-env.shファイルをコピーし、SPARK_MASTER_HOSTとSPARK_MASTER_PORT指定. 2.4、sparkインストールディレクトリを他のノードに配布します. 2.5、masterノード上で/opt/module/spark-2.1.1-bin-hadoop 2.7/sbin/start-all.shを実行してsparkクラスタ全体を起動します. 2.6、ブラウザでのアクセスhttp://hadoop102:8080 あなたのsparkクラスタHOME=/opt/module/jdk1.8.0_144はその後、問題を解決するために他のノードに配布される.
3、Spark StandaloneモードSpark History Serverの構成
3.2、コピーconfディレクトリの下のspark-env.sh.templateをspark-env.shに変更し、このファイルに以下の内容を追加します:spark-env.sh
3.3、変更したファイルをクラスタの他のノード 3.4、起動/opt/module/spark-2.1.1-bin-hadoop 2.7/sbin/start-history-server.shに同期してhistory logのwebサービスを起動します.ログの表示には、実行中のアプリケーションに直接アクセスする2つの方法があります.http://hadoop102:4040 終了したアプリケーションへの直接アクセスhttp://hadoop102:4000 表示
4、Spark StandaloneのHAモード 4.1、spark-env.shファイル 1の修正、SPARK_の削除MASTER_IP(すなわちSPARK_MASTER_HOST) 2)は、以下の内容を追加する.
3)、構成されたファイルを他のマシンノード 4.2に配布し、masterノードでsbin/start-all.shによりクラスタの起動を行い、ある他のslaveノードでsbin/start-master.shを手動で実行して第2のmasterプロセス 4.3を起動し、HAモードであれば、アクセスするサービスアドレスは–masterspark://hadoop102:7077,hadoop103:7077
5、Spark Yarnモードクラスタの構成
5.3、アプリケーションの提出
6、Sparkクラスタのアクセス 1)、SparkConfオブジェクトを作成してアプリケーション 2を設定する必要があり、SparkConfオブジェクトに基づいてSparkContextを作成する必要があります(SparkConextはあなたのプログラムとsparkクラスタを接続する橋渡しです). 3)、scにより外部からデータ 4)、データの処理 5)、結果データを外部 6)に書き出し、sc.stop()によりSparkContext 6.2を閉じ、デバッグアプリケーションはlocal[*]モードで行われる. 6.3、アプリケーションの提出:
7、問題1、文書を読むときは、いくつかの構成を自分のものに変更する必要があります. 2、IDEAがプログラムを実行する場合、winuntil.exeはHADOOP_を追加する必要がありますHOME環境変数(IDEAは再起動が必要). 3、HDFSにアクセスする際の権限の問題、例えば:HADOOP_USER_NAME=hadoopは、プログラムを実行するときにhadoopユーザーで実行されます.参照リンク:https://www.cnblogs.com/chenmingjun/p/10746853.html
私のGitHubアドレス:https://github.com/heizemingjun 私のブログの住所:https://www.cnblogs.com/chenmingjun 私のCSDNアドレス:https://blog.csdn.net/u012990179 私のアリのノートのブログの住所:https://blog.leanote.com/chenmingjun Copyright ©2018~2019黒沢君【転載文章は必ず出典と署名を残して、ありがとうございます!】
2、Spark Standaloneすなわち独立モード 2.1、インストールパッケージをインストールしたディレクトリに解凍します. 2.2、confディレクトリの下のslavesファイルをコピーし、slaveノードのhostnameをファイルに1行ずつ書きます. 2.3、confディレクトリの下のspark-env.shファイルをコピーし、SPARK_MASTER_HOSTとSPARK_MASTER_PORT指定. 2.4、sparkインストールディレクトリを他のノードに配布します. 2.5、masterノード上で/opt/module/spark-2.1.1-bin-hadoop 2.7/sbin/start-all.shを実行してsparkクラスタ全体を起動します. 2.6、ブラウザでのアクセスhttp://hadoop102:8080 あなたのsparkクラスタHOME=/opt/module/jdk1.8.0_144はその後、問題を解決するために他のノードに配布される.
3、Spark StandaloneモードSpark History Serverの構成
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:9000/directory
spark.eventLog.compress true
3.2、コピーconfディレクトリの下のspark-env.sh.templateをspark-env.shに変更し、このファイルに以下の内容を追加します:spark-env.sh
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000
-Dspark.history.retainedApplications=3
-Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory"
3.3、変更したファイルをクラスタの他のノード 3.4、起動/opt/module/spark-2.1.1-bin-hadoop 2.7/sbin/start-history-server.shに同期してhistory logのwebサービスを起動します.ログの表示には、実行中のアプリケーションに直接アクセスする2つの方法があります.http://hadoop102:4040 終了したアプリケーションへの直接アクセスhttp://hadoop102:4000 表示
4、Spark StandaloneのHAモード 4.1、spark-env.shファイル 1の修正、SPARK_の削除MASTER_IP(すなわちSPARK_MASTER_HOST) 2)は、以下の内容を追加する.
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hadoop102:2181,hadoop103:2181,hadoop104:2181
-Dspark.deploy.zookeeper.dir=/spark"
3)、構成されたファイルを他のマシンノード 4.2に配布し、masterノードでsbin/start-all.shによりクラスタの起動を行い、ある他のslaveノードでsbin/start-master.shを手動で実行して第2のmasterプロセス 4.3を起動し、HAモードであれば、アクセスするサービスアドレスは–masterspark://hadoop102:7077,hadoop103:7077
5、Spark Yarnモードクラスタの構成
# spark hadoop
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
5.3、アプリケーションの提出
$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--class com.atguigu.sparkdemo.WordCountDemo \
--master yarn \
--deploy-mode client \
--executor-memory 1G \
--total-executor-cores 2 \
/opt/software/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://hadoop102:9000/RELEASE \
hdfs://hadoop102:9000/out
$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--class com.atguigu.sparkdemo.WordCountDemo \
--master yarn-client \
--executor-memory 1G \
--total-executor-cores 2 \
/opt/software/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://hadoop102:9000/RELEASE \
hdfs://hadoop102:9000/out
:yarnクラスタを使用する場合、master、slave構造を構成する必要はなく、jarパケットのclientコミット側を構成し、コミット側がhadoopのいくつかの構成を発見できるようにすればよい.6、Sparkクラスタのアクセス 1)、SparkConfオブジェクトを作成してアプリケーション 2を設定する必要があり、SparkConfオブジェクトに基づいてSparkContextを作成する必要があります(SparkConextはあなたのプログラムとsparkクラスタを接続する橋渡しです). 3)、scにより外部からデータ 4)、データの処理 5)、結果データを外部 6)に書き出し、sc.stop()によりSparkContext 6.2を閉じ、デバッグアプリケーションはlocal[*]モードで行われる. 6.3、アプリケーションの提出:
$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--class com.atguigu.sparkdemo.WordCountDemo \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
/opt/software/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://hadoop102:9000/RELEASE \
hdfs://hadoop102:9000/out
--class jar
--master jar , :
local , , (local 1 、local[*] 、local[N] N , ,N CPU )
spark spark stanalone , Master Worker , container jar
mesos jar mesos , mesos , mesos ,Spark
yarn jar yarn , yarn , yarn ,Spark
cloud AWS EC2, Amazon S3,Spark , HDFS S3
--deploy-mode jar ( client ), :
client JVM , , , jar ( )
cluster JVM jar , , worker Driver JVM, JVM jar , ( )
application.jar jar
arguments main()
$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-shell 。
master ; --master spark://hadoop102:7077 Spark Standalone 。
7、問題1、文書を読むときは、いくつかの構成を自分のものに変更する必要があります. 2、IDEAがプログラムを実行する場合、winuntil.exeはHADOOP_を追加する必要がありますHOME環境変数(IDEAは再起動が必要). 3、HDFSにアクセスする際の権限の問題、例えば:HADOOP_USER_NAME=hadoopは、プログラムを実行するときにhadoopユーザーで実行されます.参照リンク:https://www.cnblogs.com/chenmingjun/p/10746853.html
私のGitHubアドレス:https://github.com/heizemingjun 私のブログの住所:https://www.cnblogs.com/chenmingjun 私のCSDNアドレス:https://blog.csdn.net/u012990179 私のアリのノートのブログの住所:https://blog.leanote.com/chenmingjun Copyright ©2018~2019黒沢君【転載文章は必ず出典と署名を残して、ありがとうございます!】