ビッグデータ技術の_19_Spark学習_01_Spark基礎解析小結(画像なし)

5178 ワード

1、インストールパッケージの準備
2、Spark Standaloneすなわち独立モード 2.1、インストールパッケージをインストールしたディレクトリに解凍します. 2.2、confディレクトリの下のslavesファイルをコピーし、slaveノードのhostnameをファイルに1行ずつ書きます.  2.3、confディレクトリの下のspark-env.shファイルをコピーし、SPARK_MASTER_HOSTとSPARK_MASTER_PORT指定. 2.4、sparkインストールディレクトリを他のノードに配布します. 2.5、masterノード上で/opt/module/spark-2.1.1-bin-hadoop 2.7/sbin/start-all.shを実行してsparkクラスタ全体を起動します.  2.6、ブラウザでのアクセスhttp://hadoop102:8080 あなたのsparkクラスタHOME=/opt/module/jdk1.8.0_144はその後、問題を解決するために他のノードに配布される.
3、Spark StandaloneモードSpark History Serverの構成
spark.eventLog.enabled   true
spark.eventLog.dir       hdfs://hadoop102:9000/directory
spark.eventLog.compress  true

  3.2、コピーconfディレクトリの下のspark-env.sh.templateをspark-env.shに変更し、このファイルに以下の内容を追加します:spark-env.sh
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000
-Dspark.history.retainedApplications=3
-Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory"

 3.3、変更したファイルをクラスタの他のノード 3.4、起動/opt/module/spark-2.1.1-bin-hadoop 2.7/sbin/start-history-server.shに同期してhistory logのwebサービスを起動します.ログの表示には、実行中のアプリケーションに直接アクセスする2つの方法があります.http://hadoop102:4040 終了したアプリケーションへの直接アクセスhttp://hadoop102:4000 表示
4、Spark StandaloneのHAモード  4.1、spark-env.shファイル  1の修正、SPARK_の削除MASTER_IP(すなわちSPARK_MASTER_HOST)  2)は、以下の内容を追加する.
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hadoop102:2181,hadoop103:2181,hadoop104:2181
-Dspark.deploy.zookeeper.dir=/spark"

  3)、構成されたファイルを他のマシンノード  4.2に配布し、masterノードでsbin/start-all.shによりクラスタの起動を行い、ある他のslaveノードでsbin/start-master.shを手動で実行して第2のmasterプロセス 4.3を起動し、HAモードであれば、アクセスするサービスアドレスは–masterspark://hadoop102:7077,hadoop103:7077
5、Spark Yarnモードクラスタの構成
#   spark      hadoop      
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

  5.3、アプリケーションの提出
$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--class com.atguigu.sparkdemo.WordCountDemo \
--master yarn \
--deploy-mode client \
--executor-memory 1G \
--total-executor-cores 2 \
/opt/software/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://hadoop102:9000/RELEASE \
hdfs://hadoop102:9000/out

  

$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--class com.atguigu.sparkdemo.WordCountDemo \
--master yarn-client \
--executor-memory 1G \
--total-executor-cores 2 \
/opt/software/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://hadoop102:9000/RELEASE \
hdfs://hadoop102:9000/out
:yarnクラスタを使用する場合、master、slave構造を構成する必要はなく、jarパケットのclientコミット側を構成し、コミット側がhadoopのいくつかの構成を発見できるようにすればよい.
6、Sparkクラスタのアクセス   1)、SparkConfオブジェクトを作成してアプリケーション  2を設定する必要があり、SparkConfオブジェクトに基づいてSparkContextを作成する必要があります(SparkConextはあなたのプログラムとsparkクラスタを接続する橋渡しです).   3)、scにより外部からデータ   4)、データの処理   5)、結果データを外部   6)に書き出し、sc.stop()によりSparkContext 6.2を閉じ、デバッグアプリケーションはlocal[*]モードで行われる.  6.3、アプリケーションの提出:
$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--class com.atguigu.sparkdemo.WordCountDemo \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
/opt/software/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://hadoop102:9000/RELEASE \
hdfs://hadoop102:9000/out

--class            jar     
--master           jar       ,    :
    local               ,    ,    (local 1   、local[*]     、local[N] N   ,     ,N         CPU   )
    spark               spark stanalone   ,  Master   Worker   ,   container   jar           
    mesos             jar      mesos   ,    mesos          ,  mesos       ,Spark          
    yarn              jar      yarn   ,    yarn          ,  yarn       ,Spark          
    cloud              AWS   EC2,              Amazon   S3,Spark            ,   HDFS   S3
--deploy-mode      jar      (    client   ),    :
    client                 JVM                   ,      ,     ,      jar    (       )
    cluster                JVM     jar      ,         ,       worker        Driver   JVM,  JVM      jar       ,            (        )
application.jar      jar     
arguments          main()      

     $ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-shell    。
      master            ;     --master spark://hadoop102:7077        Spark Standalone     。

7、問題1、文書を読むときは、いくつかの構成を自分のものに変更する必要があります.  2、IDEAがプログラムを実行する場合、winuntil.exeはHADOOP_を追加する必要がありますHOME環境変数(IDEAは再起動が必要).  3、HDFSにアクセスする際の権限の問題、例えば:HADOOP_USER_NAME=hadoopは、プログラムを実行するときにhadoopユーザーで実行されます.参照リンク:https://www.cnblogs.com/chenmingjun/p/10746853.html
私のGitHubアドレス:https://github.com/heizemingjun 私のブログの住所:https://www.cnblogs.com/chenmingjun 私のCSDNアドレス:https://blog.csdn.net/u012990179 私のアリのノートのブログの住所:https://blog.leanote.com/chenmingjun Copyright ©2018~2019黒沢君【転載文章は必ず出典と署名を残して、ありがとうございます!】