ビッグデータ技術の_19_Spark学習_01_Spark基礎解析小結(画像なし)

5178 ワード

1、インストールパッケージの準備
2、Spark Standaloneすなわち独立モード 2.1、インストールパッケージをインストールしたディレクトリに解凍します. 2.2、confディレクトリの下のslavesファイルをコピーし、slaveノードのhostnameをファイルに1行ずつ書きます. 2.3、confディレクトリの下のspark-env.shファイルをコピーし、SPARK_MASTER_HOSTとSPARK_MASTER_PORT指定. 2.4、sparkインストールディレクトリを他のノードに配布します. 2.5、masterノード上で/opt/module/spark-2.1.1-bin-hadoop 2.7/sbin/start-all.shを実行してsparkクラスタ全体を起動します. 2.6、ブラウザでのアクセスhttp://hadoop102:8080 あなたのsparkクラスタHOME=/opt/module/jdk1.8.0_144はその後、問題を解決するために他のノードに配布される.
3、Spark StandaloneモードSpark History Serverの構成

spark.eventLog.enabled   true
spark.eventLog.dir       hdfs://hadoop102:9000/directory
spark.eventLog.compress  true

3.2、コピーconfディレクトリの下のspark-env.sh.templateをspark-env.shに変更し、このファイルに以下の内容を追加します:spark-env.sh

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000
-Dspark.history.retainedApplications=3
-Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory"

3.3、変更したファイルをクラスタの他のノード 3.4、起動/opt/module/spark-2.1.1-bin-hadoop 2.7/sbin/start-history-server.shに同期してhistory logのwebサービスを起動します.ログの表示には、実行中のアプリケーションに直接アクセスする2つの方法があります.http://hadoop102:4040 終了したアプリケーションへの直接アクセスhttp://hadoop102:4000 表示
4、Spark StandaloneのHAモード 4.1、spark-env.shファイル 1の修正、SPARK_の削除MASTER_IP(すなわちSPARK_MASTER_HOST) 2)は、以下の内容を追加する.

export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hadoop102:2181,hadoop103:2181,hadoop104:2181
-Dspark.deploy.zookeeper.dir=/spark"

3)、構成されたファイルを他のマシンノード 4.2に配布し、masterノードでsbin/start-all.shによりクラスタの起動を行い、ある他のslaveノードでsbin/start-master.shを手動で実行して第2のmasterプロセス 4.3を起動し、HAモードであれば、アクセスするサービスアドレスは–masterspark://hadoop102:7077,hadoop103:7077
5、Spark Yarnモードクラスタの構成

#   spark      hadoop      
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

5.3、アプリケーションの提出

$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--class com.atguigu.sparkdemo.WordCountDemo \
--master yarn \
--deploy-mode client \
--executor-memory 1G \
--total-executor-cores 2 \
/opt/software/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://hadoop102:9000/RELEASE \
hdfs://hadoop102:9000/out

  

$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--class com.atguigu.sparkdemo.WordCountDemo \
--master yarn-client \
--executor-memory 1G \
--total-executor-cores 2 \
/opt/software/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://hadoop102:9000/RELEASE \
hdfs://hadoop102:9000/out

:yarnクラスタを使用する場合、master、slave構造を構成する必要はなく、jarパケットのclientコミット側を構成し、コミット側がhadoopのいくつかの構成を発見できるようにすればよい.
6、Sparkクラスタのアクセス 1)、SparkConfオブジェクトを作成してアプリケーション 2を設定する必要があり、SparkConfオブジェクトに基づいてSparkContextを作成する必要があります(SparkConextはあなたのプログラムとsparkクラスタを接続する橋渡しです). 3)、scにより外部からデータ 4)、データの処理 5)、結果データを外部 6)に書き出し、sc.stop()によりSparkContext 6.2を閉じ、デバッグアプリケーションはlocal[*]モードで行われる. 6.3、アプリケーションの提出:

$ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \
--class com.atguigu.sparkdemo.WordCountDemo \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
/opt/software/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://hadoop102:9000/RELEASE \
hdfs://hadoop102:9000/out

--class            jar     
--master           jar       ，    ：
    local               ，    ，    （local 1   、local[*]     、local[N] N   ，     ，N         CPU   ）
    spark               spark stanalone   ，  Master   Worker   ，   container   jar           
    mesos             jar      mesos   ，    mesos          ，  mesos       ，Spark          
    yarn              jar      yarn   ，    yarn          ，  yarn       ，Spark          
    cloud              AWS   EC2，              Amazon   S3，Spark            ，   HDFS   S3
--deploy-mode      jar      （    client   ），    ：
    client                 JVM                   ，      ，     ，      jar    （       ）
    cluster                JVM     jar      ，         ，       worker        Driver   JVM，  JVM      jar       ，            （        ）
application.jar      jar     
arguments          main()      

     $ /opt/module/spark-2.1.1-bin-hadoop2.7/bin/spark-shell    。
      master            ；     --master spark://hadoop102:7077        Spark Standalone     。

7、問題1、文書を読むときは、いくつかの構成を自分のものに変更する必要があります. 2、IDEAがプログラムを実行する場合、winuntil.exeはHADOOP_を追加する必要がありますHOME環境変数(IDEAは再起動が必要). 3、HDFSにアクセスする際の権限の問題、例えば:HADOOP_USER_NAME=hadoopは、プログラムを実行するときにhadoopユーザーで実行されます.参照リンク:https://www.cnblogs.com/chenmingjun/p/10746853.html
私のGitHubアドレス:https://github.com/heizemingjun 私のブログの住所:https://www.cnblogs.com/chenmingjun 私のCSDNアドレス:https://blog.csdn.net/u012990179 私のアリのノートのブログの住所:https://blog.leanote.com/chenmingjun Copyright ©2018~2019黒沢君【転載文章は必ず出典と署名を残して、ありがとうございます!】

Source Insight使用

Keychainを使用してiOSのUDID問題を解決