Sparkシリーズ記事(二):Spark擬似分散インストール


Sparkシリーズ記事(二):Spark擬似分散インストール
作者:studytime
原文:https://www.studytime.xin/
Sparkインストールパッケージのダウンロード
公式サイトhttp://spark.apache.org/downloads.html
Spark系列文章(二):Spark伪分布式安装_第1张图片
インストール前の準備
  • Java 8インストール
  • hadoop2.7.5
  • がインストールされている
    Hadoopプロファイルの変更
    修正するxml構成
    vim ~/App/hadoop-2.7.3/etc/hadoop/yarn-site.xml
    
    
        yarn.log-aggregation-enable 
        true 
     
     
        yarn.log.server.url 
        http://bigdata:19888/jobhistory/logs 
     
     
        yarn.nodemanager.pmem-check-enabled 
        false 
     
     
        yarn.nodemanager.vmem-check-enabled 
        false
    

    yarnサービスの再起動
    stop-yarn.sh 
    start-yarn.sh

    MapReduce History Serverの起動
    sbin/mr-jobhistory-daemon.sh start historyserver

    ブラウザでMapReduce history serverアドレスを開く
    http://bigdata:19888
    Sparkインストール、構成
  • 解凍spark-2.1.0-bin-hadoop2.7.tgz
  • tar -zxvf spark-2.1.1-bin-hadoop2.7.tar -C ~/App
  • confプロファイルディレクトリに入りspark-envを変更する.sh
  • cd ~/App/spark-2.1.1-bin-hadoop2.7/conf
    cp spark-env.sh.template spark-env.sh
    vim spark-env.sh
    
    export HADOOP_CONF_DIR=~/App/hadoop-2.7.3/etc/hadoop
    export HIVE_CONF_DIR=~/App/apache-hive-2.1.1-bin/conf
    export SPARK_DIST_CLASSPATH=$(~/App/hadoop-2.7.3/bin/hadoop classpath)
  • confプロファイルディレクトリに入りspark-defaultsを変更する.conf
  • cp spark-defaults.conf.template spark-defaults.conf
    vim spark-defaults.conf
    
    spark.master=local
    spark.yarn.historyServer.address=bigdata:18080
    spark.history.ui.port=18080
    spark.eventLog.enabled=true
    spark.eventLog.dir=hdfs:///tmp/spark/events
    spark.history.fs.logDirectory=hdfs:///tmp/spark/events
  • hdfs上にディレクトリ/tmp/spark/events
  • を作成する
    hadoop fs –mkdir –p /tmp/spark/events

    環境変数の設定
    vim ~/.bash_profile
    
    export SPARK_HOME=/Users/baihe/App/spark-2.1.1-bin-hadoop2.7
    export PATH=$SPARK_HOME/bin:$PATH
    
    source ~/.bash_profile

    開始
  • Hdfs start-dfs.sh
  • を起動する
  • Spark ~/App/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh
  • を起動する
  • Spark History Server ~/App/spark-2.1.1-bin-hadoop2.7/sbin/start-history-server.sh
  • を起動
    プロセスの表示
    ➜  spark-2.1.1-bin-hadoop2.7 jps
    9008 NameNode
    9185 SecondaryNameNode
    10484 HistoryServer
    10215 Master
    10281 Worker
    5514
    10506 Jps
    9323 ResourceManager
    9407 NodeManager

    Spark系列文章(二):Spark伪分布式安装_第2张图片
    Webインタフェースの表示
    http://bigdata:8080/
    Spark系列文章(二):Spark伪分布式安装_第3张图片
    spark history server
    Spark系列文章(二):Spark伪分布式安装_第4张图片