仮想マシンインストールspark 2.2+hadoop 2.7.3

6265 ワード

VisualBoxとOSのインストール
  • 公式サイトはVisualBoxインストールファイルをダウンロードしてインストールします.
  • ubuntu公式サイトは最新バージョンのubuntuインストールファイルをダウンロードします.
  • visualBoxは64ビットubuntuを新規作成し、仮想マシンを起動します.
  • ヒントに従ってubuntuインストールファイルを選択すると、システムをスムーズにインストールできます.

  • 一般的にパソコン内には8 g以下が存在するので、3台の仮想マシンを装着すると、1台あたり最大1.5 gのメモリがあり、多くなってもマシンが動かないため、ネット上の多くのドキュメントに従って、nodemanagerの起動に失敗した問題が発生したと装って、こちらの文章は主にこの問題の解決過程を記録したいと思っています.
    ubuntuインフラストラクチャ
  • ubuntu環境構築
  • ネイティブネットワーク環境は常に変化する可能性があるため、デフォルトのNICに静的アドレスを設定するとインターネットが利用できないため、スタンドアロン仮想マシンのインストールではvitrual boxのような第2のNICを使用することができます.例えば、vitrulal boxでは、グローバルネットワークにホストのみ(Host-only)ネットワークを新規作成し、第2のNICをこのようなネットワークに設定してから静的アドレスに変更することができます.そしてhadoopは静的アドレスを使用し,ネットワーク環境の変化を恐れない.
  • #              ,      ,   
    sudo ifconfig {eth1}(   ) up
    sudo dhclient
    
    #       
    sudo vim /etc/network/interfaces
    
    auto enp0s8
    iface enp0s8 inet static
    address 192.168.56.101
    netmask 255.255.255.0
    gateway 192.168.56.100
    
    #          
    sudo /etc/init.d/networking restart
  • 仮想マシン3台のhosts構成を修正し、まずmasterマシン
  • を修正する.
    vim /etc/hosts
    
    127.0.0.1   localhost
    192.168.56.101  master-hadoop
    192.168.56.102    slave1-hadoop
    192.168.56.103    slave2-hadoop
    
    #            
    scp /etc/hosts root@slave1-hadoop:/etc/hosts
    scp /etc/hosts root@slave2-hadoop:/etc/hosts

    hadoopインストール
  • hadoopインストール構成フルフロー
  • 上の構成ではyarn-site.xmlの構成が少なくなり、nodemanagerの起動に失敗します.デフォルトの構成では仮想マシンのメモリが不足しているためです.この構成ではyarnクラスタ構成
  • 正常に動作しているかどうかを確認(2)ブラウザが開いているhttp://192.168.0.182:8088/ (3)ブラウザが開くhttp://192.168.0.182:50070/
  • テスト実行mapreduce
  • ./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 4 1000

    义齿
  • 直接ダウンロード公式サイトプリコンパイルバージョン公式サイトプリコンパイルバージョン
  • プロファイルspark-env.sh
  • を変更
    sudo echo "export SPARK_HOME=/usr/local/spark" >> /etc/profile
    cd $SPARK_HOME/conf
    cp spark-env.sh.template spark-env.sh
    
    echo "export JAVA_HOME=/usr/local/lib/java/jdk" >> spark-env.sh
    echo "export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop" >> spark-env.sh
  • spark-defaults.confのメモリ設定を変更する
  • cd $SPARK_HOME/conf
    cp spark-defaults.conf.template spark-defaults.conf
    echo "spark.driver.memory 512m" >> spark-defaults.conf
    echo "spark.executor.memory 512m" >> spark-defaults.conf
  • saprk
  • を起動
    cd $SPARK_HOME/sbin
    ./start-all.sh
  • テスト実行spark superPI、spark masterデフォルトポート7077
  • spark-submit --driver-memory 512m --executor-memory 512m --executor-cores 1 --class org.apache.spark.examples.SparkPi --master spark://master-hadoop:7077 /usr/local/spark/examples/jars/spark-examples*.jar 10

    遭遇する可能性のある穴
  • nodemanagerが起動せず、hadoopを実行する公式例とspark再yarnが実行されるとjob acceptが動かなくなった.仮想マシンのメモリが足りないため、デフォルトyarnのnodemanagerが設定した8 gのメモリが起動し、1 g小雨が降ってはいけません.そうしないと起動できません.