仮想マシンインストールspark 2.2+hadoop 2.7.3

6265 ワード

大データ入門

VisualBoxとOSのインストール

公式サイトはVisualBoxインストールファイルをダウンロードしてインストールします.

ubuntu公式サイトは最新バージョンのubuntuインストールファイルをダウンロードします.

visualBoxは64ビットubuntuを新規作成し、仮想マシンを起動します.

ヒントに従ってubuntuインストールファイルを選択すると、システムをスムーズにインストールできます.

一般的にパソコン内には8 g以下が存在するので、3台の仮想マシンを装着すると、1台あたり最大1.5 gのメモリがあり、多くなってもマシンが動かないため、ネット上の多くのドキュメントに従って、nodemanagerの起動に失敗した問題が発生したと装って、こちらの文章は主にこの問題の解決過程を記録したいと思っています.
ubuntuインフラストラクチャ

ubuntu環境構築

ネイティブネットワーク環境は常に変化する可能性があるため、デフォルトのNICに静的アドレスを設定するとインターネットが利用できないため、スタンドアロン仮想マシンのインストールではvitrual boxのような第2のNICを使用することができます.例えば、vitrulal boxでは、グローバルネットワークにホストのみ(Host-only)ネットワークを新規作成し、第2のNICをこのようなネットワークに設定してから静的アドレスに変更することができます.そしてhadoopは静的アドレスを使用し,ネットワーク環境の変化を恐れない.

#              ，      ，   
sudo ifconfig {eth1}(   ) up
sudo dhclient

#       
sudo vim /etc/network/interfaces

auto enp0s8
iface enp0s8 inet static
address 192.168.56.101
netmask 255.255.255.0
gateway 192.168.56.100

#          
sudo /etc/init.d/networking restart

仮想マシン3台のhosts構成を修正し、まずmasterマシン

を修正する.

vim /etc/hosts

127.0.0.1   localhost
192.168.56.101  master-hadoop
192.168.56.102    slave1-hadoop
192.168.56.103    slave2-hadoop

#            
scp /etc/hosts root@slave1-hadoop:/etc/hosts
scp /etc/hosts root@slave2-hadoop:/etc/hosts

hadoopインストール

hadoopインストール構成フルフロー

上の構成ではyarn-site.xmlの構成が少なくなり、nodemanagerの起動に失敗します.デフォルトの構成では仮想マシンのメモリが不足しているためです.この構成ではyarnクラスタ構成

正常に動作しているかどうかを確認(2)ブラウザが開いているhttp://192.168.0.182:8088/ (3)ブラウザが開くhttp://192.168.0.182:50070/

テスト実行mapreduce

./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 4 1000

义齿

直接ダウンロード公式サイトプリコンパイルバージョン公式サイトプリコンパイルバージョン

プロファイルspark-env.sh

を変更

sudo echo "export SPARK_HOME=/usr/local/spark" >> /etc/profile
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh

echo "export JAVA_HOME=/usr/local/lib/java/jdk" >> spark-env.sh
echo "export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop" >> spark-env.sh

spark-defaults.confのメモリ設定を変更する

cd $SPARK_HOME/conf
cp spark-defaults.conf.template spark-defaults.conf
echo "spark.driver.memory 512m" >> spark-defaults.conf
echo "spark.executor.memory 512m" >> spark-defaults.conf

saprk

を起動

cd $SPARK_HOME/sbin
./start-all.sh

テスト実行spark superPI、spark masterデフォルトポート7077

spark-submit --driver-memory 512m --executor-memory 512m --executor-cores 1 --class org.apache.spark.examples.SparkPi --master spark://master-hadoop:7077 /usr/local/spark/examples/jars/spark-examples*.jar 10

遭遇する可能性のある穴

nodemanagerが起動せず、hadoopを実行する公式例とspark再yarnが実行されるとjob acceptが動かなくなった.仮想マシンのメモリが足りないため、デフォルトyarnのnodemanagerが設定した8 gのメモリが起動し、1 g小雨が降ってはいけません.そうしないと起動できません.

RXTXシリアル通信javaコード実装

snmp(単純ネットワーク管理プロトコル)におけるprocコードの解析.