LinuxでのHadoop分散クラスタの構築

5483 ワード

【ネットワーク接続の設定】
まず,仮想マシンNAT方式(IPアドレスの自動割り当て)を設定して外部ネットワークに接続する.
更新元の操作を行います(具体的な操作は以下を参照してください:http://blog.csdn.net/arnold_lee_yc/article/details/74846263)
【Mysqlのインストール】
sudo apt install mysql-server

インストールに成功したことを確認
mysql -uroot -pa
show databases;
exit

【jarパッケージ格納ディレクトリの作成】
mkdir software
cd ~/software

【jdk hadoopアップロード】
rz

【ディレクトリの下にフォルダを作成する】
sudo mkdir mysoftware

【mysoftwareの所属を変更する】
sudo chown -R hadoop:hadoop mysoftware

【mysoftwareに入りjdk、hadoopを解凍する】
cd mysoftware
tar -zxvf ~/software/jdk-8u101-linux-x64.tar.gz
tar -zxvf ~/software/hadoop-2.7.3.tar.gz

【環境変数の構成】
vim ~/.profile
      :
export JAVA_HOME=/mysoftware/jdk1.8.0_101
export HADOOP_HOME=/mysoftware/hadoop-2.7.3
export PATH="$JAVA_HOME/bin:$HADOOP_HOME/bin:$HOME/bin:$HOME/.local/bin:$PATH"

【仮想マシンを再起動してインストールに成功したかどうかを確認する】
sudo reboot
javac -version
java -version
hadoop version
【NAT接続方式を変更し、アドレスを自動的に割り当てない】(これにより、異なる環境で開発した場合、ipアドレスを変更する必要がなくなります)
在Linux下搭建Hadoop分布式集群_第1张图片
【ipアドレスを静的ipに変更】
sudo vim /etc/network/interfaces

在Linux下搭建Hadoop分布式集群_第2张图片
【ホストスレーブipアドレスマッピングの構成】
sudo vim /etc/hosts

在Linux下搭建Hadoop分布式集群_第3张图片
【sshの初期化(パスワードなしでのログインが容易)】
rm -rf .ssh
ssh-keygen -t rsa -P ""
cat id_rsa.pub >> authorized_keys

【構成情報の追加】
cd /mysoftware/hadoop-2.7.3/etc/hadoop/
vim hadoop-env.sh
      :
export JAVA_HOME=/mysoftware/jdk1.8.0_101

vim core-site.xml
      :

   
  
     fs.default.name
     hdfs://master:9000
  

   
  
     hadoop.tmp.dir
     file:/mysoftware/hadoop-2.7.3/tmp
  


vim hdfs-site.xml
      :

     
   
     dfs.replication
     3
   

     
   
     dfs.namenode.name.dir
     file:/mysoftware/hadoop-2.7.3/dfs/name
   

     
   
     dfs.datanode.data.dir
     file:/mysoftware/hadoop-2.7.3/dfs/data
   

     
   
     dfs.permissions
     false
   


cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
      :

     
   
     mapreduce.framework.name
     yarn
   


vim yarn-site.xml
      :

     
   
     yarn.resourcemanager.hostname
     master
   

     
   
     yarn.nodemanager.aux-services
     mapreduce_shuffle
   


vi slaves
      :
slave01
slave02
slave03

【クローンホスト】
各クローンにアクセスしてIPアドレスとホスト名を変更
sudo vim /etc/network/interface			  IPv4          (    VMnet8     )
sudo vim /etc/hostname                              slave01  slave02  slave03 

【ハドop起動】
1回目の起動時にフォーマット操作を実行します(1回目の使用時にのみ実行され、もうフォーマットは使用されません).
hdfs namenode -format
hadoop分散ストレージシステムの起動
cd /mysoftware/hadoop-2.7.3
sbin/start-yarn.sh

Javaプロセスを表示してhadoopが正常に起動したかどうかを確認します
jps
プライマリノードにnamenodeが表示されるかどうかを確認します.secondarynamenode
ノードからdatanodeが表示されるかどうかを確認します
代表が現れて、hdfsは正常に起動して、さもなくば、失敗を表して、ログに戻って原因を見ます
less logs/hadoop-hadoop-namenode-master.log      namenode-master   
ローカルファイルをhdfsにアップロード
cd ~/data
hdfs dfs -put *.txt /         data      .txt     hdfs     
クラスタリソース管理を開始
sbin/start-yarn.sh
mapreduceのjarパケットを呼び出して演算する
cd /mysoftware/hadoop-2.7.3/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /*.txt /out          
hdfs dfs -cat /out/*           

【ハドopを閉じる】
cd /mysoftware/hadoop-2.7.3
sbin/stop-yarn.sh              
sbin/stop-dfs.sh         hdfs       

【仮想マシンのシャットダウン】
sudo shutdown -h now