hadoop 2.3クラスタまとめ


2週間近くの模索を経てhadoopクラスタが構築され、テスト性能も予想に合致した.
centos6.4下hadoop 2.3クラスタは以下のようにまとめられている.
環境の設定について:
             1.selinuxを閉じる(何度も繰り返した)
               vi/etc/selinux/config
 
SELINUX=disabled

 
 
             2.ファイアウォールを閉じる
service iptables status
service ip6tables status
service iptables stop
service ip6tables stop
chkconfig iptables off
chkconfig ip6tables off

 
 
             3.sshにパスワードなしログイン設定を開く
                vi/etc/ssh/sshd_config
 
RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile      .ssh/authorized_keys

 
 
             4.jdk環境変数の設定
export JAVA_HOME=/usr/local/jdk1.7.0_51
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

update-alternatives --install /usr/bin/java java /usr/local/jdk1.7.0_51/bin/java 60
update-alternatives --config java

よくある質問について:
  •    etc/hadoop/hdfs-site.xmlファイルのdfs.Replication各ノードは一貫性を保つ必要がある
  • 小規模なクラスタに対して1を設定すれば実行効率が向上し、2部や3部を使う必要がなく、かえって性能に影響を及ぼす
  • namenodeはdatanodeから
  • 離れたほうがいい
    管理ノードとして機能するため、ヘッダノードの効率が低下し、hadoop全体の稼働速度と安定性に直接影響します.
  •     hadoop2.3デフォルトのマシンハードウェアに対する要求は4コアと8 g
  • である.
    機械の性能に問題がない場合は、デフォルト値を使い、強制的に2コアまたは1コアを使用すると、かえって予想される効果が得られないことが望ましい.
  • hadoopではクラスタ方式について,実際にはすべてのノード構成が同じであり,ノードを増やしたり減らしたりするにはetc/hadoop/slavesを構成すればよい.他のことは自分でやります.

  • hadoopの一般的なコマンドは次のとおりです.
     
    ./bin/hdfs dfsadmin -report
    
    ./bin/hadoop namenode -format
    
    ./bin/hdfs dfs -mkdir -p /export/home/hadoop  
    
    ./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter /export/home/hadoop/input
    
    ./sbin/start-dfs.sh &&  ./sbin/start-yarn.sh 
    
    ./sbin/stop-yarn.sh && ./sbin/stop-dfs.sh

     
     
    ./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter/export/home/hadoop/input1
    実行結果は従来の擬似分布式の43分
    クラスタ方式の3つのslaveを使用し、各slave 4コア8について、1つのコピーを使用して4.5分間実行した.
     
    自分で構築したクラスタに対してvmware workstationを使用すれば十分で、exsiや他の仮想化ソフトウェアを使用する必要はありません.