hadoop 2.3クラスタまとめ
2週間近くの模索を経てhadoopクラスタが構築され、テスト性能も予想に合致した.
centos6.4下hadoop 2.3クラスタは以下のようにまとめられている.
環境の設定について:
1.selinuxを閉じる(何度も繰り返した)
vi/etc/selinux/config
2.ファイアウォールを閉じる
3.sshにパスワードなしログイン設定を開く
vi/etc/ssh/sshd_config
4.jdk環境変数の設定
よくある質問について: etc/hadoop/hdfs-site.xmlファイルのdfs.Replication各ノードは一貫性を保つ必要がある 小規模なクラスタに対して1を設定すれば実行効率が向上し、2部や3部を使う必要がなく、かえって性能に影響を及ぼす namenodeはdatanodeから 離れたほうがいい
管理ノードとして機能するため、ヘッダノードの効率が低下し、hadoop全体の稼働速度と安定性に直接影響します. hadoop2.3デフォルトのマシンハードウェアに対する要求は4コアと8 g である.
機械の性能に問題がない場合は、デフォルト値を使い、強制的に2コアまたは1コアを使用すると、かえって予想される効果が得られないことが望ましい. hadoopではクラスタ方式について,実際にはすべてのノード構成が同じであり,ノードを増やしたり減らしたりするにはetc/hadoop/slavesを構成すればよい.他のことは自分でやります.
hadoopの一般的なコマンドは次のとおりです.
./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter/export/home/hadoop/input1
実行結果は従来の擬似分布式の43分
クラスタ方式の3つのslaveを使用し、各slave 4コア8について、1つのコピーを使用して4.5分間実行した.
自分で構築したクラスタに対してvmware workstationを使用すれば十分で、exsiや他の仮想化ソフトウェアを使用する必要はありません.
centos6.4下hadoop 2.3クラスタは以下のようにまとめられている.
環境の設定について:
1.selinuxを閉じる(何度も繰り返した)
vi/etc/selinux/config
SELINUX=disabled
2.ファイアウォールを閉じる
service iptables status
service ip6tables status
service iptables stop
service ip6tables stop
chkconfig iptables off
chkconfig ip6tables off
3.sshにパスワードなしログイン設定を開く
vi/etc/ssh/sshd_config
RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile .ssh/authorized_keys
4.jdk環境変数の設定
export JAVA_HOME=/usr/local/jdk1.7.0_51
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
update-alternatives --install /usr/bin/java java /usr/local/jdk1.7.0_51/bin/java 60
update-alternatives --config java
よくある質問について:
管理ノードとして機能するため、ヘッダノードの効率が低下し、hadoop全体の稼働速度と安定性に直接影響します.
機械の性能に問題がない場合は、デフォルト値を使い、強制的に2コアまたは1コアを使用すると、かえって予想される効果が得られないことが望ましい.
hadoopの一般的なコマンドは次のとおりです.
./bin/hdfs dfsadmin -report
./bin/hadoop namenode -format
./bin/hdfs dfs -mkdir -p /export/home/hadoop
./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter /export/home/hadoop/input
./sbin/start-dfs.sh && ./sbin/start-yarn.sh
./sbin/stop-yarn.sh && ./sbin/stop-dfs.sh
./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter/export/home/hadoop/input1
実行結果は従来の擬似分布式の43分
クラスタ方式の3つのslaveを使用し、各slave 4コア8について、1つのコピーを使用して4.5分間実行した.
自分で構築したクラスタに対してvmware workstationを使用すれば十分で、exsiや他の仮想化ソフトウェアを使用する必要はありません.