LinuxでのHadoop分散クラスタの構築
【ネットワーク接続の設定】
まず,仮想マシンNAT方式(IPアドレスの自動割り当て)を設定して外部ネットワークに接続する.
更新元の操作を行います(具体的な操作は以下を参照してください:http://blog.csdn.net/arnold_lee_yc/article/details/74846263)
【Mysqlのインストール】
インストールに成功したことを確認
【jarパッケージ格納ディレクトリの作成】
【jdk hadoopアップロード】
【ディレクトリの下にフォルダを作成する】
【mysoftwareの所属を変更する】
【mysoftwareに入りjdk、hadoopを解凍する】
【環境変数の構成】
【仮想マシンを再起動してインストールに成功したかどうかを確認する】
【ipアドレスを静的ipに変更】
【ホストスレーブipアドレスマッピングの構成】
【sshの初期化(パスワードなしでのログインが容易)】
【構成情報の追加】
【クローンホスト】
各クローンにアクセスしてIPアドレスとホスト名を変更
【ハドop起動】
1回目の起動時にフォーマット操作を実行します(1回目の使用時にのみ実行され、もうフォーマットは使用されません).
Javaプロセスを表示してhadoopが正常に起動したかどうかを確認します
ノードからdatanodeが表示されるかどうかを確認します
代表が現れて、hdfsは正常に起動して、さもなくば、失敗を表して、ログに戻って原因を見ます
【ハドopを閉じる】
【仮想マシンのシャットダウン】
まず,仮想マシンNAT方式(IPアドレスの自動割り当て)を設定して外部ネットワークに接続する.
更新元の操作を行います(具体的な操作は以下を参照してください:http://blog.csdn.net/arnold_lee_yc/article/details/74846263)
【Mysqlのインストール】
sudo apt install mysql-server
インストールに成功したことを確認
mysql -uroot -pa
show databases;
exit
【jarパッケージ格納ディレクトリの作成】
mkdir software
cd ~/software
【jdk hadoopアップロード】
rz
【ディレクトリの下にフォルダを作成する】
sudo mkdir mysoftware
【mysoftwareの所属を変更する】
sudo chown -R hadoop:hadoop mysoftware
【mysoftwareに入りjdk、hadoopを解凍する】
cd mysoftware
tar -zxvf ~/software/jdk-8u101-linux-x64.tar.gz
tar -zxvf ~/software/hadoop-2.7.3.tar.gz
【環境変数の構成】
vim ~/.profile
:
export JAVA_HOME=/mysoftware/jdk1.8.0_101
export HADOOP_HOME=/mysoftware/hadoop-2.7.3
export PATH="$JAVA_HOME/bin:$HADOOP_HOME/bin:$HOME/bin:$HOME/.local/bin:$PATH"
【仮想マシンを再起動してインストールに成功したかどうかを確認する】
sudo reboot
javac -version
java -version
hadoop version
【NAT接続方式を変更し、アドレスを自動的に割り当てない】(これにより、異なる環境で開発した場合、ipアドレスを変更する必要がなくなります)【ipアドレスを静的ipに変更】
sudo vim /etc/network/interfaces
【ホストスレーブipアドレスマッピングの構成】
sudo vim /etc/hosts
【sshの初期化(パスワードなしでのログインが容易)】
rm -rf .ssh
ssh-keygen -t rsa -P ""
cat id_rsa.pub >> authorized_keys
【構成情報の追加】
cd /mysoftware/hadoop-2.7.3/etc/hadoop/
vim hadoop-env.sh
:
export JAVA_HOME=/mysoftware/jdk1.8.0_101
vim core-site.xml
:
fs.default.name
hdfs://master:9000
hadoop.tmp.dir
file:/mysoftware/hadoop-2.7.3/tmp
vim hdfs-site.xml
:
dfs.replication
3
dfs.namenode.name.dir
file:/mysoftware/hadoop-2.7.3/dfs/name
dfs.datanode.data.dir
file:/mysoftware/hadoop-2.7.3/dfs/data
dfs.permissions
false
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
:
mapreduce.framework.name
yarn
vim yarn-site.xml
:
yarn.resourcemanager.hostname
master
yarn.nodemanager.aux-services
mapreduce_shuffle
vi slaves
:
slave01
slave02
slave03
【クローンホスト】
各クローンにアクセスしてIPアドレスとホスト名を変更
sudo vim /etc/network/interface IPv4 ( VMnet8 )
sudo vim /etc/hostname slave01 slave02 slave03
【ハドop起動】
1回目の起動時にフォーマット操作を実行します(1回目の使用時にのみ実行され、もうフォーマットは使用されません).
hdfs namenode -format
hadoop分散ストレージシステムの起動cd /mysoftware/hadoop-2.7.3
sbin/start-yarn.sh
Javaプロセスを表示してhadoopが正常に起動したかどうかを確認します
jps
プライマリノードにnamenodeが表示されるかどうかを確認します.secondarynamenodeノードからdatanodeが表示されるかどうかを確認します
代表が現れて、hdfsは正常に起動して、さもなくば、失敗を表して、ログに戻って原因を見ます
less logs/hadoop-hadoop-namenode-master.log namenode-master
ローカルファイルをhdfsにアップロードcd ~/data
hdfs dfs -put *.txt / data .txt hdfs
クラスタリソース管理を開始sbin/start-yarn.sh
mapreduceのjarパケットを呼び出して演算するcd /mysoftware/hadoop-2.7.3/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /*.txt /out
hdfs dfs -cat /out/*
【ハドopを閉じる】
cd /mysoftware/hadoop-2.7.3
sbin/stop-yarn.sh
sbin/stop-dfs.sh hdfs
【仮想マシンのシャットダウン】
sudo shutdown -h now