CDH5をUbuntuにインストール その2(MRv1 SingleNode 編)


1.前回

前回で環境を一旦作成したので
http://qiita.com/yuki_saito_/items/36e80def1a4b0b0d4c71

続きを実施していこうと思う。今回はjava(1.8.0_91. 2016/6/101時点の最新)のインストールと、CDH5 MRv1のインストール、virtualboxのスナップショットを取得するまで。

本家
http://www.cloudera.com/documentation/enterprise/5-4-x/topics/installation.html

2.手順

2.1 javaのインストール

sudo apt-get install oracle-java8-installer

java -versionでインストールを確認

2.2 CDH5のインストール

2.2.1 パッケージの取得

wget https://archive.cloudera.com/cdh5/one-click-install/trusty/amd64/cdh5-repository_1.0_all.deb

2.2.2 リポジトリに登録

curl -s https://archive.cloudera.com/cdh5/ubuntu/lucid/amd64/cdh/archive.key | sudo apt-key add -

2.2.3 リポジトリのアップデート & インストール

sudo apt-get update 
sudo apt-get install hadoop-0.20-conf-pseudo

2.2.4 ちょいと確認

dpkg -L hadoop-0.20-conf-pseudo

パッケージの一覧が出てくればOK

2.2.5 HDFSのフォーマットと開始&初期化

sudo -u hdfs hdfs namenode -format
#HDFS開始
for x in `cd /etc/init.d ; ls hadoop-hdfs-*` ; do sudo service $x start ; done
#初期化
sudo /usr/lib/hadoop/libexec/init-hdfs.sh

2.2.6 MRの開始

for x in `cd /etc/init.d ; ls hadoop-0.20-mapreduce-*` ; do sudo service $x start ; done

Jobを司るMRを開始する

2.2.7 MR用のユーザディレクトリの作成

sudo -u hdfs hadoop fs -mkdir -p /user/test
sudo -u hdfs hadoop fs -chown test /user/test

2.2.8 HDFS用のユーザ作成

sudo -u hdfs hadoop fs -mkdir -p /user/test2
sudo -u hdfs hadoop fs -chown test2 /user/test2

2.2.9 入力データの作成

hadoop fs -mkdir input
touch test.log
echo "BE a Human . BE a Cool Bee Boon" > test.log
hadoop fs -put test.log input
※ hadoop fs -ls inputでファイルの一覧が見れます

2.2.10 実行

/usr/bin/hadoop jar /usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jar wordcount input output

※再度実行するときは、output内のファイルを削除してからもしくはoutputフォルダを変更してから出ないとエラーになる。

2.2.11 確認

hadoop fs -ls output

上記コマンドで見ると「part-00000」とかいうファイルがあるので以下のコマンドで参照
hadoop fs -cat output/part-00000
そうすると、単語の数と単語が対になって表示される

ちなみに/etc/hadoopがホーム

2.3 インストールを終わって

インストールはかなり簡単に完了。次はYARNあたりを攻めたい。
今回はこの状態のスナップショットをVirtualBoxで取得して終了。