HadoopでWordCountをやってみる


概要

Hadoopを使ってWordCountを実行してみます。
同じ単語が何回出現したかを数えます。

目次

  1. Apache Hadoopのインストール手順
  2. Apache Hiveのインストール手順
  3. HadoopでWordCountをやってみる

環境

  • CentOS 7.1
  • Hadoop 2.8.0
  • MariaDB 5.5.52
  • java 1.8.0
  • Hive 2.3.0
  • HBase 1.3.1

テキストファイルを用意する

以下のようなテキストファイルを作成します。
こちらの文字列を対象としてWordCountを実行します。

sample.txt
red blue yellow red

ファイルの保存先(HDFS)となるディレクトリを作成します。

$ $HADOOP_HOME/bin/hadoop fs -mkdir /input

テキストファイルを、/inputの下にコピーします。

$ $HADOOP_HOME/bin/hadoop fs -put sample.txt /input

コピーされたことを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /input
Found 1 items
-rw-r--r--   1 vagrant supergroup         20 2017-07-28 05:38 /input/sample.txt
$ $HADOOP_HOME/bin/hadoop fs -cat /input/sample.txt
red blue yellow red

WordCountを実行する

実行

$ $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar wordcount /input /output

ファイルが生成されたことをを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /output
Found 2 items
-rw-r--r--   1 vagrant supergroup          0 2017-07-28 05:47 /output/_SUCCESS
-rw-r--r--   1 vagrant supergroup         22 2017-07-28 05:47 /output/part-r-00000

/output/part-r-00000が結果が出力されたファイルです。

$ $HADOOP_HOME/bin/hadoop fs -cat /output/part-r-00000
blue    1
red 2
yellow  1

それぞれのwordが何回出現したのか、結果が出力されています。

以上

参考