HadoopでWordCountをやってみる

2826 ワード

hadoop hive Apache Apache テキストリンク

概要

Hadoopを使ってWordCountを実行してみます。
同じ単語が何回出現したかを数えます。

環境

CentOS 7.1
Hadoop 2.8.0
MariaDB 5.5.52
java 1.8.0
Hive 2.3.0
HBase 1.3.1

テキストファイルを用意する

以下のようなテキストファイルを作成します。
こちらの文字列を対象としてWordCountを実行します。

sample.txt

red blue yellow red

ファイルの保存先（HDFS）となるディレクトリを作成します。

$ $HADOOP_HOME/bin/hadoop fs -mkdir /input

テキストファイルを、/inputの下にコピーします。

$ $HADOOP_HOME/bin/hadoop fs -put sample.txt /input

コピーされたことを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /input
Found 1 items
-rw-r--r--   1 vagrant supergroup         20 2017-07-28 05:38 /input/sample.txt
$ $HADOOP_HOME/bin/hadoop fs -cat /input/sample.txt
red blue yellow red

WordCountを実行する

実行

$ $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar wordcount /input /output

ファイルが生成されたことをを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /output
Found 2 items
-rw-r--r--   1 vagrant supergroup          0 2017-07-28 05:47 /output/_SUCCESS
-rw-r--r--   1 vagrant supergroup         22 2017-07-28 05:47 /output/part-r-00000

/output/part-r-00000が結果が出力されたファイルです。

$ $HADOOP_HOME/bin/hadoop fs -cat /output/part-r-00000
blue    1
red 2
yellow  1

それぞれのwordが何回出現したのか、結果が出力されています。

以上

参考

CentOSでHadoopとHiveを試してみる（2015年秋編）

Author And Source

この問題について(HadoopでWordCountをやってみる), 我々は、より多くの情報をここで見つけました https://qiita.com/Esfahan/items/bdd254dccf29da22cc7c

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

ANDROID+PHPインタラクション

php一意の受注番号の生成

HadoopでWordCountをやってみる

概要

目次

環境

テキストファイルを用意する

WordCountを実行する

参考

Author And Source