Hadoop学習ノート(一)Hadoopのシングルノードインストール

3628 ワード

Hadoop分散ファイルシステムを深く学ぶには、まずHadoopの実験環境を構築する必要があります.Hadoopには、単一ノードクラスタモードインストール(擬似分散とも呼ばれます)と完全分散モードインストールの2つのインストールモードがあります.このセクションでは、単一ノードモードのインストールについて説明します.公式ドキュメントを参照してください.
http://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-common/SingleCluster.html
HadoopはLinux/Unixプラットフォームで実行されているため、読者がWindowsオペレーティングシステムを使用している場合は、仮想マシンにLinux実行環境を構築する必要があります.現在主流の仮想マシン製品はvmwareとvitualBoxがあり、Linuxのリリース版は個人の好みに応じて自分で選択することができます.筆者が使用しているのはvmwareとubuntuシステムです.
Hadoopシングルノードのインストール環境を構築するには、次の手順に従います.
一.JDKをインストールし、Ubuntuシステムではapt-getツールを使用してインストールできます.

sudo apt-get install openjdk-7-jdk

デフォルトのインストールパスは/usr/lib/jvm/java-7-openjdk-i 386です.
二.Hadoopパッケージを取得し、アドレスをダウンロードします.http://hadoop.apache.org/releases.html
筆者が選んだバージョンは2.7.1で、ダウンロード後は任意のディレクトリに解凍した.hadoopのディレクトリ構造も簡単で、下図のように:

binディレクトリの下に最も基本的な管理スクリプトと使用スクリプトを保存し、ユーザーはこれらのスクリプトを使用してHadoopを管理し、使用することができる.
etcディレクトリにはhadoopのすべてのプロファイルが格納されています.これにはcore-siteが含まれています.xml、hdfs-site.xml等
includeは、プログラミングのためのc++のヘッダファイルを提供し、c++プログラムがHDFSにアクセスしたり、MRプログラムを記述したりするために使用される.
libは外部に提供される静的ライブラリと動的ライブラリファイルであり、includeディレクトリの下のヘッダファイルと組み合わせて使用されます.
libexecは、各サービスに対応するshellプロファイルが存在するディレクトリであり、ログ出力ディレクトリの構成、JVMパラメータなどの起動パラメータなどの基本情報に使用できます.
sbinはhadoop管理スクリプトのディレクトリであり、主にHDFSとYARNにおける各種サービスの起動/閉鎖スクリプトを含む.
shareは各モジュールにコンパイルされたjarパッケージのディレクトリです
三.Hadoop構成の変更
1.hadoop解凍ディレクトリのetc/hadoop/hadoop-envを修正する.shファイル

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386

2.etc/hadoop/core-siteを変更します.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

3.etc/hadoop/hdfs-siteを変更します.xmlファイル

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

四.Hadoop分散ファイルシステムのインストール
1.フォーマットファイルシステム:

bin/hdfs namenode -format

2.NameNodeプロセスとDateNodeプロセスの開始

sbin/start-dfs.sh

3.hadoopプロセスが正常に起動しているかどうかを確認します

ps -ef|grep hadoop

3.WebブラウザでNameNodeのWebインタフェースにアクセスします.デフォルトのアドレスは次のとおりです.http://localhost:50070/

上図に示すインタフェースが表示された場合、hadoopの起動に成功しました.
4.HDFSディレクトリを作成し、MapReduceタスクを実行する:

  $ bin/hdfs dfs -mkdir /user
  $ bin/hdfs dfs -mkdir /user/<username>

5.分散ファイルシステムにファイルをコピーするには、次の手順に従います.

  $ bin/hdfs dfs -put etc/hadoop input

6.hadoopが提供するケースプログラムを実行します.

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'

7.hadoopプロセスを閉じるには、次の手順に従います.

$ sbin/stop-dfs.sh

pythonにおけるマトリクスと配列

Linuxで無線デバイスを無効にする