Hadoopシリーズ(四)——Hadoop開発環境構築

4184 ワード

hadoop

一、前置条件
Hadoopの動作はJDKに依存しており、事前にインストールする必要があります.インストール手順は以下の通りです.

LinuxでのJDKのインストール

二、無密登録の配置
Hadoopコンポーネント間ではSSHに基づく通信が必要である.
2.1マッピングの構成
IPアドレスとホスト名のマッピングを構成するには、次の手順に従います.

vim /etc/hosts
#       
192.168.43.202  hadoop001

2.2公開秘密鍵の生成
次のコマンドラインを実行して、スプーンとスプーンを生成します.

ssh-keygen -t rsa

3.3授権~/.sshのディレクトリに入り、生成されたスプーンとスプーンを確認し、スプーンをライセンスファイルに書き込みます.

[root@@hadoop001 sbin]#  cd ~/.ssh
[root@@hadoop001 .ssh]# ll
-rw-------. 1 root root 1675 3    15 09:48 id_rsa
-rw-r--r--. 1 root root  388 3    15 09:48 id_rsa.pub

#          
[root@hadoop001 .ssh]# cat id_rsa.pub >> authorized_keys
[root@hadoop001 .ssh]# chmod 600 authorized_keys

三、Hadoop(HDFS)環境構築
3.1ダウンロードと解凍
Hadoopインストールパッケージをダウンロードして、ここで私がダウンロードしたのはCDHバージョンで、ダウンロードアドレスは:http://archive.cloudera.com/c...

#   
tar -zvxf hadoop-2.6.0-cdh5.15.2.tar.gz

3.2環境変数の構成

# vi /etc/profile

環境変数の設定:

export HADOOP_HOME=/usr/app/hadoop-2.6.0-cdh5.15.2
export  PATH=${HADOOP_HOME}/bin:$PATH

sourceコマンドを実行して、構成された環境変数をすぐに有効にします.

# source /etc/profile

3.3 Hadoop構成の変更${HADOOP_HOME}/etc/hadoop/ ディレクトリに入り、次の構成を変更します.
1. hadoop-env.sh

# JDK    
export  JAVA_HOME=/usr/java/jdk1.8.0_201/

2. core-site.xml


    
        
        fs.defaultFS
        hdfs://hadoop001:8020
    
    
        
        hadoop.tmp.dir
        /home/hadoop/tmp

3. hdfs-site.xml
コピー係数と一時ファイルの保管場所を指定します.


    
        
        dfs.replication
        1

4. slaves
すべてのスレーブノードのホスト名またはIPアドレスを設定し、スタンドアロンバージョンであるため、ネイティブを指定します.

hadoop001

3.4ファイアウォールを閉じる
ファイアウォールを閉じないと、HadoopのWeb UIインタフェースにアクセスできない可能性があります.

#        
sudo firewall-cmd --state
#      :
sudo systemctl stop firewalld.service

3.5初期化
最初にHadoopを起動するときは初期化が必要で、${HADOOP_HOME}/bin/ディレクトリの下に入り、以下のコマンドを実行します.

[root@hadoop001 bin]# ./hdfs namenode -format

3.6 HDFSの起動${HADOOP_HOME}/sbin/ディレクトリに入り、HDFSを起動します.

[root@hadoop001 sbin]# ./start-dfs.sh

3.7起動に成功したことを確認する
方法1:jpsを実行して、NameNodeおよびDataNodeのサービスが開始されたかどうかを確認します.

[root@hadoop001 hadoop-2.6.0-cdh5.15.2]# jps
9137 DataNode
9026 NameNode
9390 SecondaryNameNode

方法2:Web UIインタフェースを表示し、ポートは50070:
四、Hadoop(YARN)環境構築
4.1構成の変更${HADOOP_HOME}/etc/hadoop/ ディレクトリに入り、次の構成を変更します.
1. mapred-site.xml

#     mapred-site.xml，             
cp mapred-site.xml.template mapred-site.xml


    
        mapreduce.framework.name
        yarn

2. yarn-site.xml


    
        
        yarn.nodemanager.aux-services
        mapreduce_shuffle

4.2サービスの開始${HADOOP_HOME}/sbin/ディレクトリに入り、YARNを起動します.

./start-yarn.sh

4.3起動に成功したことを確認する
方法1:jpsコマンドを実行して、NodeManagerおよびResourceManagerのサービスが開始されたかどうかを確認します.

[root@hadoop001 hadoop-2.6.0-cdh5.15.2]# jps
9137 DataNode
9026 NameNode
12294 NodeManager
12185 ResourceManager
9390 SecondaryNameNode

方法2:8088のポート番号のWeb UIインタフェースを表示します.
詳細については、GitHubオープンソースプロジェクトを参照してください.
ビッグデータ入門ガイド

PythonによるSSH接続の確立方法

Ubuntuアプリケーションsamba構成