hadoopクラスタ構築ノート


以下にhadoopクラスタで構築されたいくつかのプロファイルの基本構成を簡単に記録し,これに基づいてmapreduce/yarnのhistory log拡張構成を行った.

概要


hadoopクラスタ構築には4つの基本xmlファイルを構成する必要があります:(HADOOP_HOME/etc/hadoop)
  default 。
 core-site.xml
 hdfs-site.xml
 yarn-site.xml
 mapred-site.xml (cp/mv from mapred-site.xml.template)

および3つの環境関連スクリプトファイル:
 JAVA_HOME 。
 hadoop-env.sh
 yarn-env.sh
 mapred-env.sh

最後にslavesを構成し,クラスタを実行するために構成する.
実験環境は3台のcentos 6に基づいている.8仮想マシンは構築され、3台のノードhostNameはそれぞれchdp 01、chdp 02、chdp 03であり、ここで基本ネットワーク、DNS構成が完了した.
クラスタ計画の3つのノードはdataNodeおよびnodeManagerの役割を果たし、chdp 01はnameNode、chdp 02はsecondaryNamNode、chdp 03はresourceManagerを担当する.

一、構成ファイル


詳細な構成配置、構成コードの役割はコメントを参照してください.
1、core-site.xml
 
		
        
                 fs.defaultFS
                  hdfs://chdp01:9000
        
        
        
               hadoop.tmp.dir
                /usr/SFT/hadoop-2.7.2/data/tmp
        
                
		
		
				fs.trash.interval
				10
				
						 Number of minutes after which the checkpoint  gets deleted.
						   If zero, the trash feature is disabled.
				 
						
		
				fs.trash.checkpoint.interval
				0
				
						  	  Number of minutes between trash checkpoints.
							  Should be smaller or equal to fs.trash.interval. If zero,
							  the value is set to the value of fs.trash.interval.
				
		
 

2、hdfs-site.xml
 
	    
        
               dfs.replication
                1
         
		
         
                  dfs.namenode.secondary.http-address
                  chdp02:50090
         
 

3 yarn-site.xml
 
		
       
               yarn.nodemanager.aux-services
               mapreduce_shuffle
       
       
       
               yarn.resourcemanager.hostname
               chdp03
       
		
        
        
               yarn.log-aggregation-enable
               true
        
        
        
                yarn.log-aggregation.retain-seconds
                604800
         
         
		
			yarn.log.server.url
			http://chdp01:20000/jobhistory/logs/
		
        
             
        
            yarn.scheduler.maximum-allocation-mb
            2048
        
        
        
            yarn.scheduler.minimum-allocation-mb
            2048
        
        
        
            yarn.nodemanager.vmem-pmem-ratio
            2.1
        
        
        
            mapred.child.java.opts
            -Xmx1024m
        


4 mapred-site

                
                        mapreduce.framework.name
                        yarn
                


        
                mapreduce.jobhistory.address
                chdp01:20001
        

        
                mapreduce.jobhistory.webapp.address
                chdp01:20000
        

5 hadoop-env.sh/yarn-env.sh/mapred-env.shここでは三者同様の操作でJAVA_を配置HOMEでいい
export JAVA_HOME=/usr/SFT/jdk1.8.0_191

6 slaves
 ip/domain, , , 。
chdp01
chdp02
chdp03

注意:1、以上のプロファイルは自分の仮想マシンに基づいて構成され、具体的な構成は自分の実際の状況に基づいて変更されます.2、dataNodeとresourceManagerの問題:クラスタ起動時に対応するノードで一括起動スクリプトを実行する必要があります.そうしないと、クラスタ環境でyarnを起動したときにnodemanagerが正常に起動しましたが、resourcemanagerが正常に起動しませんでした.

二、フォーマットと起動


1 formatは、namenodeが構成されたノード上でbin/hdfs namenode formatを実行する.formatフェーズでエラーが発生したことによるいくつかの問題と解決を記録したことがあります.このブログを参照してください.hadoop namenodeの起動に失敗した問題と解決プロセスを記録します(起動数秒後にまた停止しました).
2クラスタの起動
chdp01: start-dfs.sh
chdp02: start-yarn.sh

スクリプトを1つ書いて起動することもできます:(sshの秘密保護構成に注意する必要があります.詳細はこのブログ:Host key verification failed.)sbin/start-allは推奨する.shはyarnとhdfsを起動します.多くの場合、namenodeとresourcemanagerが同じノードにいないため、エラーが発生します(Error starting ResourceManager).
#strart hdfs and yarn
ssh chdp01 '/usr/SFT/hadoop-2.7.2/sbin/start-dfs.sh'
ssh chdp03 '/usr/SFT/hadoop-2.7.2/sbin/start-yarn.sh'

3ログサービスプロセスの開始
mr-jobhistory-daemon.sh start  historyserver