linuxでhadoop 3をインストールします.0(フル分散)

2178 ワード

【ビッグデータの進路】

一、hadoop 3.xの新しい特性
1.Javaバージョンは1.8が必要
2.Shellスクリプトは部分的に書き換えられた(Shell script rewrite)
3.HDFSの新機能

は削除可能符号化(Erasure Coding)をサポートし、コピーメカニズムの代わりにECを使用し、約50%の記憶空間を省略することができる.この場合、コピー個数は1で

である.

は、2つ以上のnamenode(すなわち、1つのnamenodeと複数のdatanode)

をサポートする

datanodeデータ書き込みバランシング

デフォルトの複数のサービスポートが変更されました

4.YARN新特性

Timelineサービスの拡張性と安定性を向上させる

フローおよびアグリゲーションによる可用性の向上

はOpportunistic Containersと分散スケジューリング

をサポートする
5.MapReduceの改善

Taskレベルの天然最適化

Hadoopプロセス管理には多くの変更があります

二、環境紹介
仮想マシンはcenos 6ミラーを採用し、3台の仮想マシンを準備する.
Node 1,node 2,node 3であり、node 1はnamenodeとdatanode、node 2はsecondary namenodeとdatanode、node 3はdatanodeである.

三、インストール手順
1.インストール構成jdk
1)解凍ファイル(jdk 1.8ダウンロード、抽出コード:ene 8)

tar -zxvf jdk-8u141-linux-x64.tar.gz

2)環境変数の構成

vim /etc/profile

#set Java environment export JAVA_HOME=/bigdata/jdk1.8 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
3)設定の有効化

source /etc/profile

2.インストール構成hadoop
1)解凍ファイル(hadoop 3.1.1ダウンロード、抽出コード:tkk 8)

tar -zxvf hadoop-3.1.1.tar.gz

2)etc/hadoop/hadoop-envを修正する.sh
export JAVA_HOME=/bigdata/jdk1.8 export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root export HDFS_SECONDARYNAMENODE_USER=root
3)etc/hadoop/core-siteを修正する.xml
fs.defaultFS hdfs://node1:9820 hadoop.tmp.dir /bigdata/data
4)etc/hadoop/hdfs-siteを修正する.xml
dfs.replication 2 dfs.namenode.secondary.http-address node2:9868
5)etc/hadoop/workersの変更
node1 node2 node3

3.hadoop環境変数の構成

vi /etc/profile

export HADOOP_HOME=/bigdata/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

4.jdkをhadoopと同様に他の2台のサーバにインストールする

5.フル分散(プライマリノード)の起動
1)書式設定

hdfs namenode -format

2)起動

start-dfs.sh

3)ブラウザアクセス(node 1:9870)

ソースインストールLAMP環境

64ビットマシンで32ビットプログラムをコンパイル