7-4ビッグデータ処理技術(下図実装)
33891 ワード
ビッグデータ
とくせい
5V
そくど
ボリューム(サイズ)
多様性
バリュー
せいど
各種データ
せいけい
定型:すでに定型化されており、必要なものだけを持っています
非構造化:フレームワークが安定し、ビデオ、音声、画像、
半構造:テーブルはありますが、固定されていません.自由に追加できます.
ビッグデータ
収集-->保存-->処理-->分析-->可視化
川を引く
コンピュータ設定(必要に応じてソート)
OpenJDKというJava開発ツールが必要です(HaduはJavaで作成されているので必要です)
サービスアカウントの作成
ssh設定
環境変数の設定
ブリッジの取り付け
1コンピュータ名の変更
ダウンストリームをプライマリノードワークノードに分割
1)マスターノード
192.168.71.131(ubuntu)
名前混同vi/etc/hostname
ホスト名をホスト名に変更
再起動
2)作業ノード
192.168.71.133(ubuntu(3))
ホスト:worker 1
192.168.71.134(ubuntu4-1)
ホスト:worker 2
3)他のコンピュータ名の設定
(1)すべてのコンピュータが同じ
vi/etc/hostsの末尾に追加192.168.100.131 master
192.168.100.133 worker1
192.168.100.134 worker2
2.Javaのインストール
1)すべてのコンピュータが同じ
apt update
apt install-y openjdk-8-jdk java(javaがある場合はjdkにのみインストール)
3.ユーザーアカウントの設定
1)マスターノード
addgroup --gid 2001 hdfs
useradd --create-home --shell/bin/bash --uid 2001 --gid 2001hdfs
passwd hdfs
番号付けなしの設定addgroup --gid 2002 yarn
useradd --create-home --shell /bin/bash --uid 2002 --gid 2002 yarn
passwd yarn
비번 설정
mkdir -p /data/hdfs/namenode
mkdir -p /data/hdfs/jornalnode
chown -R hdfs:hdfs /data/hdfs
mkdir -p /data/yarn
chown -R yarn:yarn /data/yarn
mkdir로 나중에 필요한 데이터 파일을 생성하고
chown으로 파일 소유권을 yarn끼리 hdfs끼리 연결
2)作業ノード
addgroup --gid 2001 hdfs
useradd --create-home --shell/bin/bash --uid 2001 --gid 2001 hdfs
passwd hdfs
番号付けなしの設定addgroup --gid 2002 yarn
useradd --create-home --shell /bin/bash --uid 2002 --gid 2002 yarn
passwd yarn
비번 설정
mkdir -p /data/hdfs/datanode
chown -R hdfs:hdfs /data/hdfs
mkdir -p /data/yarn
chown -R yarn:yarn /data/yarn
4.SSH設定
1)SSH取付
(1)すべてのコンピュータが同じ
apt install openssh-client
apt install openssh-server
マスターからworkerに接続されていることを確認します
ssh hdfs@worker1
脱退して元の状態に戻る
2)SSHキーの設定
(1)マスターノード
hdfsでログイン後
ssh-keygen
企業3号
ssh-copy-id hdfs@master
ssh-copy-id hdfs@worker1
パスワードの入力
ssh-copy-id hdfs@worker2
パスワードの入力
糸で登録後
ssh-keygen
企業3号
ssh-copy-id yarn@master
ssh-copy-id yarn@worker1
パスワードの入力
ssh-copy-id yarn@worker2
パスワードの入力
ssh hdfs@worker1
パスワードを入力せずに接続する必要があります
5.画面を閉じて解凍する
1)オフ
(1)すべてのコンピュータが同じ
wgetにダウンロード
2)解凍
(1)すべてのコンピュータが同じ
tar zxvf hadoop-3.2.2.tar.gz
3)ディレクトリの移動
(1)すべてのコンピュータが同じ
mv hadoop-3.2.2/opt/hadoop-3.2.2
4)ディレクトリの作成
(1)すべてのコンピュータが同じ
mkdir/opt/hadoop-3.2.2/pids
mkdir/opt/hadoop-3.2.2/logs
chown -R hdfs:hdfs/opt/hadoop-3.2.2
chmod 757/opt/hadoop-3.2.2/pids
chmod 757/opt/hadoop-3.2.2/logs
6.明るさの設定
すべての設定ファイルはここにあります
/opt/hadoop-3.2.2/etc/hadoop
1)設定(1) 마스터 노드
hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export HADOOP_HOME=/opt/hadoop-3.2.2
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_PID_DIR=${HADOOP_HOME}/pids
export HDFS_NAMENODE_USER="hdfs"
export HDFS_SECONDARYNAMENODE_USER="hdfs"
export HDFS_DATANODE_USER="hdfs"
export YARN_RESOURCEMANAGER_USER="yarn"
export YARN_NODEMANAGER_USER="yarn"
core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
<description>NameNode URI</description>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
<description>Buffer size</description>
</property> <!-- HA Configuration -->
<property>
<name>ha.zookeeper.quorum</name>
<value>zookeeper-001:2181,zookeeper-002:2181,zookeeper-003:2181</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/hdfs/.ssh/id_rsa</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.http.address</name>
<value>master:9870</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/data/hdfs/namenode</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>1</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
workers
master
worker1
worker2
(2)ワークノードhadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export HADOOP_HOME=/opt/hadoop-3.2.2
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_PID_DIR=${HADOOP_HOME}/pids
export HDFS_NAMENODE_USER="hdfs"
export HDFS_DATANODE_USER="hdfs"
export YARN_RESOURCEMANAGER_USER="yarn"
export YARN_NODEMANAGER_USER="yarn"
core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.datanode.name.dir</name>
<value>file:/data/hdfs/datanode</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>1</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
7.Haduの運転
1)運転
(1)マスターノード
/opt/hadoop-3.2.2/bin/hdfs namenode-format(名前付きノードのフォーマット)
/opt/hadoop-3.2.2/sbin/start-all.sh(全運転)
/opt/hadoop-3.2.2/sbin/stop-all.sh(すべて終了)
2)確認
(1)マスターノード
jpsコマンド実行時
17363 DataNode
16532 NameNode
17815 NodeManager
14393 ResourceManager
17950 Jps
(2)死体
8368 Jps
8101 NodeManager
7944 DataNode
(3)ホスト上でのWebブラウザによる確認
http://主ノードのIPアドレス:9870/
Datanodeタブを使用して、次のリンクを表示します.
3)エラー確認
/opt/hadoop-3.2/logs/にログファイルを作成
ERRORで検索すると便利です
Reference
この問題について(7-4ビッグデータ処理技術(下図実装)), 我々は、より多くの情報をここで見つけました
https://velog.io/@kst5137/7-4-빅데이터-처리-기술-하둡-설치
テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol
コンピュータ設定(必要に応じてソート)
OpenJDKというJava開発ツールが必要です(HaduはJavaで作成されているので必要です)
サービスアカウントの作成
ssh設定
環境変数の設定
ブリッジの取り付け
1コンピュータ名の変更
ダウンストリームをプライマリノードワークノードに分割
1)マスターノード
192.168.71.131(ubuntu)
名前混同vi/etc/hostname
ホスト名をホスト名に変更
再起動
2)作業ノード
192.168.71.133(ubuntu(3))
ホスト:worker 1
192.168.71.134(ubuntu4-1)
ホスト:worker 2
3)他のコンピュータ名の設定
(1)すべてのコンピュータが同じ
vi/etc/hostsの末尾に追加
192.168.100.131 master
192.168.100.133 worker1
192.168.100.134 worker2
2.Javaのインストール
1)すべてのコンピュータが同じ
apt update
apt install-y openjdk-8-jdk java(javaがある場合はjdkにのみインストール)
3.ユーザーアカウントの設定
1)マスターノード
addgroup --gid 2001 hdfs
useradd --create-home --shell/bin/bash --uid 2001 --gid 2001hdfs
passwd hdfs
番号付けなしの設定
addgroup --gid 2002 yarn
useradd --create-home --shell /bin/bash --uid 2002 --gid 2002 yarn
passwd yarn
비번 설정
mkdir -p /data/hdfs/namenode
mkdir -p /data/hdfs/jornalnode
chown -R hdfs:hdfs /data/hdfs
mkdir -p /data/yarn
chown -R yarn:yarn /data/yarn
mkdir로 나중에 필요한 데이터 파일을 생성하고
chown으로 파일 소유권을 yarn끼리 hdfs끼리 연결
2)作業ノードaddgroup --gid 2001 hdfs
useradd --create-home --shell/bin/bash --uid 2001 --gid 2001 hdfs
passwd hdfs
番号付けなしの設定
addgroup --gid 2002 yarn
useradd --create-home --shell /bin/bash --uid 2002 --gid 2002 yarn
passwd yarn
비번 설정
mkdir -p /data/hdfs/datanode
chown -R hdfs:hdfs /data/hdfs
mkdir -p /data/yarn
chown -R yarn:yarn /data/yarn
4.SSH設定
1)SSH取付
(1)すべてのコンピュータが同じ
apt install openssh-client
apt install openssh-server
マスターからworkerに接続されていることを確認します
ssh hdfs@worker1
脱退して元の状態に戻る
2)SSHキーの設定
(1)マスターノード
hdfsでログイン後
ssh-keygen
企業3号
ssh-copy-id hdfs@master
ssh-copy-id hdfs@worker1
パスワードの入力
ssh-copy-id hdfs@worker2
パスワードの入力
糸で登録後
ssh-keygen
企業3号
ssh-copy-id yarn@master
ssh-copy-id yarn@worker1
パスワードの入力
ssh-copy-id yarn@worker2
パスワードの入力
ssh hdfs@worker1
パスワードを入力せずに接続する必要があります
5.画面を閉じて解凍する
1)オフ
(1)すべてのコンピュータが同じ
wgetにダウンロード
2)解凍
(1)すべてのコンピュータが同じ
tar zxvf hadoop-3.2.2.tar.gz
3)ディレクトリの移動
(1)すべてのコンピュータが同じ
mv hadoop-3.2.2/opt/hadoop-3.2.2
4)ディレクトリの作成
(1)すべてのコンピュータが同じ
mkdir/opt/hadoop-3.2.2/pids
mkdir/opt/hadoop-3.2.2/logs
chown -R hdfs:hdfs/opt/hadoop-3.2.2
chmod 757/opt/hadoop-3.2.2/pids
chmod 757/opt/hadoop-3.2.2/logs
6.明るさの設定
すべての設定ファイルはここにあります
/opt/hadoop-3.2.2/etc/hadoop
1)設定
(1) 마스터 노드
hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export HADOOP_HOME=/opt/hadoop-3.2.2
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_PID_DIR=${HADOOP_HOME}/pids
export HDFS_NAMENODE_USER="hdfs"
export HDFS_SECONDARYNAMENODE_USER="hdfs"
export HDFS_DATANODE_USER="hdfs"
export YARN_RESOURCEMANAGER_USER="yarn"
export YARN_NODEMANAGER_USER="yarn"
core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
<description>NameNode URI</description>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
<description>Buffer size</description>
</property> <!-- HA Configuration -->
<property>
<name>ha.zookeeper.quorum</name>
<value>zookeeper-001:2181,zookeeper-002:2181,zookeeper-003:2181</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/hdfs/.ssh/id_rsa</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.http.address</name>
<value>master:9870</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/data/hdfs/namenode</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>1</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
workers
master
worker1
worker2
(2)ワークノードhadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export HADOOP_HOME=/opt/hadoop-3.2.2
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_PID_DIR=${HADOOP_HOME}/pids
export HDFS_NAMENODE_USER="hdfs"
export HDFS_DATANODE_USER="hdfs"
export YARN_RESOURCEMANAGER_USER="yarn"
export YARN_NODEMANAGER_USER="yarn"
core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.datanode.name.dir</name>
<value>file:/data/hdfs/datanode</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>1</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
7.Haduの運転
1)運転
(1)マスターノード
/opt/hadoop-3.2.2/bin/hdfs namenode-format(名前付きノードのフォーマット)
/opt/hadoop-3.2.2/sbin/start-all.sh(全運転)
/opt/hadoop-3.2.2/sbin/stop-all.sh(すべて終了)
2)確認
(1)マスターノード
jpsコマンド実行時
17363 DataNode
16532 NameNode
17815 NodeManager
14393 ResourceManager
17950 Jps
(2)死体
8368 Jps
8101 NodeManager
7944 DataNode
(3)ホスト上でのWebブラウザによる確認
http://主ノードのIPアドレス:9870/
Datanodeタブを使用して、次のリンクを表示します.
3)エラー確認
/opt/hadoop-3.2/logs/にログファイルを作成
ERRORで検索すると便利です
Reference
この問題について(7-4ビッグデータ処理技術(下図実装)), 我々は、より多くの情報をここで見つけました https://velog.io/@kst5137/7-4-빅데이터-처리-기술-하둡-설치テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol