hadoop 2.6.5+sqoop 1.4.6環境導入とテスト(一)


シナリオの説明:
ユーザのログイン情報はmysql(バージョン5.1.73)のテーブルに記録的に格納され、sqoopを使用してログイン記録をhdfsに抽出して格納し、mapreduceプログラムを使用して各ユーザのログイン回数を統計する予定である.環境の説明:hadoop 2.6.5の完全分散環境を4台の仮想マシンで導入し、ソースデータの保存と抽出のためにmysql-serverとsqoopをnamenodeノードを担当するホストにインストールします.それ以外に、別のマシンを使用してmapreduceプログラムを作成し、jarパッケージをパブリッシュし、hadoopに提供して使用します.4台の配置hadoopマシン情報とクラスタで担当するロール情報は以下の通りです.
IP                          hadoop      
10.0.1.100    hadoop-test-nn    NameNode,ResourceManager
10.0.1.101    hadoop-test-snn   SecondaryNameNode
10.0.1.102    hadoop-test-dn1   DataNode,NodeManager
10.0.1.103    hadoop-test-dn2   DataNode,NodeManager

関連ソフトウェア:1.jdk 1.7.0_45--hadoopとsqoopの実行が必要です.2.hadoop 2.6.5--ダウンロード先:http://apache.fayea.com/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz3. sqoop 1.4.6--ダウンロードアドレス:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/注意:sqoop-1.4.6.bin__を選択してくださいhadoop-2.0.4-alpha.tar.gzダウンロード、その他のバージョンはhadoop 2.6.5で互換性がなく、データ抽出時に異常が発生する可能性があります.4.mysql-connector-java-5.1.32-bin.jar、mysqlを接続する実行可能なJARパッケージ、sqoopにmysqlデータベースを接続するために提供し、https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.32.tar.gz ダウンロードしたtarパッケージから解凍したディレクトリから取得します.
準備作業:1.ホスト名を変更し、/etc/hostsファイルを変更し、ホスト名とIPマッピング関係を構成し、各VM間でホスト名を互いに解析できるようにする:各VMの/etc/hostsファイルに以下の記録を追加する:
10.0.1.100      hadoop-test-nn nn
10.0.1.101      hadoop-test-snn snn
10.0.1.102      hadoop-test-dn1 dn1
10.0.1.103      hadoop-test-dn2 dn2

2.各VMにhadoopユーザーを作成し、以降の構成作業はhadoopユーザーを使用して行い、ssh-keygenとssh-copy-idコマンドを使用して各VMのhadoopユーザーがSSH相互接続アクセスできるように構成する.3.JDKをインストールし、環境変数を構成する:VMごとにjdkのjarパッケージを/usr/local/javaの下に解凍し、JDKをインストールし、JAVA_を構成するHOME変数、/etc/profileに次のレコードを追加します.
export JAVA_HOME=/usr/local/java/jdk1.7.0_45
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH

次のセクションではhadoop完全分散環境構築について説明します.