hadoop 2.6.5+sqoop 1.4.6環境導入とテスト(一)
シナリオの説明:
ユーザのログイン情報はmysql(バージョン5.1.73)のテーブルに記録的に格納され、sqoopを使用してログイン記録をhdfsに抽出して格納し、mapreduceプログラムを使用して各ユーザのログイン回数を統計する予定である.環境の説明:hadoop 2.6.5の完全分散環境を4台の仮想マシンで導入し、ソースデータの保存と抽出のためにmysql-serverとsqoopをnamenodeノードを担当するホストにインストールします.それ以外に、別のマシンを使用してmapreduceプログラムを作成し、jarパッケージをパブリッシュし、hadoopに提供して使用します.4台の配置hadoopマシン情報とクラスタで担当するロール情報は以下の通りです.
関連ソフトウェア:1.jdk 1.7.0_45--hadoopとsqoopの実行が必要です.2.hadoop 2.6.5--ダウンロード先:http://apache.fayea.com/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz3. sqoop 1.4.6--ダウンロードアドレス:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/注意:sqoop-1.4.6.bin__を選択してくださいhadoop-2.0.4-alpha.tar.gzダウンロード、その他のバージョンはhadoop 2.6.5で互換性がなく、データ抽出時に異常が発生する可能性があります.4.mysql-connector-java-5.1.32-bin.jar、mysqlを接続する実行可能なJARパッケージ、sqoopにmysqlデータベースを接続するために提供し、https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.32.tar.gz ダウンロードしたtarパッケージから解凍したディレクトリから取得します.
準備作業:1.ホスト名を変更し、/etc/hostsファイルを変更し、ホスト名とIPマッピング関係を構成し、各VM間でホスト名を互いに解析できるようにする:各VMの/etc/hostsファイルに以下の記録を追加する:
2.各VMにhadoopユーザーを作成し、以降の構成作業はhadoopユーザーを使用して行い、ssh-keygenとssh-copy-idコマンドを使用して各VMのhadoopユーザーがSSH相互接続アクセスできるように構成する.3.JDKをインストールし、環境変数を構成する:VMごとにjdkのjarパッケージを/usr/local/javaの下に解凍し、JDKをインストールし、JAVA_を構成するHOME変数、/etc/profileに次のレコードを追加します.
次のセクションではhadoop完全分散環境構築について説明します.
ユーザのログイン情報はmysql(バージョン5.1.73)のテーブルに記録的に格納され、sqoopを使用してログイン記録をhdfsに抽出して格納し、mapreduceプログラムを使用して各ユーザのログイン回数を統計する予定である.環境の説明:hadoop 2.6.5の完全分散環境を4台の仮想マシンで導入し、ソースデータの保存と抽出のためにmysql-serverとsqoopをnamenodeノードを担当するホストにインストールします.それ以外に、別のマシンを使用してmapreduceプログラムを作成し、jarパッケージをパブリッシュし、hadoopに提供して使用します.4台の配置hadoopマシン情報とクラスタで担当するロール情報は以下の通りです.
IP hadoop
10.0.1.100 hadoop-test-nn NameNode,ResourceManager
10.0.1.101 hadoop-test-snn SecondaryNameNode
10.0.1.102 hadoop-test-dn1 DataNode,NodeManager
10.0.1.103 hadoop-test-dn2 DataNode,NodeManager
関連ソフトウェア:1.jdk 1.7.0_45--hadoopとsqoopの実行が必要です.2.hadoop 2.6.5--ダウンロード先:http://apache.fayea.com/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz3. sqoop 1.4.6--ダウンロードアドレス:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/注意:sqoop-1.4.6.bin__を選択してくださいhadoop-2.0.4-alpha.tar.gzダウンロード、その他のバージョンはhadoop 2.6.5で互換性がなく、データ抽出時に異常が発生する可能性があります.4.mysql-connector-java-5.1.32-bin.jar、mysqlを接続する実行可能なJARパッケージ、sqoopにmysqlデータベースを接続するために提供し、https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.32.tar.gz ダウンロードしたtarパッケージから解凍したディレクトリから取得します.
準備作業:1.ホスト名を変更し、/etc/hostsファイルを変更し、ホスト名とIPマッピング関係を構成し、各VM間でホスト名を互いに解析できるようにする:各VMの/etc/hostsファイルに以下の記録を追加する:
10.0.1.100 hadoop-test-nn nn
10.0.1.101 hadoop-test-snn snn
10.0.1.102 hadoop-test-dn1 dn1
10.0.1.103 hadoop-test-dn2 dn2
2.各VMにhadoopユーザーを作成し、以降の構成作業はhadoopユーザーを使用して行い、ssh-keygenとssh-copy-idコマンドを使用して各VMのhadoopユーザーがSSH相互接続アクセスできるように構成する.3.JDKをインストールし、環境変数を構成する:VMごとにjdkのjarパッケージを/usr/local/javaの下に解凍し、JDKをインストールし、JAVA_を構成するHOME変数、/etc/profileに次のレコードを追加します.
export JAVA_HOME=/usr/local/java/jdk1.7.0_45
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
次のセクションではhadoop完全分散環境構築について説明します.