Sqoopを使ってPostgresqlからHiveにデータを導入します。

9875 ワード

ここでは既存のHadoop、Hive、Zookeeperとpostgresqlデータベースが用意されていると仮定します。
ダウンロード
からhttp://mirror.bit.edu.cn/apache/sqoop/ ここで使っているのは1.4.7バージョンです。
wget -c http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
圧縮を解凍して一つのディレクトリに包んでください。
cd /apps
tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
設定
sqoopのconfディレクトリに入り、sqoop-env-template.shをsqoop-env.shとコピーします。
cd /apps/sqoop-1.4.7.bin__hadoop-2.6.0/conf
cp sqoop-env-template.sh sqoop-env.sh
sqoop-env.shファイルを編集します。パスは具体的な位置によって記入します。
#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/apps/hadoop-2.7.7

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/apps/hadoop-2.7.7

#set the path to where bin/hbase is available
#export HBASE_HOME=/apps/hbase-2.0.4

#Set the path to where bin/hive is available
export HIVE_HOME=/apps/apache-hive-2.3.2-bin

#Set the path for where zookeper config dir is
#export ZOOCFGDIR=/apps/zookeeper-3.4.10/conf
インストールの設定を検証
$ bin/sqoop-version
...
19/01/08 14:57:19 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7
Sqoop 1.4.7
git commit id 2328971411f57f0cb683dfb79d19d4d19d185dd8
Compiled by maugli on Thu Dec 21 15:59:58 STD 2017
使用
postgresqlデータベースを接続する
まずはpostgresqlのjdbcドライババッグを用意し、sqoopのルートディレクトリに入れます。
データベースとテーブルの準備
test=> create table users
(
  id serial primary key ,
  name varchar(128),
  password varchar(128)
);
test=> insert into users values(1,'user1','password1');
test=> insert into users values(2,'user2','password2');
test=> insert into users values(3,'user3','password3');

test=> select * from users;
 id | name  | password
----+-------+-----------
  1 | user1 | password1
  2 | user2 | password2
  3 | user3 | password3
(3 rows)
データベースを表示
bin/sqoop list-databases --connect jdbc:postgresql://localhost:5432 --username test --password test
...
postgres
hive
test
データベースのテーブルを表示
bin/sqoop list-tables --connect jdbc:postgresql://localhost:5432/test --username test --password test
...
users
データテーブルのデータを表示します。
bin/sqoop eval --connect jdbc:postgresql://localhost:5432/test --username test --password test -e 'select * from users'
-------------------------------------------------------------
| id          | name                 | password             |
-------------------------------------------------------------
| 1           | user1                | password1            |
| 2           | user2                | password2            |
| 3           | user3                | password3            |
-------------------------------------------------------------
postgresqlからHFSにデータを導入する
#          
$ bin/sqoop import --connect jdbc:postgresql://localhost:5432/test --username test  --password test --table users --m 1

#   hdfs    
$ hdfs dfs -ls /user/kongxx/
drwxr-xr-x   - kongxx supergroup          0 2019-01-09 00:06 /user/kongxx/users

#   hdfs    
$ hdfs dfs -cat /user/kongxx/users/*
1,user1,password1
2,user2,password2
3,user3,password3

#          
$ bin/sqoop import --connect jdbc:postgresql://localhost:5432/test --username test --password test --table users --target-dir /user/kongxx/users2 --m 1

#   hdfs    
$ hdfs dfs -ls /user/kongxx/
drwxr-xr-x   - kongxx supergroup          0 2019-01-09 00:06 /user/kongxx/users
drwxr-xr-x   - kongxx supergroup          0 2019-01-09 00:21 /user/kongxx/users2

#   hdfs    
$ hdfs dfs -cat /user/kongxx/users2/*
1,user1,password1
2,user2,password2
3,user3,password3

#                   ,      
$ bin/sqoop import --connect jdbc:postgresql://localhost:5432/test --username test --password test --query 'select * from users where $CONDITIONS and 1=1' --target-dir /user/kongxx/users3 --fields-terminated-by '\t' --m 1

#   hdfs    
$ hdfs dfs -cat /user/kongxx/users3/*
1	user1	password1
2	user2	password2
3	user3	password3
postgresqlからHiveにデータを導入する
Hiveを使用する前に、sqoopのルートディレクトリの下でhive-exc.jarのソフト接続を作成する必要があります。以下の通りです。
ln -s /apps/apache-hive-2.3.2-bin/lib/hive-exec-2.3.2.jar
Hiveにデータを導入する
#       hive   (      Hive      ,          )
$ bin/sqoop import --connect jdbc:postgresql://localhost:5432/test --username test --password test --table users --hive-import --hive-overwrite --lines-terminated-by "
"
--fields-terminated-by "\t" --m 1 # $ bin/hdfs dfs -cat /user/hive/warehouse/users/* 1 user1 password1 2 user2 password2 3 user3 password3
Hiveでデータを見る
$ hive

hive> show tables;
OK
users

hive> select * from users;
OK
1	user1	password1
2	user2	password2
3	user3	password3