Spark統合Hiveとmysql
一、Spark集積Hive
1.HiveのプロファイルをSparkのプロファイルディレクトリの下にコピーし、ソフトコピーとハードコピーのどちらでもよい
2、jarパッケージのコピー
3、Spark-shellを起動する
4、Hiveで表を作る-略
5、Spark SQLにデータを挿入する-略、ここで直接データベースに問い合わせてデモを行う
6、Hiveでデータを問い合わせるとSparkでの操作がわかる
7、IDEAにおける集積
MavenはSpark-Hiveを検索し、最初のSpark Project Hive»[2.4.4]を選択し、対応するscalaバージョン番号を見つけます.
8、hive 110/conf/hive-site.xmlファイルをresourcesリソースパッケージにコピー
最初のpropertyのhiveウェアハウスパスをhdfsポートに追加hdfs://192.168.221.140:9000
9、mysqlでHiveアカウントを作成して権限を与える
mysqlに次のコマンドを入力します.
10、IDEAコードは以下の通りで、接続に成功する
以上の手順が完了したら、仮想マシンに戻って
二、Spark集積mysql
1.HiveのプロファイルをSparkのプロファイルディレクトリの下にコピーし、ソフトコピーとハードコピーのどちらでもよい
ln -s /opt/software/hadoop/hive110/conf/hive-site.xml /opt/software/hadoop/spark244//conf/hive-site.xml
2、jarパッケージのコピー
cp /opt/software/hadoop/hive110/lib/mysql-connector-java-5.1.32.jar /opt/software/hadoop/spark244/jars/
3、Spark-shellを起動する
spark-shell --jars /opt/software/hadoop/spark244/jars/mysql-connector-java-5.1.32.jar
4、Hiveで表を作る-略
5、Spark SQLにデータを挿入する-略、ここで直接データベースに問い合わせてデモを行う
scala> spark.sql("show databases").show()
6、Hiveでデータを問い合わせるとSparkでの操作がわかる
7、IDEAにおける集積
MavenはSpark-Hiveを検索し、最初のSpark Project Hive»[2.4.4]を選択し、対応するscalaバージョン番号を見つけます.
<dependency>
<groupId>org.apache.sparkgroupId>
<artifactId>spark-hive_2.11artifactId>
<version>2.4.4version>
dependency>
<dependency>
<groupId>mysqlgroupId>
<artifactId>mysql-connector-javaartifactId>
<version>5.1.31version>
dependency>
8、hive 110/conf/hive-site.xmlファイルをresourcesリソースパッケージにコピー
最初のpropertyのhiveウェアハウスパスをhdfsポートに追加hdfs://192.168.221.140:9000
<property>
<name>hive.metastore.warehouse.dirname>
<value>hdfs://192.168.221.140:9000/opt/software/hadoop/hive110/warehousevalue>
property>
9、mysqlでHiveアカウントを作成して権限を与える
mysqlに次のコマンドを入力します.
grant all on *.* to 'root'@'%' identified by 'kb10';
grant all on *.* to 'root'@'localhost' identified by 'kb10';
flush privileges;
10、IDEAコードは以下の通りで、接続に成功する
object HiveSpark{
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder()
.master("local[4]")
.appName(this.getClass.getSimpleName)
.enableHiveSupport()
.getOrCreate()
spark.sql("show databases").show()
}
}
以上の手順が完了したら、仮想マシンに戻って
beeline -u jdbc:hive2://192.168.221.140:10000
コマンドを使用すると、spark内蔵のbeelineが起動しますので起動できません.この場合hive/binディレクトリに入ってbashで起動する必要があります二、Spark集積mysql
object ConnectSql{
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder()
.master("local[4]")
.appName(this.getClass.getSimpleName)
.enableHiveSupport().getOrCreate()
//
val url = "jdbc:mysql://192.168.221.140:3306/exam"
val tableName = "cron_test"//
// 、 、
val prop = new java.util.Properties
prop.setProperty("user","root")
prop.setProperty("password","kb10")
prop.setProperty("driver","com.mysql.jdbc.Driver")
//
val jdbcDF = spark.read.jdbc(url,tableName,prop)
jdbcDF.show
//DF
jdbcDF.write.mode("append").jdbc(url,"t2",prop)
}
}