[TIL Day 51]ビッグデータ:SparkSQLを使用してデータを分析する
SparkSQLとは?
構造化データ処理用Sparkモジュール
特長
-インタラクティブSparkシェルの提供
-河川図データに基づいて作成されたHiveクエリは、変更なしで最大100倍のパフォーマンスを提供します.
-データフレームはSQLで処理可能
SparkSQL使用法SparkSQLしよう:外部データベースへの接続がいぶでーたべーすへのせつぞく
SparkSessionのread関数を使用して、テーブルまたはSQL結果をデータフレームに読み込みます.
Redshift接続例
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Python Spark SQL basic example") \
.config("spark.jars", "/usr/local/lib/python3.6/dist-packages/pyspark/jars/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar") \
.getOrCreate()
SparkSessionのread関数 df_user_session_channel = spark.read \
.format("jdbc") \
.option("driver", "com.amazon.redshift.jdbc42.Driver") \
.option("url", "jdbc:redshift://learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/prod?user=guest&password=Guest1!*") \
.option("dbtable", "raw_data.user_session_channel") \
.load()
namegender_df.createOrReplaceTempView("namegender")
namegender_group_df = spark.sql("
SELECT gender, count(1) FROM namegender GROUP BY 1
")
print(namegender_group_df.collect())
Reference
この問題について([TIL Day 51]ビッグデータ:SparkSQLを使用してデータを分析する), 我々は、より多くの情報をここで見つけました https://velog.io/@dhelee/TIL-Day51-Big-Data-SparkSQL을-이용한-데이터-분석テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol