Databricksランタイム9.0のGA、dbutils.data.summarizeのサポート
3272 ワード
Databricks Runtime 9.0 and Databricks Runtime 9.0 Photon | Databricks on AWSにあるように、今回のランタイムでは新たなユーティリティコマンドdbutils.data.summarize
がサポートされました(パブリックプレビュー)。pandasデータフレーム、Sparkデータフレームのサマリー統計を簡単に確認することができます。
Databricks Utilities | Databricks on AWS
Python
df = spark.read.format('csv').load(
'/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv',
header=True,
inferSchema=True
)
dbutils.data.summarize(df)
Scala
val df = spark.read.format("csv")
.option("inferSchema", "true")
.option("header", "true")
.load("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
dbutils.data.summarize(df)
このように各カラムのデータ分布、欠損値の割合などを簡単に確認できます。
Databricks 無料トライアル
Author And Source
この問題について(Databricksランタイム9.0のGA、dbutils.data.summarizeのサポート), 我々は、より多くの情報をここで見つけました https://qiita.com/taka_yayoi/items/f6b35cec29b06e5fb239著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .