Databricksランタイム9.0のGA、dbutils.data.summarizeのサポート

3272 ワード

Databricks Databricks テキストリンク

Databricks Runtime 9.0 and Databricks Runtime 9.0 Photon | Databricks on AWSにあるように、今回のランタイムでは新たなユーティリティコマンドdbutils.data.summarizeがサポートされました(パブリックプレビュー)。pandasデータフレーム、Sparkデータフレームのサマリー統計を簡単に確認することができます。

Databricks Utilities | Databricks on AWS

Python

df = spark.read.format('csv').load(
  '/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv',
  header=True,
  inferSchema=True
)
dbutils.data.summarize(df)

Scala

val df = spark.read.format("csv")
  .option("inferSchema", "true")
  .option("header", "true")
  .load("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
dbutils.data.summarize(df)

このように各カラムのデータ分布、欠損値の割合などを簡単に確認できます。

Databricks 無料トライアル

Author And Source

この問題について(Databricksランタイム9.0のGA、dbutils.data.summarizeのサポート), 我々は、より多くの情報をここで見つけました https://qiita.com/taka_yayoi/items/f6b35cec29b06e5fb239

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .