PySparkのsize関数について

7063 ワード

テキストリンク

モチベーション

Pysparkのsize関数について、なんのサイズを出す関数かすぐに忘れるため、実際のサンプルを記載しすぐに思い出せるようにする。

結果

from pyspark.sql.functions import size

data = [(['Yamada','Taro'], 13),(['Ito','kenta'], 25)]
df = spark.createDataFrame(data,['name', 'age'])
df = df.withColumn('sizecolumn',size('name'))
df.show()

+--------------+---+----------+
|          name|age|sizecolumn|
+--------------+---+----------+
|[Yamada, Taro]| 13|         2|
|  [Ito, kenta]| 25|         2|
+--------------+---+----------+

なお、size関数の引数にarrayかmapを指定しなかった場合には、次のExceptionとなる。
AnalysisException: cannot resolve 'size(name)' due to data type mismatch: argument 1 requires (array or map) type

Author And Source

この問題について(PySparkのsize関数について), 我々は、より多くの情報をここで見つけました https://zenn.dev/tjjj/articles/61caabb9e5a63e

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Collection and Share based on the CC protocol

クラサバアプリ脳で Webアプリを学ぶ(vue.js + python) ４０代後半　のメモその１

【Neovim】null-lsを導入してElixirのリンターcredoの実行結果を表示する