PySparkのsize関数について
7063 ワード
モチベーション
Pysparkのsize関数について、なんのサイズを出す関数かすぐに忘れるため、実際のサンプルを記載しすぐに思い出せるようにする。
結果
from pyspark.sql.functions import size
data = [(['Yamada','Taro'], 13),(['Ito','kenta'], 25)]
df = spark.createDataFrame(data,['name', 'age'])
df = df.withColumn('sizecolumn',size('name'))
df.show()
+--------------+---+----------+
| name|age|sizecolumn|
+--------------+---+----------+
|[Yamada, Taro]| 13| 2|
| [Ito, kenta]| 25| 2|
+--------------+---+----------+
なお、size関数の引数にarrayかmapを指定しなかった場合には、次のExceptionとなる。
AnalysisException: cannot resolve 'size(name)' due to data type mismatch: argument 1 requires (array or map) type
Author And Source
この問題について(PySparkのsize関数について), 我々は、より多くの情報をここで見つけました https://zenn.dev/tjjj/articles/61caabb9e5a63e著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Collection and Share based on the CC protocol