sparkのcollect()関数
779 ワード
code1
tb = hiveContext.sql("select * from tb")
type(tb) pyspark.sql.dataframe.DataFrame
type(tb.columns) list;
code2
tb1 = hiveContext.sql("select * from tb1").collect()
type(tb1) list;
リストになったら、その中の各データをループすることができます.
code3
tb2 = hiveContext.sql("select * from tb2").toPandas()
type(tb2) pandas.core.frame.DataFrame
type(tb2.columns) pandas.indexes.base.Index
type(tb2.index) pandas.indexes.range.RangeIndex
終わります.