Spark操作——行動操作(二)

2571 ワード

  • 集合スカラーアクション
  • メモリアクション
  •  

    ストレージアクションアクション

  • saveAsTextFile(path: String): Unit
  • saveAsTextFile(path: String, codec: Class[_ <: compresssioncodec=""unit="">

  • RDDをテキストファイル形式でファイルシステムに保存し、codecパラメータを使用して圧縮タイプを指定します.
  • saveAsSequenceFile(path: String, codec: Option[Class[_ <: compressioncodec=""none=""unit="">

  • RDDをSequenceのファイル形式でHDFSファイルシステムに保存する
  • saveAsObjectFile(path: String): Unit

  • RDDの要素をオブジェクトにシーケンス化し、ファイルシステムに保存します.
    scala> var rdd = sc.makeRDD(1 to 10, 2)
    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[82] at makeRDD at :24
    
    //  , 2, 
    scala> rdd.saveAsTextFile("/Users/lyf/Desktop/output")
  • saveAsHadoopFile(F <: outputformat=""v=""string=""fm:=""classtag=""unit="">
  • saveAsHadoopFile(F <: outputformat=""v=""string=""codec:=""class=""compressioncodec=""fm:=""classtag=""unit="">
  • saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""codec:=""class=""compressioncodec=""unit="">
  • saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""conf:=""jobconf="……,"codec:=""option=""compressioncodec=""unit="">

  • saveAsHadoopFile操作はRDDをHDFSに格納し、古いHadoop APIをサポートし、outputKeyClass、outputValueClassおよび圧縮フォーマットを指定できます.
  • saveAsHadoopDataset(conf: JobConf): Unit

  • saveAsHadoopDatasetは、HDFS以外の他のストレージ、例えばHbaseにRDDを格納する.JobConfでは通常、出力パス、Keyのタイプ、Valueのタイプ、出力フォーマット、圧縮に関するパラメータの5つのパラメータを設定する必要があります.
     
  • saveAsNewAPIHadoopFile[F <: outputformat=""v=""string=""unit="">
  • saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""conf:=""configuration="self.context.hadoopConfiguration):"unit="">

  • 新版のHadoop API、機能通saveAsHadoopFile.
     
  • saveAsNewAPIHadoopDataset(conf: Configutation): Unit

  • 新版のHadoop API、機能通saveAsHadoopDataset
     
     
    参照先:
    [1]郭景瞻.図解Spark:核心技術と実例実戦[M].北京:電子工業出版社、2017.