Spark操作——行動操作(二)

2571 ワード

Spark学習ノート

集合スカラーアクション

メモリアクション

ストレージアクションアクション

saveAsTextFile(path: String): Unit

saveAsTextFile(path: String, codec: Class[_ <: compresssioncodec=""unit="">

RDDをテキストファイル形式でファイルシステムに保存し、codecパラメータを使用して圧縮タイプを指定します.

saveAsSequenceFile(path: String, codec: Option[Class[_ <: compressioncodec=""none=""unit="">

RDDをSequenceのファイル形式でHDFSファイルシステムに保存する

saveAsObjectFile(path: String): Unit

RDDの要素をオブジェクトにシーケンス化し、ファイルシステムに保存します.

scala> var rdd = sc.makeRDD(1 to 10, 2)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[82] at makeRDD at :24

//  ， 2， 
scala> rdd.saveAsTextFile("/Users/lyf/Desktop/output")

saveAsHadoopFile(F <: outputformat=""v=""string=""fm:=""classtag=""unit="">

saveAsHadoopFile(F <: outputformat=""v=""string=""codec:=""class=""compressioncodec=""fm:=""classtag=""unit="">

saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""codec:=""class=""compressioncodec=""unit="">

saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""conf:=""jobconf="……,"codec:=""option=""compressioncodec=""unit="">

saveAsHadoopFile操作はRDDをHDFSに格納し、古いHadoop APIをサポートし、outputKeyClass、outputValueClassおよび圧縮フォーマットを指定できます.

saveAsHadoopDataset(conf: JobConf): Unit

saveAsHadoopDatasetは、HDFS以外の他のストレージ、例えばHbaseにRDDを格納する.JobConfでは通常、出力パス、Keyのタイプ、Valueのタイプ、出力フォーマット、圧縮に関するパラメータの5つのパラメータを設定する必要があります.

saveAsNewAPIHadoopFile[F <: outputformat=""v=""string=""unit="">

saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""conf:=""configuration="self.context.hadoopConfiguration):"unit="">

新版のHadoop API、機能通saveAsHadoopFile.

saveAsNewAPIHadoopDataset(conf: Configutation): Unit

新版のHadoop API、機能通saveAsHadoopDataset

参照先:
[1]郭景瞻.図解Spark:核心技術と実例実戦[M].北京:電子工業出版社、2017.

BJ 2491数列

リアクションレンダリングの最適化