【スパーク学習ノート】スパーク学習ノートエッセンス(1)
2664 ワード
, , 。
1.take RDD , 。
rdd.take(5)
2. takeSample , 。
rdd.takeSample(true,3)
3.top ordering k , , , 。
rdd.top(3)(ordering.by(_._2))
4. top ,takeordered 。
rdd.takeordered(3)(ordering.by(_._2))
5.sample 。 , 。
rdd.sample(true,0.6)
6.randomSplit RDD, RDD, 。
fullData.cache()
val (train,test)=fullData.randomSplit(Array(0.6,0.4))
7.spark , , 。 , , RDD RDD 。 , , 。
8. spark , spark , RDD, spark , spark , spark , , spark 。
9. spark , spark-shell , 。 , 。
10. , spark spark 。 ,spark RDD , RDD , RDD , 。
11.spark textFile,Avro Parquet hadoop 。
12.Mlib Spark ,MLlib vector , Matrix RowMatrix 。Matrix , RowMtrix 。
13.Spark Streaming , 。
14.Spark SQL spark HDFS RDD SQL , SparkSQL Spark sql , 。
15.sparkSQL schemaRDD, , 。
16.GraphX spark , spark , ,GraphX RDD( RDD RDD) 。