【スパーク学習ノート】スパーク学習ノートエッセンス(1)


        ,             ,             。


1.take    RDD       ,      。

rdd.take(5)

2.   takeSample       ,                 。

rdd.takeSample(true,3)

3.top         ordering        k   ,         ,           ,         。

rdd.top(3)(ordering.by(_._2))

4. top    ,takeordered       。

rdd.takeordered(3)(ordering.by(_._2))

5.sample                      。                  ,                   。

rdd.sample(true,0.6)

6.randomSplit    RDD,         RDD,                    。

fullData.cache()
val (train,test)=fullData.randomSplit(Array(0.6,0.4))

7.spark                      ,               ,             。       ,        ,     RDD     RDD        。     ,              ,               。


8.    spark  ,     spark   ,   RDD,     spark  ,     spark       ,        spark       ,                    ,    spark     。

9.  spark                    ,  spark-shell  ,                  。                  ,                  。

10.           , spark             spark       。          ,spark      RDD            ,              RDD  ,         RDD      ,        。

11.spark       textFile,Avro Parquet   hadoop                 。

12.Mlib Spark             ,MLlib             vector  ,      Matrix RowMatrix            。Matrix      , RowMtrix          。

13.Spark Streaming                            ,             。

14.Spark SQL   spark   HDFS          RDD  SQL  ,  SparkSQL   Spark    sql       ,      。

15.sparkSQL        schemaRDD,      ,               。

16.GraphX spark    ,  spark       ,                  ,GraphX   RDD(  RDD  RDD)    。