jsonを含む Spark RDDを簡単にparseしてRDDにする。


  • DataFrameを使って、case classを定義してなどでやるのをとりあえずおいておいて
  • 単純にjson->scalaのデータにする。
  • jupyter notebook上でやるなど
import scala.util.parsing.json.JSON

val jsonRdd = sc.textFile("なんか一行jsonになっているでかいデータ")

val parsedJsonRdd = rdd.map(JSON.parseFull(_))

parseJsonRdd.take(10).foreach(println)