DatabricksコミュニティエクスペリエンスPySpark#2の使用


Intro

  • Google Cloud Storageでデータの読み取りと処理の実験を行います.
  • Contents


  • IAMとAdminに入ります.

  • [
  • キーを追加](Add
  • Keys)を押して、上記のキーを作成します.
  • クラウドストレージにアクセスしてパケットを作成します.
  • bucketに入り、「権限」の横にある「追加」ボタンをクリックします.

  • 最初に作成した鍵を、前の
  • に示すように、リポジトリオブジェクトマネージャに追加します.
  • databricksコミュニティに移動し、先ほどの鍵を追加し、クラスタの作成時にダウンロードしたjsonファイルの情報を追加します.
  • すべての情報(たとえば
  • Google Cloud Storageから次のようにデータを取得できます.
  • で使用されるデータはml-100 kであり、リンクからダウンロード可能である.
  • import collections
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.appName('GCSFilesRead').getOrCreate()
    
    lines = spark.sparkContext.textFile("gs://ehddnr301/movies/u.data")
    
    ratings = lines.map(lambda x: x.split()[2])
    result = ratings.countByValue()
    
    sortedResult = collections.OrderedDict(sorted(result.items()))
    
    for k, v in sortedResult.items():
        print(k, ' ', v)

    Outro


  • Datalakeとして使用されるgcsからデータをロードしようとした.
  • の後にアップロードの練習をしましょう
  • 次の記事はPySparkを用いた解析または分散処理の実験である.
  • 終了
  • 字がちょっと気まずいので可愛い春植で締めくくります