DatabricksコミュニティエクスペリエンスPySpark#2の使用

4032 ワード

pyspark gcs Databricks テキストリンク

Intro

Google Cloud Storageでデータの読み取りと処理の実験を行います.

IAMとAdminに入ります.

[

キーを追加](Add

Keys)を押して、上記のキーを作成します.

クラウドストレージにアクセスしてパケットを作成します.

bucketに入り、「権限」の横にある「追加」ボタンをクリックします.

最初に作成した鍵を、前の

に示すように、リポジトリオブジェクトマネージャに追加します.

databricksコミュニティに移動し、先ほどの鍵を追加し、クラスタの作成時にダウンロードしたjsonファイルの情報を追加します.

すべての情報(たとえば

Google Cloud Storageから次のようにデータを取得できます.

で使用されるデータはml-100 kであり、リンクからダウンロード可能である.

import collections
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('GCSFilesRead').getOrCreate()

lines = spark.sparkContext.textFile("gs://ehddnr301/movies/u.data")

ratings = lines.map(lambda x: x.split()[2])
result = ratings.countByValue()

sortedResult = collections.OrderedDict(sorted(result.items()))

for k, v in sortedResult.items():
    print(k, ' ', v)

Outro

Datalakeとして使用されるgcsからデータをロードしようとした.

の後にアップロードの練習をしましょう

次の記事はPySparkを用いた解析または分散処理の実験である.

終了

字がちょっと気まずいので可愛い春植で締めくくります

Reference

この問題について(DatabricksコミュニティエクスペリエンスPySpark#2の使用), 我々は、より多くの情報をここで見つけました https://velog.io/@ehddnr/Databricks-로-무료로-PySpark-체험하기-2

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

[アルゴリズム]完全征服への遡及🤸‍♀️

データ構造のPython高速ソートquick_を実現sort

DatabricksコミュニティエクスペリエンスPySpark#2の使用

Intro

Contents

Outro

Reference