Spark

2055 ワード

テキストリンク

1.特徴

Map Reduceと比較して、同じメモリ(

)の速度は約100倍速い

Python、Java、Scala、Rは

をサポートする

一台の機器で処理できないデータセット処理

はオンライントランザクションには適しておらず、バッチまたはオンライン分析処理には適している

は、ディスクを格納および取得するMRとは異なり、メモリをキャッシュおよび取得することができる

MRよりも簡潔

スパークコア

HDFS、Gloster FS、AWS 3等の多種類のファイルシステムアクセス性

共有変数および累積変数は、計算ノード間で情報

を共有することができる.

は、ネットワーク、セキュリティ、スケジューリング、およびデータ配信を含む基本機能を実現する.
- RDD(Resilient Distributed Datasets)
-MRとは異なり、メモリに格納および処理が高速であることを示すデータセット
-メモリの特性上、エラーが発生した場合、すべてのデータが失われます.
-この問題を解決するデータ構造はRDD
-読み取り専用構造は変更されていません
-

については、以下に続く説明を参照してください.

Spark SQL

SparkとHiveQLがサポートするSQLは、大規模な分散データを処理する能力

を提供します.

JSON、Parquet、RDBテーブル、Hiveテーブルなど.

クエリー最適化フレームワークCatalysは

を提供します.

は、BIツールなどの外部システムと連携する使用可能なApache Thriftサーバ

を提供する.

外部システムは、既存のJDBCおよびODBCプロトコルを使用してSPARK SQLクエリ

を実行することができる

スパークフロー

リアルタイムストリームデータ処理フレーム

HDFS、Apache Kafka、Apache flume、Twitter、ZeroMQ

故障時自動復旧計算結果

離散流

は他の火花素子とともに使用する、リアルタイム処理演算、機械学習、SQL演算、グラフィック演算などの

を集積することができる.

スパークMLlib

機械学習アルゴリズムライブラリ

Achapiahoutの機能を基本的に実現した

噴火パターンX

頂点と幹線からなるデータ構造

グラフィック理論における最も重要なアルゴリズムは

を実施した.

プレゲルは

を提供する.

RDD

プロパティ
- immutable, Read-only
-Datasource->RDD、RDD->RDDにのみ変更できます.

Lazy-Execution

動作が実行されるまでは実行されません.
-リソースが配備されることを事前に考慮し、最適なルートを迂回できます.

コードで実装(開発時にJavaを使用)
-Sparkを使用するには、SparkContextオブジェクトを作成する必要があります.

	SparkConf conf = new SparkConf().setAppName(appName).setMaster(local/spark);
	JavaSparkContext sc = new JavaSparkContext(conf);

- appName : cluster UI에서 보이는 Application Name
- master : spark, mesos, yarn cluster url, local mode
- cluster mode : 자원 관리 프레임워크
- local: local 환경에서 사용할수 있는 mode
- spark : spark standalone

Reference

この問題について(Spark), 我々は、より多くの情報をここで見つけました https://velog.io/@kht1997/Spark

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

leetcodeブラシ問題、まとめ、記録、メモ9

[BOJ]2758宝くじ