Spark

2055 ワード

1.特徴

  • Map Reduceと比較して、同じメモリ(
  • )の速度は約100倍速い
  • Python、Java、Scala、Rは
  • をサポートする
  • 一台の機器で処理できないデータセット処理
  • はオンライントランザクションには適しておらず、バッチまたはオンライン分析処理には適している
  • は、ディスクを格納および取得するMRとは異なり、メモリをキャッシュおよび取得することができる
  • MRよりも簡潔

  • スパークコア

  • HDFS、Gloster FS、AWS 3等の多種類のファイルシステムアクセス性
  • 共有変数および累積変数は、計算ノード間で情報
  • を共有することができる.
  • は、ネットワーク、セキュリティ、スケジューリング、およびデータ配信を含む基本機能を実現する.
    - RDD(Resilient Distributed Datasets)
    -MRとは異なり、メモリに格納および処理が高速であることを示すデータセット
    -メモリの特性上、エラーが発生した場合、すべてのデータが失われます.
    -この問題を解決するデータ構造はRDD
    -読み取り専用構造は変更されていません
    -
  • については、以下に続く説明を参照してください.

    Spark SQL

  • SparkとHiveQLがサポートするSQLは、大規模な分散データを処理する能力
  • を提供します.
  • JSON、Parquet、RDBテーブル、Hiveテーブルなど.
  • クエリー最適化フレームワークCatalysは
  • を提供します.
  • は、BIツールなどの外部システムと連携する使用可能なApache Thriftサーバ
  • を提供する.
  • 外部システムは、既存のJDBCおよびODBCプロトコルを使用してSPARK SQLクエリ
  • を実行することができる

    スパークフロー

  • リアルタイムストリームデータ処理フレーム
  • HDFS、Apache Kafka、Apache flume、Twitter、ZeroMQ
  • 故障時自動復旧計算結果
  • 離散流
  • は他の火花素子とともに使用する、リアルタイム処理演算、機械学習、SQL演算、グラフィック演算などの
  • を集積することができる.

    スパークMLlib

  • 機械学習アルゴリズムライブラリ
  • Achapiahoutの機能を基本的に実現した
  • 噴火パターンX

  • 頂点と幹線からなるデータ構造
  • グラフィック理論における最も重要なアルゴリズムは
  • を実施した.
  • プレゲルは
  • を提供する.

    RDD

  • プロパティ
    - immutable, Read-only
    -Datasource->RDD、RDD->RDDにのみ変更できます.
  • Lazy-Execution
  • 動作が実行されるまでは実行されません.
    -リソースが配備されることを事前に考慮し、最適なルートを迂回できます.
  • コードで実装(開発時にJavaを使用)
    -Sparkを使用するには、SparkContextオブジェクトを作成する必要があります.
  • 	SparkConf conf = new SparkConf().setAppName(appName).setMaster(local/spark);
    	JavaSparkContext sc = new JavaSparkContext(conf);
    - appName : cluster UI에서 보이는 Application Name
    - master : spark, mesos, yarn cluster url, local mode
    - cluster mode : 자원 관리 프레임워크
    - local: local 환경에서 사용할수 있는 mode
    - spark : spark standalone