Apache Tajo 0.2.0リリース、分散型データ・ウェアハウス


Tajoは分散型データウェアハウスシステムであり、Hadoopに基づいて実現され、低遅延、高伸縮性を特徴とし、専用クエリーとETLツールを提供する
特徴:
  • 伸縮性と低遅延
  • 完全分散SQLクエリー処理、ストレージ雨HDFSに基づくビッグデータセット
  • 超低応答時間(約100ミリ秒)、合理的なデータ範囲内の単純なクエリー
  • は、長時間実行されるクエリーをサポートします.
  • フォールトトレランスサポート、一部のタスクが失敗した後のクエリーの再起動を回避
  • 動的スケジューリング、異機種クラスタノード障害の処理、および
  • ETL
  • ETLは、異なるデータフォーマット間の変換
  • を実現することができる.
  • は、CSV、RCFile、RowFileなど、さまざまなファイルフォーマットをサポートします.
  • 拡張性
  • ユーザー定義関数
  • をサポート
  • カスタムファイルフォーマットを提供するScanner/Appenderインタフェース
  • 互換性
  • ANSI/ISO SQL規格に従い、非規格ではPostgreSQL規格
  • に従う
  • HiveQLモード
  • をサポート
  • HCatalogおよびHive MetaStoreにおけるテーブルアクセス
  • の実装
  • はJDBC駆動
  • をサポートする.
  • 簡単
  • は、SQLクエリをTajoクラスタ
  • に送信するためのインタラクティブシェルを提供する.
  • バックアップ/リカバリツール
  • 非同期/同期Java APIは、SQLクエリをTajoクラスタ
  • に送信する

    Apache Tajo 0.2.0には、次のような改良が含まれています.
      * Add cost-based join optimization
      * Allow inline view use (i.e., table subquery)
      * Add various string functions, such as upper, lower, (L|R)TRIM,
    split_part, and regexp_replace.
      * Allow in predicate support
      * Improve significantly scan performance
      * Add INSERT OVERWRITE statement
      * Add CREATE TABLE statement
      * Add HiveQL mode
      * Allow configurable NULL character for CSVFile format
      * Allow compression/decompression of CSVFile (all codecs supported by Hadoop)
      * Add the extensible rewrite rule engine
      * Add tajo_dump, a backup and restore utility
      * Allow BETWEEN predicate
      * Add Tajo Resource Manager specialized for low-latency queries