Apache Tajo 0.2.0リリース、分散型データ・ウェアハウス

1551 ワード

ソフトウェア更新ニュース

Tajoは分散型データウェアハウスシステムであり、Hadoopに基づいて実現され、低遅延、高伸縮性を特徴とし、専用クエリーとETLツールを提供する
特徴:

伸縮性と低遅延

完全分散SQLクエリー処理、ストレージ雨HDFSに基づくビッグデータセット

超低応答時間(約100ミリ秒)、合理的なデータ範囲内の単純なクエリー

は、長時間実行されるクエリーをサポートします.

フォールトトレランスサポート、一部のタスクが失敗した後のクエリーの再起動を回避

動的スケジューリング、異機種クラスタノード障害の処理、および

ETL

ETLは、異なるデータフォーマット間の変換

を実現することができる.

は、CSV、RCFile、RowFileなど、さまざまなファイルフォーマットをサポートします.

拡張性

ユーザー定義関数

をサポート

カスタムファイルフォーマットを提供するScanner/Appenderインタフェース

互換性

ANSI/ISO SQL規格に従い、非規格ではPostgreSQL規格

に従う

HiveQLモード

をサポート

HCatalogおよびHive MetaStoreにおけるテーブルアクセス

の実装

はJDBC駆動

をサポートする.

簡単

は、SQLクエリをTajoクラスタ

に送信するためのインタラクティブシェルを提供する.

バックアップ/リカバリツール

非同期/同期Java APIは、SQLクエリをTajoクラスタ

に送信する

Apache Tajo 0.2.0には、次のような改良が含まれています.

  * Add cost-based join optimization
  * Allow inline view use (i.e., table subquery)
  * Add various string functions, such as upper, lower, (L|R)TRIM,
split_part, and regexp_replace.
  * Allow in predicate support
  * Improve significantly scan performance
  * Add INSERT OVERWRITE statement
  * Add CREATE TABLE statement
  * Add HiveQL mode
  * Allow configurable NULL character for CSVFile format
  * Allow compression/decompression of CSVFile (all codecs supported by Hadoop)
  * Add the extensible rewrite rule engine
  * Add tajo_dump, a backup and restore utility
  * Allow BETWEEN predicate
  * Add Tajo Resource Manager specialized for low-latency queries

Fibnacciシーケンス(反復)

Spring Data JPA 2:マルチテーブル関連ページングクエリーの実装