Apache Tajo 0.2.0リリース、分散型データ・ウェアハウス
1551 ワード
Tajoは分散型データウェアハウスシステムであり、Hadoopに基づいて実現され、低遅延、高伸縮性を特徴とし、専用クエリーとETLツールを提供する
特徴:伸縮性と低遅延 完全分散SQLクエリー処理、ストレージ雨HDFSに基づくビッグデータセット 超低応答時間(約100ミリ秒)、合理的なデータ範囲内の単純なクエリー は、長時間実行されるクエリーをサポートします. フォールトトレランスサポート、一部のタスクが失敗した後のクエリーの再起動を回避 動的スケジューリング、異機種クラスタノード障害の処理、および ETL ETLは、異なるデータフォーマット間の変換 を実現することができる.は、CSV、RCFile、RowFileなど、さまざまなファイルフォーマットをサポートします.
拡張性 ユーザー定義関数 をサポートカスタムファイルフォーマットを提供するScanner/Appenderインタフェース 互換性 ANSI/ISO SQL規格に従い、非規格ではPostgreSQL規格 に従う HiveQLモード をサポート HCatalogおよびHive MetaStoreにおけるテーブルアクセス の実装はJDBC駆動 をサポートする.
簡単 は、SQLクエリをTajoクラスタ に送信するためのインタラクティブシェルを提供する.バックアップ/リカバリツール 非同期/同期Java APIは、SQLクエリをTajoクラスタ に送信する
Apache Tajo 0.2.0には、次のような改良が含まれています.
特徴:
Apache Tajo 0.2.0には、次のような改良が含まれています.
* Add cost-based join optimization
* Allow inline view use (i.e., table subquery)
* Add various string functions, such as upper, lower, (L|R)TRIM,
split_part, and regexp_replace.
* Allow in predicate support
* Improve significantly scan performance
* Add INSERT OVERWRITE statement
* Add CREATE TABLE statement
* Add HiveQL mode
* Allow configurable NULL character for CSVFile format
* Allow compression/decompression of CSVFile (all codecs supported by Hadoop)
* Add the extensible rewrite rule engine
* Add tajo_dump, a backup and restore utility
* Allow BETWEEN predicate
* Add Tajo Resource Manager specialized for low-latency queries