データ・ウェアハウスとは


データ・ウェアハウスとは

  • データウェアハウス(datawarehouse)は、システム・データベース内のデータを汎用的なフォーマットで管理し、ユーザーの意思決定を支援するデータベースです.略称DW.
  • なぜデータ・ウェアハウスが必要ですか?


  • データを分析するために、以下の要求があります.
    -最も多くの商品を販売している商人は誰ですか?
    -同じものを購入したお客様は誰ですか?
    -各売り手の最高業績項目は何ですか?
  • データ・ウェアハウスは、これらの質問に答えることができます.データのサイズに応じて、本番環境のデータベースから直接答えを得ることができます.ただし、データ量が大きいと、本番環境のアプリケーションのパフォーマンスに影響を及ぼす可能性があります.データ・ウェアハウスがある場合は、パフォーマンスに影響を与えることなく分析クエリーを使用できます.
  • OLTP VSOLAPベースのデータウェアハウス

  • OLTPとOLAPデータベースの区別表
  • 行ベースのデータベース
    -各ページに1行あるとします.
  • Page 1: [1,item_1,gaming,10,'2021-10-02 00:00:00','2021-11-02 13:00:00'],
    Page 2: [2,item_2,gaming,20,'2021-10-02 01:00:00','2021-11-02 14:00:00']
    Page 3: [3,item_3,biking,30, '2021-10-02 02:00:00','2021-11-02 15:00:00'],
    Page 4: [4,item_4,surfing,40, '2021-10-02 03:00:00','2021-11-02 16:00:00'],
    Page 5: [5,item_5,biking,50, '2021-10-02 04:00:00','2021-11-02 17:00:00']
  • カラムベースのデータベース
    -各ページに1つの列があるとします.
  • Page 1: [1,2,3,4,5],
    Page 2: [item_1,item_2,item_3,item_4,item_5],
    Page 3: [gaming,gaming,biking,surfing,biking],
    Page 4: [10,20,30,40,50],
    Page 5: ['2021-10-02 00:00:00','2021-10-02 01:00:00','2021-10-02 02:00:00','2021-10-02 03:00:00','2021-10-02 04:00:00'],
    Page 6: ['2021-11-02 13:00:00','2021-11-02 14:00:00','2021-11-02 15:00:00','2021-11-02 16:00:00','2021-11-02 17:00:00']
  • クエリー実行分析
  • SELECT item_type,
        SUM(price) total_price
    FROM items
    GROUP BY item_type;
  • 行ベースのデータベース
    -すべてのページをメモリにロードします.
  • カラムベースのデータベース
    -3,4ページ目をメモリにロードするだけです.
  • カラムベースのデータベースは2ページ、ローベースのデータベースは5ページのロードが必要です.また、カラムベースのデータベースは、データをより効率的に圧縮できます.したがって、カラムベースのデータベースは、大量のデータを格納および分析するのに適しています.
  • Reference


    Bomwoデータウェアハウスとは?
    Start Data Engineering