[TIL] day30


TIL
リレーショナル・データベースとは?
  • 構造化データを格納および照会するための記憶
    (表形式-行x列)
  • SQLプログラミング言語を使用した
  • リレーショナル・データベースの処理
    (テーブル定義言語DDLテーブルデータ、DMLを操作または照会するための言語)
  • SQLを使用するのは、SQLほど検証と使用が容易な言語が構造化されたデータの分析と操作に使用されていないためです.
    ->つまり、データ関係者であれば知っておく必要があります!
    一般的なリレーショナル・データベース

  • 本番データベースMySQl, PostgreSQL, Oracle...
  • OLTP(OnLine Transaction Processing)
  • サービスに必要な情報を格納します.サービス用なので、スピードが重要!

  • データウェアハウスRedshift, Snowflake, BigQuery, Hive...
  • OLAP(OnLine Analytical Processing)
  • 処理データのサイズは
  • に集中する.
  • データ分析又はボデルビル等のデータ格納
  • データチームのメンバーは主にデータウェアハウス
  • を使用します.
  • はデータベースとは独立しており、サービス
  • には影響しません.
    リレーショナル・データベースの構造
    ステップ2
  • 最下端にテーブル
  • がある
  • テーブルは、データベース(またはアーキテクチャ)というフォルダの下にあります.
    (データが非常に多いのでフォルダで管理しやすい…)
  • 表の構造
  • 表は、記録からなる(行)
  • レコードは、1つまたは複数のフィールド(列)からなる
  • を記録する.
  • フィールド(カラム)は、名前、タイプ、および属性(プライマリ・キー)からなる
  • です.
    primary keyは、テーブル・アーキテクチャの特性によって異なりますが、テーブルの一部のカラムで値の繰り返しが許可されていない場合は、設定できます.
    (値が一意であることを確認します.重複する値を追加しても例外ではありません.)
    예) 이메일/주민등록번호를 받았을 경우, 이는 고유값이므로 중복되면 안되니까 primary key를 지정
    SQL
    リレーショナル・データベースのデータをクエリーまたは操作する言語
  • DDL
  • DML
  • 構造化されたデータに関連する限り、SQLはデータ規模とは無関係です.
    すべての大規模なデータ・ウェアハウスはSQLベースであり、SparkとHadoopも例外ではありません.
    (データ分野で働く上で身につけなければならない基本的なスキル…!
    SQLの欠点

  • 構造化データのみ処理!最適化
    非構造化テストデータなどを扱う場合は、正規表現を使用します.

  • 非構造化データを正規表現である程度処理することは可能であるが,制限は大きい.(非効率)

  • 多くのリレーショナル・データベースでは、フラット構造のみがサポートされています.
    多くのリレーショナル・データベースにはフィールドは存在しませんが、フィールドにネストされた構造は存在しません.
    (その他、GoogleのBigQueryはネスト構造をサポートしています)

  • 非構造化データの処理には、SparkやHadoopなどの分散コンピューティング環境が必要です.(これも会社がある程度成長したことを証明しています)
    SQLのみでは構造化されていないデータを処理できないためです.

  • 各リレーショナル・データベースのsql構文は少し異なります.
  • 本番データベースとデータ・ウェアハウスの違い
    問:データをモデリングする方法は何ですか.
    (データの表現方法を尋ねる)
    Star schema
    Production DB用のリレーショナル・データベースでは、通常、スター・モードを使用してデータを格納します.データは論理単位で別々に格納され、必要に応じてチェックインされます.
    장점: 스토리지 낭비가 덜하고 업데이트가 쉬움
    단점: 매출의 디테일을 보려고하면 수많은 다른 테이블과 조인해야함
    Denormalized schema
    データ・ウェアハウスの使用方法
    単位テーブルで保存せず、単独で結合する必要はありません
    장점: 조인이 필요 없기에 빠른 계산이 가능
    단점: 모든게 반복되기 때문에 스토리지가 많이 필요함. 
    ただし、データ・ウェアハウスはストレージ容量に制限されません.
    通常、本番データからコピーされるため、データ更新はデータ・ウェアハウスでは行われないため、サービスには影響しません.
    データウェアハウス
    회사에 필요한 모든 데이터를 저장

  • sqlベースのリレーショナル・データベース
  • 本番データベースは、
  • から独立している必要があります.
  • AWSのRedshift、Google CloudのBigQuery、Snowflakeなど代表的な製品

  • データ・ウェアハウスは、お客様のデータベースではなく社内の従業員です.
  • 処理速度以外の処理データはより重要である
  • .

  • ETLまたはデータパイプライン
  • 外部データを読み取る、ETLまたはデータパイプライン
  • と称するデータウェアハウスに格納する必要がある.
    ETL: (Extrack,Transform,Load)
    1. 기존 테이블의 데이터 추출(extract)
    2. 추출한 데이터의 변환(transform)
    3. 추출 및 변환한 데이터 적재(load)
    データインフラストラクチャとは
    データエンジニアが管理します.
    さらに発展する過程で,Sparkのような大量の分散処理システムが追加される.

    データ循環構造

    クラウドとAWS
    クラウドコンピューティング
    :ネットワークを介してコンピューティングリソース(ハードウェア、ソフトウェアなど)をサービスとして使用
    クラウドコンピューティングのメリット
  • 初期投資コストを大幅に削減
  • リソースの準備の遅延を減らす
  • を使用するコストを削減する
  • グローバル拡張
  • ソフトウェア開発時間の短縮
  • SQLお久しぶりです…!知っていることが出てきてほっとする気持ちになりましたㅠㅠ
    神経網に絡まれて...(実は私はまだ殴られていて、ずっと復習しています.
    しかし私はMySQLについてしか議論したことがありません.今回はデータウェアハウスに専念しているそうですが、他にもあるでしょう.

    そして、授業前の先生からの励ましに対して、質問の物語を身につけなければならないということに、私も大きな共感を得ました.😂
    特に私が何を知らないため、質問することができない話は私のようで、ほほほ
    質問しましょう.そして、得意な人にあまり気を落とさないでください.