[TIL] day30
TIL
リレーショナル・データベースとは?構造化データを格納および照会するための記憶
(表形式-行x列) SQLプログラミング言語を使用したリレーショナル・データベースの処理
(テーブル定義言語DDLテーブルデータ、DMLを操作または照会するための言語) SQLを使用するのは、SQLほど検証と使用が容易な言語が構造化されたデータの分析と操作に使用されていないためです.
->つまり、データ関係者であれば知っておく必要があります!
一般的なリレーショナル・データベース
本番データベースMySQl, PostgreSQL, Oracle... OLTP(OnLine Transaction Processing) サービスに必要な情報を格納します.サービス用なので、スピードが重要!
データウェアハウスRedshift, Snowflake, BigQuery, Hive... OLAP(OnLine Analytical Processing) 処理データのサイズは に集中する.データ分析又はボデルビル等のデータ格納 データチームのメンバーは主にデータウェアハウス を使用します.はデータベースとは独立しており、サービス には影響しません.
リレーショナル・データベースの構造
ステップ2最下端にテーブル があるテーブルは、データベース(またはアーキテクチャ)というフォルダの下にあります.
(データが非常に多いのでフォルダで管理しやすい…) 表の構造表は、記録からなる(行) レコードは、1つまたは複数のフィールド(列)からなる を記録する.フィールド(カラム)は、名前、タイプ、および属性(プライマリ・キー)からなる です.
primary keyは、テーブル・アーキテクチャの特性によって異なりますが、テーブルの一部のカラムで値の繰り返しが許可されていない場合は、設定できます.
(値が一意であることを確認します.重複する値を追加しても例外ではありません.)
リレーショナル・データベースのデータをクエリーまたは操作する言語 DDL DML 構造化されたデータに関連する限り、SQLはデータ規模とは無関係です.
すべての大規模なデータ・ウェアハウスはSQLベースであり、SparkとHadoopも例外ではありません.
(データ分野で働く上で身につけなければならない基本的なスキル…!
SQLの欠点
構造化データのみ処理!最適化
非構造化テストデータなどを扱う場合は、正規表現を使用します.
非構造化データを正規表現である程度処理することは可能であるが,制限は大きい.(非効率)
多くのリレーショナル・データベースでは、フラット構造のみがサポートされています.
多くのリレーショナル・データベースにはフィールドは存在しませんが、フィールドにネストされた構造は存在しません.
(その他、GoogleのBigQueryはネスト構造をサポートしています)
非構造化データの処理には、SparkやHadoopなどの分散コンピューティング環境が必要です.(これも会社がある程度成長したことを証明しています)
SQLのみでは構造化されていないデータを処理できないためです.
各リレーショナル・データベースのsql構文は少し異なります.
本番データベースとデータ・ウェアハウスの違い
問:データをモデリングする方法は何ですか.
(データの表現方法を尋ねる)
Star schema
Production DB用のリレーショナル・データベースでは、通常、スター・モードを使用してデータを格納します.データは論理単位で別々に格納され、必要に応じてチェックインされます.
データ・ウェアハウスの使用方法
単位テーブルで保存せず、単独で結合する必要はありません
通常、本番データからコピーされるため、データ更新はデータ・ウェアハウスでは行われないため、サービスには影響しません.
データウェアハウス
sqlベースのリレーショナル・データベース 本番データベースは、 から独立している必要があります. AWSのRedshift、Google CloudのBigQuery、Snowflakeなど代表的な製品
データ・ウェアハウスは、お客様のデータベースではなく社内の従業員です. 処理速度以外の処理データはより重要である .
ETLまたはデータパイプライン 外部データを読み取る、ETLまたはデータパイプライン と称するデータウェアハウスに格納する必要がある.
データエンジニアが管理します.
さらに発展する過程で,Sparkのような大量の分散処理システムが追加される.
データ循環構造
クラウドとAWS
クラウドコンピューティング
:ネットワークを介してコンピューティングリソース(ハードウェア、ソフトウェアなど)をサービスとして使用
クラウドコンピューティングのメリット初期投資コストを大幅に削減 リソースの準備の遅延を減らす を使用するコストを削減する グローバル拡張 ソフトウェア開発時間の短縮 SQLお久しぶりです…!知っていることが出てきてほっとする気持ちになりましたㅠㅠ
神経網に絡まれて...(実は私はまだ殴られていて、ずっと復習しています.
しかし私はMySQLについてしか議論したことがありません.今回はデータウェアハウスに専念しているそうですが、他にもあるでしょう.
そして、授業前の先生からの励ましに対して、質問の物語を身につけなければならないということに、私も大きな共感を得ました.😂
特に私が何を知らないため、質問することができない話は私のようで、ほほほ
質問しましょう.そして、得意な人にあまり気を落とさないでください.
リレーショナル・データベースとは?
(表形式-行x列)
(テーブル定義言語DDLテーブルデータ、DMLを操作または照会するための言語)
->つまり、データ関係者であれば知っておく必要があります!
一般的なリレーショナル・データベース
本番データベースMySQl, PostgreSQL, Oracle...
データウェアハウスRedshift, Snowflake, BigQuery, Hive...
リレーショナル・データベースの構造
ステップ2
(データが非常に多いのでフォルダで管理しやすい…)
primary keyは、テーブル・アーキテクチャの特性によって異なりますが、テーブルの一部のカラムで値の繰り返しが許可されていない場合は、設定できます.
(値が一意であることを確認します.重複する値を追加しても例外ではありません.)
예) 이메일/주민등록번호를 받았을 경우, 이는 고유값이므로 중복되면 안되니까 primary key를 지정
SQLリレーショナル・データベースのデータをクエリーまたは操作する言語
すべての大規模なデータ・ウェアハウスはSQLベースであり、SparkとHadoopも例外ではありません.
(データ分野で働く上で身につけなければならない基本的なスキル…!
SQLの欠点
構造化データのみ処理!最適化
非構造化テストデータなどを扱う場合は、正規表現を使用します.
非構造化データを正規表現である程度処理することは可能であるが,制限は大きい.(非効率)
多くのリレーショナル・データベースでは、フラット構造のみがサポートされています.
多くのリレーショナル・データベースにはフィールドは存在しませんが、フィールドにネストされた構造は存在しません.
(その他、GoogleのBigQueryはネスト構造をサポートしています)
非構造化データの処理には、SparkやHadoopなどの分散コンピューティング環境が必要です.(これも会社がある程度成長したことを証明しています)
SQLのみでは構造化されていないデータを処理できないためです.
各リレーショナル・データベースのsql構文は少し異なります.
問:データをモデリングする方法は何ですか.
(データの表現方法を尋ねる)
Star schema
Production DB用のリレーショナル・データベースでは、通常、スター・モードを使用してデータを格納します.データは論理単位で別々に格納され、必要に応じてチェックインされます.
장점: 스토리지 낭비가 덜하고 업데이트가 쉬움
단점: 매출의 디테일을 보려고하면 수많은 다른 테이블과 조인해야함
Denormalized schemaデータ・ウェアハウスの使用方法
単位テーブルで保存せず、単独で結合する必要はありません
장점: 조인이 필요 없기에 빠른 계산이 가능
단점: 모든게 반복되기 때문에 스토리지가 많이 필요함.
ただし、データ・ウェアハウスはストレージ容量に制限されません.通常、本番データからコピーされるため、データ更新はデータ・ウェアハウスでは行われないため、サービスには影響しません.
データウェアハウス
회사에 필요한 모든 데이터를 저장
sqlベースのリレーショナル・データベース
データ・ウェアハウスは、お客様のデータベースではなく社内の従業員です.
ETLまたはデータパイプライン
ETL: (Extrack,Transform,Load)
1. 기존 테이블의 데이터 추출(extract)
2. 추출한 데이터의 변환(transform)
3. 추출 및 변환한 데이터 적재(load)
データインフラストラクチャとはデータエンジニアが管理します.
さらに発展する過程で,Sparkのような大量の分散処理システムが追加される.
データ循環構造
クラウドとAWS
クラウドコンピューティング
:ネットワークを介してコンピューティングリソース(ハードウェア、ソフトウェアなど)をサービスとして使用
クラウドコンピューティングのメリット
神経網に絡まれて...(実は私はまだ殴られていて、ずっと復習しています.
しかし私はMySQLについてしか議論したことがありません.今回はデータウェアハウスに専念しているそうですが、他にもあるでしょう.
そして、授業前の先生からの励ましに対して、質問の物語を身につけなければならないということに、私も大きな共感を得ました.😂
特に私が何を知らないため、質問することができない話は私のようで、ほほほ
質問しましょう.そして、得意な人にあまり気を落とさないでください.
Reference
この問題について([TIL] day30), 我々は、より多くの情報をここで見つけました https://velog.io/@hhyebb/TIL-day30テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol