データ分析でのメタデータ
データレイクを管理、利用していく上で、データがどんなに綺麗に処理されても、「それはどういうデータなのか」、「どこにあるのか」を把握できなければ、データの真価は見出せません。
小さい組織であれば、隣の人に聞けば済むことなので、それほど大事じゃないですが、規模が大きくなるとデータの意味を知ることが難しくてなってくるので、メタデータ管理が重要になってきます。メタデータを管理することで、データレイクの沼化も防ぐことができます。
メタデータとは
データを説明するためのデータ
メタデータが提供しなければ行けないもの
データの場所をユーザに提示する
ユーザがデータの理解するための手かがりを提示する
メタデータで収集しておきたいもの
メタデータ | 説明 | 例 |
---|---|---|
技術面 | どのように定義されているのかを示すもの。データがデータレイクに収集された段階で収集が可能。 | データのタイプ(csv,text,json,Avroなど)、CREATE TABLE文にあるもの |
運用面 | データのプロファイル、データの出処を示すもの。データに障害が発生したときに影響範囲の調査で役立つ | リネージュ、データの大きさ、データの行数 |
ビジネス面 | ビジネス文脈での意味を示すもの | 区別の説明において、0が男性、1が女性のような説明文。今と昔では意味が変わってることを説明文。データ辞書とも言ってたりします。 |
その他
データオーナー:そのデータは誰によって作られ管理されているのか
データセキュリティー:そのデータは誰が見ていいのか
メタデータの開示
メタデータの公開はツールの利用もしくは、Webサイトなどを作って公開する手法が一般的です。こうしたサイトを「データカタログ」と呼びます。メタデータはユーザが頻繁に調べる情報なので、ユーザが簡単に検索できるものが良く、データ利用者が内容を編集できるようなレビュー機能もあると良いです。
商用のデータカタログ製品もいろいろあり、Infomatica、Denodo、Talendあたりが有名です。OSSだと、CKANとういうソフトがよく使われます。クラウド環境だと、Azure Data Catalog, AWSのGlueがカタログとして利用できます。ただし、AWSのGlueのカタログはあくまでETLサービスの一つの機能で、Glueが作成するデータはAWSサービス間のデータの物理定義を管理するものなので、ビジネスでのメタデータの登録には不向き。
Author And Source
この問題について(データ分析でのメタデータ), 我々は、より多くの情報をここで見つけました https://qiita.com/tatsutatsugo/items/32d39937a1a33590b948著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .