データ分析でのメタデータ

1526 ワード

metadata DataAnalysis DataLake bigdata bigdata テキストリンク

データレイクを管理、利用していく上で、データがどんなに綺麗に処理されても、「それはどういうデータなのか」、「どこにあるのか」を把握できなければ、データの真価は見出せません。
小さい組織であれば、隣の人に聞けば済むことなので、それほど大事じゃないですが、規模が大きくなるとデータの意味を知ることが難しくてなってくるので、メタデータ管理が重要になってきます。メタデータを管理することで、データレイクの沼化も防ぐことができます。

メタデータとは

データを説明するためのデータ

メタデータが提供しなければ行けないもの

データの場所をユーザに提示する
ユーザがデータの理解するための手かがりを提示する

メタデータで収集しておきたいもの

メタデータ	説明	例
技術面	どのように定義されているのかを示すもの。データがデータレイクに収集された段階で収集が可能。	データのタイプ（csv,text,json,Avroなど）、CREATE TABLE文にあるもの
運用面	データのプロファイル、データの出処を示すもの。データに障害が発生したときに影響範囲の調査で役立つ	リネージュ、データの大きさ、データの行数
ビジネス面	ビジネス文脈での意味を示すもの	区別の説明において、0が男性、1が女性のような説明文。今と昔では意味が変わってることを説明文。データ辞書とも言ってたりします。

その他
データオーナー：そのデータは誰によって作られ管理されているのか
データセキュリティー：そのデータは誰が見ていいのか

メタデータの開示

メタデータの公開はツールの利用もしくは、Webサイトなどを作って公開する手法が一般的です。こうしたサイトを「データカタログ」と呼びます。メタデータはユーザが頻繁に調べる情報なので、ユーザが簡単に検索できるものが良く、データ利用者が内容を編集できるようなレビュー機能もあると良いです。
　商用のデータカタログ製品もいろいろあり、Infomatica、Denodo、Talendあたりが有名です。OSSだと、CKANとういうソフトがよく使われます。クラウド環境だと、Azure Data Catalog, AWSのGlueがカタログとして利用できます。ただし、AWSのGlueのカタログはあくまでETLサービスの一つの機能で、Glueが作成するデータはAWSサービス間のデータの物理定義を管理するものなので、ビジネスでのメタデータの登録には不向き。

Author And Source

この問題について(データ分析でのメタデータ), 我々は、より多くの情報をここで見つけました https://qiita.com/tatsutatsugo/items/32d39937a1a33590b948

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .