データ分析でのメタデータ


データレイクを管理、利用していく上で、データがどんなに綺麗に処理されても、「それはどういうデータなのか」、「どこにあるのか」を把握できなければ、データの真価は見出せません。
小さい組織であれば、隣の人に聞けば済むことなので、それほど大事じゃないですが、規模が大きくなるとデータの意味を知ることが難しくてなってくるので、メタデータ管理が重要になってきます。メタデータを管理することで、データレイクの沼化も防ぐことができます。

メタデータとは

データを説明するためのデータ

メタデータが提供しなければ行けないもの

データの場所をユーザに提示する
ユーザがデータの理解するための手かがりを提示する

メタデータで収集しておきたいもの

メタデータ 説明
技術面   どのように定義されているのかを示すもの。データがデータレイクに収集された段階で収集が可能。 データのタイプ(csv,text,json,Avroなど)、CREATE TABLE文にあるもの
運用面   データのプロファイル、データの出処を示すもの。データに障害が発生したときに影響範囲の調査で役立つ リネージュ、データの大きさ、データの行数
ビジネス面   ビジネス文脈での意味を示すもの 区別の説明において、0が男性、1が女性のような説明文。今と昔では意味が変わってることを説明文。データ辞書とも言ってたりします。

その他
データオーナー:そのデータは誰によって作られ管理されているのか
データセキュリティー:そのデータは誰が見ていいのか

メタデータの開示

メタデータの公開はツールの利用もしくは、Webサイトなどを作って公開する手法が一般的です。こうしたサイトを「データカタログ」と呼びます。メタデータはユーザが頻繁に調べる情報なので、ユーザが簡単に検索できるものが良く、データ利用者が内容を編集できるようなレビュー機能もあると良いです。
 商用のデータカタログ製品もいろいろあり、Infomatica、Denodo、Talendあたりが有名です。OSSだと、CKANとういうソフトがよく使われます。クラウド環境だと、Azure Data Catalog, AWSのGlueがカタログとして利用できます。ただし、AWSのGlueのカタログはあくまでETLサービスの一つの機能で、Glueが作成するデータはAWSサービス間のデータの物理定義を管理するものなので、ビジネスでのメタデータの登録には不向き。