GCPの Cloud Data Catalog の ドキュメント読んだメモ


GCPでのメタデータ管理用サービスとして超便利。

Data Catalog の概要

フルマネージドでスケーラビリティの高いデータ検出およびメタデータ管理サービス

公式Doc

やれることは2つ

  • アクセス可能なデータアセットを検索
  • メタデータでアセットにタグ付けする

Cloud Data Catalog の対象データ

  • BigQueryのデータセット、テーブル、ビュー
  • Cloud Pub/Subトピック
  • Cloud Strogeバケット、 Cloud Stroageオブジェクト
    • ※ GCSはドキュメントには対象として記述があるが現在DataCatalogの検索対象には入ってない

タグを使って独自のメタデータを適用することも可能

検索と発見

  • アセットが存在する元のストレージシステムから提供されるネイティブメタデータ
    • 名前や ID などのプロジェクト情報
    • アセットの名前と説明
    • Google Cloud Platform のリソースラベル
    • BigQuery のテーブルとビューのスキーマ名と説明
  • アセットに適用したユーザー生成の Cloud Data Catalog メタデータ

Getting started with Data Catalog

  • タグの使い方がわかる
  • 自分で定義したメタデータがタグとしてデータセットにつけられる

Data Catalog の検索構文

検索方法の詳細。

description: hoge で検索すると説明文のみの検索になるなど。