IBM Watson Knowledge Catalog (WKC) で始めるデータガバナンス


はじめに

  • 突然ですが、データドリブン経営って流行っている言葉ですよね
  • これを実現するためにはどうすれば良いのでなんでしょうか?
  • 一つの答えとしては、「AIをどんどん活用する」ということが上がってくると思います
  • それでは「AIをどんどん活用する」にはどうすれば良いのでしょうか?
  • これに対しては、さまざまな回答が想定されます。例えば、
    • 分析対象としたいデータにアクセスできる状態になっていないから、その基盤を整えなければいけない
    • 精緻なAIモデルを作ることができるデータサイエンティストが必要
    • 作ってくれたAIモデルから意味を見出して、ビジネスに適用するためのビジネスアナリストが必要
    • 継続的にAIをビジネスに組み込むための運用(AIOps)の仕組みが大事 etc...
  • これらは全てその通りで、皆様もすぐに思いつくのではないのでしょうか?
  • しかし、「データガバナンスを担保する仕組みが大事」とすぐに答える人は少数派なように感じます
  • なぜなら、この手の話は、わざわざ仕組みがなくても、ドキュメントやヒューマンオペレーションで担保している企業が多く、システム化するとしてもそのイメージが湧きにくいからだと考えます
  • そこで、今回は、あえて「データガバナンスのシステム」という、敬遠されがちなトピックについて、IBMのソリューションである、Watson Knowledge Catalogをベースにお話をしたいと思います

データガバナンスって?

  • データガバナンスとは何なのでしょうか?IBMの定義によると次の通りです

データ・ガバナンスは、エンタープライズ・データ管理をサポートするために、ポリシー、プロセス、組織の構造で構成されています。 データ・ガバナンス・プログラムは、特に企業がより多くのデータ・ソースと資産を拡張し蓄積する際に、利害関係者の間で企業のデータに関する理解、セキュリティー、信頼性を提供する構造になっています。 新しいデータの急激な増加により、企業は、保管やアクセスを目的としたデータレイクのような、適切なビッグデータ環境を決定する必要があります。また、これらのソースを管理するためにデータ・アーキテクチャーを設計し、統合を行い、企業全体で利用できるようにする必要があります。 このデータ統合は、さまざまなチームのワークフローと意思決定に影響を与えるため、ますます重要になっています。
データ・ガバナンスは、データ管理のために、また完全なDataOps手法の一部として、企業の全体的な戦略に不可欠です。 また、どのようなデータがあるか、そのデータがどこにあるのか、どのようにデータを使用できるかを把握するために役立ちます。 データ・ガバナンスは、定義済みのルールとプロセスへの準拠を通じて、ビジネス対応データの基盤を構築し、分析と成長のイニシアチブを加速させます。
https://www.ibm.com/jp-ja/analytics/data-governance

  • 少し難しいかもしれないので、ここでは、「企業がビジネスをする上で必要なデータを取り扱うために、適切な利用やセキュリティを担保するための統制」 くらいに捉えていきましょう

Watson Knowledge Catalog (WKC) とは?

  • Watson Knowledge Catalog (以下、WKCと記載) とは、CP4D上で稼働する、エンタープライズ・カタログサービスです
  • CP4Dとは、IBM Cloud Pak® for Data のことで、OpenShift上で稼働する、社内外の様々なデータを活用し、あらゆる分析ニーズに対応可能なEnd-to-Endのプラットフォームです

WKCでデータガバナンスを実現するには?

  • データガバナンスについては、ポリシー・プロセス・組織の観点がそれぞれ必要ですが、話が広がってしまうので、今回は、「システムでそれを担保するために、どんな機能が必要か」と言う観点でみていきましょう
  • そこで、IBMのデータガバナンスのためのソリューションである、WKCをベースにして、色々みていきましょう。
  • WKCのタスク・主な機能・主体を整理すると次の通りです
テーマ タスク 主な機能 主体
データガバナンス(Data Governance) ガバナンスポリシー/ルールの作成、業務用語登録、保有するデータの種類整理(どういったデータを持っているか、検出/管理するか)、これら定義項目の変更管理 ビジネス用語/カテゴリー、ポリシー、ルール、データクラス、リファレンスデータ、ワークフロー データスチュワード(カタログ管理者)
データ整理/品質管理(Data Curation, Data Quality) データ接続の定義とメタデータの取込み、データの品質チェック、品質分析、データの分類(どういったデータが保管されているか)、業務用語とデータのマッピング、データの来歴把握、影響分析 データディスカバリー(メタデータ取込、品質スコアチェック、データの分類、用語マッピング) 品質分析、データリネージュ データスチュワード(カタログ管理者)
データ探索/利用(Data Consumption) データを検索、データの調査/整形、チームでのナレッジシェア 検索(グローバルサーチ)、データのFind/Understand/Prepareを支援するデータカタログ(Preview, Profile, コメント ,簡単なデータ加工など) 業務部門データ分析者・データサイエンティスト
  • ・・・「データガバナンスの話をしているのに、なんでそれ以外のテーマまで出てきているんだ!」とお怒りの方はどうか落ち着いてくださいませ
  • ここで改めて、WKCがどのようにIBMで紹介されているか確認してみましょう

IBM Cloud Pak for Data上でご利用いただけるIBM Watson Knowledge Catalogは、エンタープライズ・データ・ガバナンス・プラットフォームと緊密に統合されたデータ・カタログです。データ・カタログは、データ利用者が必要なデータを容易に見つけて、準備し、理解し、使用するのに役立ちます。Watson Knowledge Catalogは、データ資産、データ・セット、分析モデル、および組織の他のメンバーとの関係を素早く検出、収集、カテゴリー化、および共有するのに役立ちます。データ・エンジニアやデータ・スチュワード、データサイエンティスト、ビジネス・アナリストなどのデータ・シチズン(データ利用者)が、信頼できるデータへのセルフサービス・アクセスを実現するための信頼できる唯一の情報源として機能します。データ・ガバナンス、データ品質、およびアクティブなポリシー管理により、お客様の組織が機密データを保護して管理し、データ・リネージュ(来歴)を追跡し、データレイクを管理するのに役立ちます。そのため、大規模なAIに対応できます。
https://www.ibm.com/jp-ja/cloud/watson-knowledge-catalog

  • これも読むのは大変だと思うのですが、要は、WKCはデータガバナンスを「カタログ」という概念でデータを整理してデータガバナンスの仕組みを構築します
    • その中で、ビジネス用語やルール(例:データマスキングやアクセス可否の管理)のガバナンス成果物(メタデータ)を作成、組み合わせて各企業にとって必要な統制を実現していきます
  • そして、データがばんばんすの単機能だけを提供しているわけではなく、データガバナンスを実現するために必要な機能、とくに「データ品質管理」周りも備えていると理解していただければ幸いです
  • また、「データ探索/利用」については、その結果、業務部門データ分析者・データサイエンティストがよりガバナンスが効いたデータを扱うためにサポートする機能も提供しているくらいに捉えていただければ幸いです

WKCをよりよく理解するために(動画のご紹介)

おわりに

  • 以上が、WKCのデータガバナンスについての簡単なご紹介です
  • 冒頭に書いた通り、AIを活用する上では、他にも様々な課題があり、それを段階的にクリアしていくために、IBMでは、The AI Ladder (AI活用に至るための梯子) というアプローチを定義しています
    • AI Ladder
      • 適用する - Infuse – AIの活用・管理
      • ↑:活用する - Analyze – お客様のビジネスを加速化させるための可視化/分析
      • ↑:整える - Organize – 蓄積したデータを使いやすいよう整える
      • ↑:つなぐ - Collect – あらゆるデータを活用できるように蓄積
  • この中の、整える - Organize – を実現するためにデータガバナンスが必要で、それを実現するためのソリューションがWKCだと理解いただければ幸いです
  • なかなか個人では考える機会がない、データガバナンスですが、企業がAIを駆使してデータドリブン経営をするために必須になってくる概念だと考えますので、これを機に色々チェックしていただければ嬉しいです
  • 最後まで、ご確認いただき、ありがとうございました