製造業におけるスケーラブルなデータとAIインダストリアルIoTソリューションの構築について


本記事はThe Databricks Blogの翻訳になります。

この記事は、Databricks社のBala Amavasai氏と、Databricks社のコンサルティングパートナーであるTredence社の共同投稿です。Tredence社のDirector - Industry SolutionのVamsi Krishna Bhupasamudram氏とSr.Architect - IOT analyticsのAshwin Voorakkara氏に感謝します。Vamsi Krishna Bhupasamudram氏、Tredence社のAshwin Voorakkara氏に感謝します。

今日、製造業や物流において最も重要な発展は、データと接続性によって実現されています。そのためには、IIoT(Industrial Internet of Things)がデジタルトランスフォーメーションのバックボーンを形成し、エッジから人工知能(AI)へのデータジャーニーの第一歩となります。

IIoTテクノロジースタックの重要性と成長は、決して過小評価できるものではありません。複数の大手調査会社の調査によると、IIoTは2027年まで年率16%以上で成長し、全世界で2630億ドルに達すると予想されています。自動化、プロセスの最適化、機械間通信を中心としたネットワーク化、ビッグデータ解析、機械学習(ML)など、数多くの産業プロセスがこの成長を後押ししており、航空宇宙、自動車、エネルギー、ヘルスケア、製造、小売などの市場で、品質、スループット、稼働率の向上を実現しています。センサーからのリアルタイムデータは、産業用エッジデバイスや企業インフラのリアルタイムな意思決定に役立ち、より良い製品、より俊敏な生産インフラ、サプライチェーンリスクの低減、市場投入までの時間短縮を実現します。

IIoTアプリケーションは、より広範なインダストリーX.0パラダイムの一部として、産業用資産を企業の情報システム、ビジネスプロセス、およびビジネス運営の中心となる人々と「接続」することを可能にします。これらの「モノ」やその他の業務データの上に構築されたAIソリューションは、新たなリアルタイムの洞察、インテリジェンス、最適化を提供し、意思決定を迅速化することで、従来の設備投資と新しい設備投資の両方の価値を最大限に引き出し、先進的なリーダーが変革的なビジネス成果と社会的価値を実現することを可能にします。データが新たな燃料であるように、AIはIIoTによる変革を推進する新たなエンジンです。

製造現場や車両からのセンサーデータを活用することで、さまざまなメリットが得られます。クラウドベースのソリューションを利用することで、効率化と計画性の向上を図ることができます。使用例は以下の通りです。

  1. 予知保全:工場全体の保全コストを40%削減する。
  2. 品質管理と検査:製造工程の品質を最大35%向上させる。
  3. リモートモニタリング:作業員の健康と安全を確保する。
  4. 資産モニタリング:石油・ガス産業のエネルギー使用量を4〜10%削減させる。
  5. フリート管理:貨物の提案をほぼ100%迅速に行う。

インダストリアルIoTソリューションを始めるには

インダストリー4.0ソリューションの価値を最大限に引き出すためには、早い段階で適切な判断を下さなければ、困難が伴います。メーカーは、IIoTによって生成されるデータの速度と量に対応し、さらに非構造化データを統合できるデータおよび分析プラットフォームを必要とします。インダストリー4.0を達成するには、ユーザーの採用、運用、技術の成熟度を考慮した上で、実績のある技術を用いて慎重に設計する必要があります。

メーカーは戦略の一環として、データアーキテクチャに関する以下の重要な質問に取り組む必要があります。

  1. 正確な予測やスケジューリングを行うためには、どの程度のデータを収集する必要があるのか?
  2. 正確な予測やスケジューリングを行うためには、どれだけのデータを収集する必要があるか?
  3. どのくらいの数のデバイスIoTシステムが、どのくらいの頻度でデータを生成しているのか?
  4. データを社内やパートナーと共有する必要があるか?

図1のオートメーション・ピラミッドは、典型的な製造業のシナリオにおける異なるIT/OTレイヤーをまとめたものです。データの粒度はレベルごとに異なります。一般的には、ピラミッドの下端が最も大量のデータをストリーミング形式で扱います。ピラミッドの上層部では、分析や機械学習は主にバッチコンピューティングに依存しています。

メーカーが自社の取り組みに適したプラットフォーム・アーキテクチャーを設計・提供するためには、いくつかの重要な課題と考慮すべき点があります。

課題 要求される性能
膨大なデータ量と早い処理速度 ストリーミングしているIoTデバイスから、高速度で粒度の高い読み取り値を確実かつコスト効率よくキャプチャして保存する能力
データを抽出するためのOT層の複数の独自プロトコル 複数のプロトコルからMQTTやOPC UAなどの標準プロトコルにデータを変換する能力
より複雑になっていくデータ処理のニーズ  低レイテンシーの時系列データのプロセシング、アグリゲーション、マイニング
MLユースケースのためのキュレーションされたデータの提供と分析の実現 高度なAI/MLアプリケーションのためのヘビーデューティーで柔軟なコンピュート
スケーラブルなIoTエッジ対応のML開発 粒度の高い過去のデータに基づいて予測モデルを共同でトレーニングし、展開し、"ML-IoT ops"のアプローチにより、データとモデルのパイプラインを効率化する能力
エッジML、インサイト、アクションのオーケストレーション リアルタイムのインサイトと自律的なアクションのオーケストレーション
効率的なエッジ実装 データエンジニアリングパイプライン、MLパイプラインを比較的小さなフォームファクタのデバイスにプロダクション展開する能力
セキュリティとガバナンス さまざまなレイヤーのデータガバナンスの実装とバリューチェーン全体での脅威モデリング

プラットフォームやテクノロジーの選択に関わらず、連携する必要のある基本的なビルディングブロックがあります。アーキテクチャがシームレスに機能するためには、これらのビルディングブロックのそれぞれが説明される必要があります。

Databricksをベースにした、典型的な技術アーキテクチャを以下に示します。Databricksの機能は多くのニーズに対応していますが、IIoTソリューションは孤立している存在しているわけではなく、多くのサポートサービスやソリューションの連携が必要です。このアーキテクチャは、これらの追加コンポーネントをどこに、どのように統合するかについての指針も示しています。

ITベースの従来のデータアーキテクチャとは異なり、製造業ではハードウェアとソフトウェアが交差しているため、OT(オペレーショナルテクノロジー)アーキテクチャが必要になります。OTは、プロセスや物理的な機械と闘わなければなりません。このアーキテクチャの各コンポーネントやアスペクトは、産業オペレーションを扱う際の特定のニーズや課題に対応するように設計されています。図中の数字は、アーキテクチャを通過するデータの流れを示しています。

1 - 複数のOTプロトコルを接続し、拡張性のある方法で機器からIoTデータを取り込み、ストリーミングする。センサーやPLC/SCADAなど、データ量の多いOT機器からクラウドデータプラットフォームへのインジェストを合理化する
2 - バッチモードでのエンタープライズデータおよびマスターデータの取り込み
3,11 - ほぼリアルタイムにインサイトを提供可能
4 - データインジェスト用に生データレイクを調整
5,6 - データエンジニアリングパイプラインを開発し、データの処理、標準化、異常の除去、Delta Lakeへの保存を行う
7 - データサイエンティストによるデータベース上でのMLモデルの構築
8,9,10 - 運用可能なMLモデルをコンテナ化してエッジに出荷し、エッジアナリティクスを可能にする
12,13 - 集約されたデータベースには、フォーマットされたインサイトが格納され、リアルタイムでもバッチでも、どのような形でも利用できる
14 - CI/CDパイプラインにより、データエンジニアリングパイプラインとエッジやhotpath/coldpath上のMLモデルのデプロイを自動化する

このアーキテクチャを採用すべき6つの理由

スケーラブルなIIoTアーキテクチャを構築するためには、5つのシンプルな洞察があります。

  1. 単一のエッジプラットフォームは、無数のタグをストリーミングする複数のOTプロトコルからデータを接続し、取り込む必要がある。
  2. Lakehouseでは、Databricksジョブコンピュートクラスター(ストリーミング)によりデータをほぼリアルタイムでインサイトに変換し、データエンジニアリングクラスターにより大量のデータをバッチで処理することができる。
  3. All purposeクラスターでは、大量のデータに対してMLワークロードを実行することができる。
  4. MLflowは、モデルの成果物をコンテナ化し、エッジに展開することで、リアルタイムな洞察を可能にする。
  5. LakehouseのアーキテクチャであるDelta Lakeは、オープンソースであり、オープンスタンダードに準拠しているため、ロックインを起こすことなくソフトウェアコンポーネントの互換性を高めることができる。
  6. すぐに使用できるAIノートブックとアクセラレータが存在する。

IIoTソリューションになぜLakehouseなのか

製造業のシナリオでは、複数のデータを持つセンサーが複数のゲートウェイデバイスに供給され、データはストレージに一貫して着地する必要があります。このシナリオに関連する問題は以下の通りです。

  1. ボリューム:システム内のデータ量が多いため、保存されるデータ量が急増し、その結果、コストが要因となります。
  2. 速度:通常の製造現場では、何百ものセンサーが何十ものゲートウェイに接続されていますが、これは理想的な失敗の原因です。
  3. 多様性:ショップフロアからのデータは、必ずしも構造化された表形式ではなく、半構造化または非構造化されている場合があります。

Databricks Lakehouse Platformは、大量のストリーミングデータの管理に理想的です。Delta Lakeの基盤上に構築されているため、これらの複数のセンサーやデバイスから小さなチャンクで配信される大量のデータストリームを扱うことができ、ACID準拠を提供し、従来の倉庫アーキテクチャと比較してジョブの失敗を排除することができます。Lakehouseプラットフォームは、大量のデータに対応できるように設計されています。

製造業では、半構造化(JSON、XML、MQTTなど)や非構造化(ビデオ、オーディオ、PDFなど)からなる複数のデータタイプが生成されますが、これらはプラットフォームのパターンが完全にサポートしています。これらのデータタイプを1つのプラットフォームに統合することで、1つのバージョンの真実のみが存在し、より正確な結果を得ることができます。

また、レイクハウスのデータ管理機能に加えて、データチームがデータのコピーを作成することなく、直接アナリティクスやMLを実行できるため、精度と効率が向上します。また、ストレージはコンピュートから切り離されているため、レイクハウスはより多くの同時接続ユーザーや大量のデータに対応することができます。

まとめ

IIoTシステムの上に構築されたソリューションに投資したメーカーは、コストと生産性が大幅に最適化されただけでなく、収益も増加しています。様々なソースからのデータを統合することは、製造業における継続的な課題です。価値主導型の結果をもたらすための核心は、産業データの量と速度に対応して拡張できる適切なアーキテクチャに投資することですが、一方でコストの大幅な増加にはなりません。私たちDatabricksとTredenceは、データ・レイクハウス・アーキテクチャーが大きな力を発揮すると信じています。今後のブログ記事では、このコアアーキテクチャをベースに、産業ビッグデータの「リポジトリ」内に構築された有意義なデータ分析やAI駆動の分析を実行することで、どのような価値を提供できるかを紹介していきます。

ご参考