Python Wheelタスクを用いてプロダクションパイプラインを簡単にデプロイする

1911 ワード

How to Deploy ML Production Pipelines Even Easier With Python Wheel Tasks - The Databricks Blogの翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

豊富なオープンソースエコシステムと、とっつき易い文法によってPythonは、データエンジニアリングと機械学習における主要なプログラミング言語となりました。データエンジニア、MLエンジニアはすでにPythonノートブック、Pythonスクリプトを用いてパイプラインをおーけストレートするためにDatabricksを活用しています。本日、より複雑なPythonのデータパイプライン、MLパイプラインのコードをより簡単に開発、パッケージ、デプロイできるようにDatabricksでPythonのWheelを実行できるようになったことを発表できることを嬉しく思います。

Python wheelタスクはインタラクティブクラスターあるいはマルチタスクのジョブの一部としてジョブクラスター上で実行することができます。

Wheelパッケージフォーマットを用いることで、Python開発者は別のシステムに簡単かつ信頼性を持ってコンポーネントをインストールできるように、プロジェクトのコンポーネントをパッケージングすることができます。JVMの世界におけるJARフォーマットのように、Wheelは通常CI/CDシステムのアウトプットとなっており、圧縮された単一のビルドアーティファクトです。JARと同様に、Wheelにはソースコードだけではなく、全ての依存関係への参照も含まれています。

Wheelを用いたジョブを実行するためには、ローカルあるいはCI/CDパイプラインでPython Wheelを構築します。タスクでWheelのパスを指定し、エントリーポイントとして実行されるべきメソッドを指定します。タスクのパラメーターは、*argsあるいは**kwargsを通じてお使いのメインメソッドに引き渡されます。

DatabricksジョブにおけるPython WheelタスクはGA(Generally Available)です。是非本機能を試していただき、我々がどのようにPythonデータエンジニアをサポートできるのかについてフィードバックいただければと思います。

Databricks 無料トライアル

Author And Source

この問題について(Python Wheelタスクを用いてプロダクションパイプラインを簡単にデプロイする), 我々は、より多くの情報をここで見つけました https://qiita.com/taka_yayoi/items/93474d9420ed48eb5e05

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .