Databricks AutoMLで時系列データ予測をサポートしました
本機能を利用するには、Databricksランタイム 10.0 ML以降が必要です。
Databricksランタイム 10.0以降でAutoMLの時系列データ予測をサポートしました。この記事では、GUIによる操作方法をご説明します。なお、APIからも本機能を利用できます。
データの準備
事前にトレーニングデータを「forecast_train_df」としてデータベースに登録しておきます。ここでは、COVID-19感染者数の時系列データを使用します。
import pyspark.pandas as ps
df = ps.read_csv("/databricks-datasets/COVID/covid-19-data")
df["date"] = ps.to_datetime(df['date'], errors='coerce')
df["cases"] = df["cases"].astype(int)
display(df)
# AutoML UIから参照できるようにデータフレームをテーブルに保存します
sdf = df.to_spark()
sdf.write.saveAsTable("forecast_train_df")
GUIを用いた時系列データ予測AutoML
-
Computeフィールドで、Databricksランタイム 10.0ML以降が稼働しているクラスターを選択します。
Prediction targetではcases
を選択します。
Time columnではdate
を選択します。
Forecast horizon and frequencyでは10 Days
を指定して、向こう10日間の予測を行うように指示します。
必要に応じてAdvanced Configuration (optional)を展開して終了条件を指定した後、Start AutoMLをクリックし、トレーニングを開始します。
トレーニング、評価が完了すると、ベストモデルを生成したノートブック(View notebook for best model)とトレーニングデータのトレンドを分析したノートブック(View data exploration notebook)にアクセスできるようになります。
APIを用いた時系列データ予測AutoML
Computeフィールドで、Databricksランタイム 10.0ML以降が稼働しているクラスターを選択します。
Prediction targetではcases
を選択します。
Time columnではdate
を選択します。
Forecast horizon and frequencyでは10 Days
を指定して、向こう10日間の予測を行うように指示します。
必要に応じてAdvanced Configuration (optional)を展開して終了条件を指定した後、Start AutoMLをクリックし、トレーニングを開始します。
トレーニング、評価が完了すると、ベストモデルを生成したノートブック(View notebook for best model)とトレーニングデータのトレンドを分析したノートブック(View data exploration notebook)にアクセスできるようになります。
APIを用いたサンプルノートブックはこちらにあります。
詳細はDatabricks AutoMLのマニュアルをご覧ください。
Databricks 無料トライアル
Author And Source
この問題について(Databricks AutoMLで時系列データ予測をサポートしました), 我々は、より多くの情報をここで見つけました https://qiita.com/taka_yayoi/items/7d42bab3017774737ca9著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .