SORACOM で取得した圃場データを Amazon Forecast に食わせて時系列予測してみた(失敗編)


この記事は SORACOM Advent Calendar 2019 ひとつめ の 24日目 の記事です。

はじめに

SORACOM UG 農業活用コミュニティ の中の人の @ko2a です。

最近、本業が炎上して忙しすぎてコミュニティ活動がままらない状況で、いい加減何か私もコミットせにゃあかんな・・・と焦っていました。

そんな中、2018年にコミュニティでお手伝いして IoT ボックスを導入した農家さんの 紹介記事 を目撃し、以下の点について要望を頂いてしまいました。

設置して1年。今のところはデータを記録して、関連性を調べているところだが、次に欲しい機能は、サジェスチョン機能だそう。

まあ確かにデータは1年分溜まってるし、そろそろ何かデータ活用考えないとなぁ・・・と思っていたら、やはり先方も同じことを考えていたみたいでしたorz

とりあえず私自身、機械学習とか AI をこねくり回すスキルはほぼ皆無なのでどうしようかと考えた結果、AWS の時系列予測サービスの Amazon Forecast にデータを食わせて何か予測できないか試してみることにしました。

おことわり

  • 食わせたデータが良くなかった & Amazon Forecast の設定をインターネットの記事片手にざくっと設定したため、期待してたようなデータの予測ができませんでした。
    時間あったら再挑戦するかも?

  • SORACOM サービスの使い方とかそういったものは今回記載していません。
    SORACOM サービスから Amazon Forecast へ食わせるデータの作成については、SORACOM Funnel から Amazon S3 へデータを保存するノウハウが既に公開されていますので、そちらをご覧ください。

SORACOM Funnel の Kinesis Firehose アダプターを使用してクラウドにデータを収集する(コンソール版)
RaspberryPiからSORACOM Funnel経由でS3やDynamoDBに書き込む

データを取ってくる

@chinoppy 力作の Django アプリから圃場データを CSV 形式で取得してきます。

取得してきたのは 2019-09-01 ~ 2019-11-30 のハウスのデータです。
とりあえずヘッダーとタイムスタンプを利用しやすいように加工します。

Amazon Forecast の設定

Create dataset group

適宜 Dataset group name をつけて、 Forecasting domain は "Custom" を選択しました。

Create target time series dataset

Dataset name は詳細な名前に、 Frequency of your data はデータの取得間隔が 10 分おきなので "10 minute(s)" とします。
Dataset schema は先ほど取得した CSV ファイルのヘッダー情報を JSON へ記載していきます。

が・・・必須の AttributeName (item_id, target_value) の定義がなかったり


必須の AttributeName 以外は AttributeType をすべて "string" に設定しないと次へ進めない始末。
結局 CSV ファイルの列情報とかあれこれ修正して次へ進みました。メンドッチィ・・・・

{
        "Attributes": [
          {
            "AttributeName": "timestamp",
            "AttributeType": "timestamp"
          },
          {
            "AttributeName": "item_id",
            "AttributeType": "string"
          },
          {
            "AttributeName": "temp1",
            "AttributeType": "string"
          },
          {
            "AttributeName": "humi1",
            "AttributeType": "string"
          },
          {
            "AttributeName": "temp2",
            "AttributeType": "string"
          },
          {
            "AttributeName": "ground_temp",
            "AttributeType": "string"
          },
          {
            "AttributeName": "leaf_temp",
            "AttributeType": "string"
          },
          {
            "AttributeName": "solar_radiation",
            "AttributeType": "string"
          },
          {
            "AttributeName": "target_value",
            "AttributeType": "float"
          }
        ]
}

Amazon S3 へ CSV データアップロード

適宜 S3 Bucket を作成して CSV データをアップロードします。

Import target time series data

S3 Bucket へアップロードした CSV ファイルをインポートするための設定をします。

Import your data

インポートが開始すると、Dashboard 上でインポート状況を確認できます。

Predictor training

インポートが完了すると Predictor training が有効になるので Start を押します。

Forecast horizon は予測数を入力します。
今回はとりあえず12時間分予測できればいいかな?ということで、"72" をセットしています。

Forecast frequency が "10 minute(s)" なので 1時間の予測をするのに Forecast horizon は "10 minute(s)" × "6" = "60 minute(s)" という計算となるため、"720 minute(s)" ÷ "10 minute(s)" = "72" ということで "72" をセットしています。

Train a predictor

Train predictor をセットすると、学習を開始するので待ちます。

Forecast generation

Train predictor が完了すると Forecast generation が有効になるので選択します。

Create a forecast

作成した Predictor を選択して forecast を作成します。

Forecast lookup

Forecast の作成が完了したら Lookup forecast を押して予測を確認します。

Start date は CSV データの最後尾データより前の日時を、End date は Predictor training で設定した予測数の範囲内に収める必要があります。(そうしないと予測を取得実行ができない

あと、Forecast key には item_id にセットした "pF" をセットします。

Forecast 結果

えっ、なにこれまっすぐ?不変データ?これ予測してるの???
思ってたんと違う・・・

なんでこんな予測になった???

よくよく投入したデータを見直したら、2019年11月最終週あたりのデータはあまり変化していなかったことが判明orz

一番右の列が予測したかった土壌水分の値(マトリックスポテンシャル値)ですが、11月後半は2.7前後であまり変動していませんでしたorz

これが作物を育成している8月とかだと変動があるので、違う結果が予測できたかもしれません・・・
参考:2019/08/27 の土壌水分量値の変化

おわりに

実は投稿前日の夜までノータッチな状態で、よるごはん食べた後資料見ながらポチポチ設定して3時間ぐらいでここまでできました(ほしかった予測結果は見れず失敗だったわけですがorz

今回扱った圃場のデータは時系列予測させるには結構様々な要素が絡んできたり、圃場の土壌環境によっても左右されるため、ほしい予測を得るにはもちっとうまく設定させる必要はありそうですが、マネジメントコンソールからこれだけできるのはすごい時代になりましたねぇ・・・(数式アレルギーもつ私でもへっちゃら

SORACOM サービス使って取得したデータはあるけども、どうやって利活用しようか?って悩んでいる方は、一度 Amazon Forecast へセットしてみてどんな結果が得られるか試してみるのは如何でしょう?

参考:AWS 利用料

us-west2 で 120.44 JPY

次回予告

失敗編で終わらせたままだとコミュニティの活動が続かなくなるので、2020年にはリトライする(かも

参考資料

Amazon Forecastでお手軽に時系列予測
Amazon Forecast を使ってお手軽に時系列予測する(GUI編)