Datadogのデータ予測機能を使う


ゴール設定(ただ監視するだけでは面白くない)

どうせなら、監視イベントが発動してから慌てて対策する運用はやめる。これからはデータ傾向をモニタリングして将来のイベントを予測することで、空いている時間にゆっくり予防保守する運用がいい。

予測その1.ディスク残り容量をモニタリング

今まで

ディスクの残り容量が10%未満になったらアラート通知メールを発信していた。すぐ対策が必要。

これからは

ディスクの残り容量が10%未満になる2週間前にアラート通知メールを発信する。今後2週間の空いたときに対策する(実際の運用では月次レビューの時に1か月後を予測する。とかになるだろうか)。

それでは設定してみます

モニタリング[New Monitor]を追加して、「フォーキャスト・アラート」を選ぶ。いつもと違うのは2週間後にしきい値を超えたらアラート通知する設定を加えるところ。

試してみる

現在のディスク利用率は84%。アラート通知の閾値は90%。DDコマンドでダミーデータを作って、ぎりぎり89%までディスクを埋めて、次の2週間を予測してもらおう。

$ df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/xvda2       25G   20G  3.8G  84% /

$ dd if=/dev/zero of=1G.dummy bs=1M count=1000
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 7.29562 s, 144 MB/s

$ df
Filesystem     1K-blocks     Used Available Use% Mounted on
/dev/xvda2      25412940 21253856   2861524  89% /

結果(予測メール来たあ)

このままだと2週間後にディスク容量が10%未満になる予測だけど、今日は未だ20%くらいの残り容量があるから空いている時間に対策をすればいい。業務の空き時間で対策できるので運用業務の平準化ができる。コレ便利。
メール件名:[Monitor Alert] Triggered: ターゲットのディスク容量が残り10%しかありません。

さてと。不要なデータを削除してディスク空き容量を増やします。

$ rm 1G.dummy
$ rm tempfile
$ rm empty3gb
$ df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/xvda2       25G   14G  9.5G  59% /

あれれ~。もう十分にディスクに空き領域があるのにアラートが解除されない。

[recovered]メールも届かない。

この[Resolve]ボタンを押すのかな。

ぽち。おお、これっぽい。

たらーん。どうやら[Forecast Alert]の場合は、対策を講じたあと、手動でアラートを解除するようだ。

おわぁぁ。対策したのに、またアラート通知メール来たっ

(原因)モニタの設定にアドバンスド設定があって、予測値アルゴリズムを”Default”モデルとしていたため、直近の大きな変動はノイズとしてデータ傾向を分析するすばらしい機能があったようです。対策後のデータ数が十分に蓄積されないとデータ傾向が改善されないモデルの様です。このままアラートが解除されるのを待つのだと思う。

モニタ設定>アドバンスト>予測値アルゴリズムを変えてみた

(Reactモデル)予測値アルゴリズムを”React”モデルにした場合、より直近のデータ範囲で将来を予測する。このモデルは、もしも直近のデータ変動がノイズだった場合も将来の予測に影響を与えてしまうかもしれない。

(Simpleモデル)予測値アルゴリズムを”Simple”モデルにした場合、直近のデータ傾向だけで、将来を予測するらしい。これは面白い。しかし直近傾向だけで判断するのは今回の主旨に合わない。

(結論:デフォでいいんじゃない)アラート通知に対する対策を講じた後、しばらくデータが蓄積されて将来の予測が見直しされるまで静観することを許容する運用手順とすることを前提に予測値アルゴリズムは”Default”のままで良いと思う。

そして約3時間後、予測ラインが更新されてアラートが解除された

メール件名:[Monitor Alert] Recovered: ターゲットのディスク容量が残り10%しかありません。

予測その2.WEBサイトの応答時間をモニタリング

下図、実際の過去データが左側、右側は将来の毎日のデータ予測。予測の傾向を見ると、毎日午前05:00から徐々に応答時間が長くなって午前11:00の364msをピークに、今度は徐々に応答時間が短くなると予測された。実績データのばらつきを見るととても午前11:00がピークにキレイな正弦波になるとは思えなかったから驚いた。

WEB応答時間のモニタ設定

アラート通知の設定欄にある[Advanced Options]を開き、[Seasonal]予測を選んだ。

まとめ

Datadogの[Forecast Alert]機能を使って、過去データから将来の傾向データを予測する手順を理解した。これからは、イベントが発生するだろうと予測できた時点から、イベントが発生するまでの期間に空き時間を見つけて対策すれば良いので、仕事の平準化ができる。ちょっと嬉しい。

Datadog関連記事