Datadog で Fluentd のバッファ監視をする方法


---- ---- ----
追記: 2015/10/12
今では Datadog の公式エージェント (dd-agent) に組み込まれているので、How to monitor Fluentd with Datadog を読むことをオススメします。
---- ---- ----

Fluentd のバッファ監視といえば、弊社の @moaikids さんが書いた munin-fluentd をはじめとして、いくつか既存のソリューションがありますが、弊社のメトリクス監視を Datadog に移行するタイミングで、munin-fluentd と同じ監視が Datadog にも欲しいよねということになって書いたので、それを紹介したいと思います。

Datadog Fluentd Integration

一言で説明すると、munin-fluentd と同じように、output プラグイン毎の retry_countbuffer_queue_lengthbuffer_total_queued_size を Datadog に送るための Integration になります。例えば下記のようなグラフでバッファの状態を可視化したり、バッファの状況に合わせてアラートを送るといったことが簡単にできます。

ホスト毎にみる

メトリクス名は fluentd.${output_plugin}.retry_count のような名前になります。

ロール毎にみる

ロール毎にまとめてみることで、特定のホストだけおかしいみたいなことに早めに気づけたりするので捗っています。

設定方法

Datadog 公式の監視エージェント (dd-agent) に PR を送ってましたが、マージが間に合わなかったので、dd-agent をインストールしただけでは使えない状況です。v5.2.0 に入れてもらうべく進めていますが、もしマージされる前に使い始めたい場合は、check/etc/dd-agent/checks.d 配下に、yaml/etc/dd-agent/conf.d 配下に置くことでご利用いただくことが可能です。

課題

今の実装だと、複雑なコンフィグを扱う時に若干の制約がでてきてしまっていますが、monitor_agent の機能的に仕方ないのかなと思っています。この辺り、何か上手くできる方法がありましたら教えていただけると助かります。

課題1. 同じ type のプラグインが複数ある場合の対処

同 type のプラグインで output 先が複数あるようなケース (例えば out_forward で 2 つ以上のホストに forward して、それぞれのバッファの設定が異なるような場合) は、それらの違いを判別できる仕組みがないので、個別に閾値を設定するみたいなことができません。どうしても個別に監視したい場合は fluentd のインスタンスを分けてしまえばできそうな気もしますが、設定ファイルが複雑になるのであまりやりたくない感じです。

課題2. forest プラグインの場合、どのプラグインが詰まってるのか分かりにくい

forest プラグインを使うと、下記のように type が null になってしまうので、どのプラグインで詰まっているか分かりにくいです。サーバにログインして curl http://127.0.0.1:24220/api/plugins.json | jq . みたいなことをすればなんとかなりますが、Datadog だけで完結させたい...。

    {
      "config": {
        "format": "out_file",
        "reduced_redundancy": "true",
        "buffer_chunk_limit": "536870912",
        "time_slice_wait": "10m",
        "s3_bucket": "bucket",
        "s3_endpoint": "s3-ap-northeast-1.amazonaws.com",
        "s3_object_key_format": "key_format",
        "path": "path",
        "buffer_path": "buffer_path",
        "time_slice_format": "%Y-%m-%d/%H"
      },
      "retry_count": 0,
      "buffer_total_queued_size": 58,
      "buffer_queue_length": 0,
      "output_plugin": true,
      "type": null,
      "plugin_id": "object:3f81962b46dc"
    }

まとめ

Datadog で Fluentd のバッファ監視をする方法を紹介しました。

あとは、小ネタで "Fluentd で HTTP ステータスコードを集計して Datadog で可視化 or 監視する - Qiita" というのも書いたので、興味がある方がいましたらご覧くださいませー。

おまけ - Fluentd のバッファ監視をする方法あれこれ