SRE本まとめ(10章 時系列データからの実践的なアラート)


自分の理解を深めるためにまとめてみました。9章の続きです。

10章 時系列データからの実践的なアラート

Borgmon

BorgをモニタリングするためのBorgmonが構築された。共通のフォーマットでデータを収集し、グラフの描画やアラート通知に利用されている。Borgmonがモニタリングするシステムは動的に変わるものなので、サービスディスカバリを利用し自動更新されている。収集しているデータは一旦インメモリデータベースに保存し、定期的にディスクに書き込みしている。時系列データと呼ばれる時間順のリストとして保存され、ラベル群が名前として与えられている。構造は時系列アリーナと呼ばれる固定サイズのメモリブロックになり、アリーナが一杯になると時系列の古いものから削除される。(最新と最古のエントリに時間差はホライズンと呼ばれる。)時系列データは数値とタイムスタンプの並びとして保存され、ベクタと呼ばれている。時系列データの名前はラベルセットと呼ばれる。Borgmonルールと呼ばれるプログラムコードは時系列データから別の時系列データを算出するシンプルな台数式で構成される。Borgmonはホワイトボックスモニタリングシステムであるが、ブラックボックスモニタリングも必要である。GoogleではProberというツールを使い、ターゲットに対するプロトコルチェックを行い、成否をレポートする。

まとめ

メンテナンスコストがサービスのサイズに比例しないようにすることがモニタリングをメンテナンス可能にするための鍵である。SREは自分たちのあらゆる作業をグローバルな規模にまでスケールさせるために働くので、このテーマはSREのあらゆる作業について繰り返される。

11章に続く)