SRE本まとめ(6章 分散システムのモニタリング)


自分の理解を深めるためにまとめてみました。5章の続きです。

6章 分散システムのモニタリング

モニタリングの必要性

  • 長期的なトレンドの分析
  • 時間や実験グループ間での比較
  • アラート
  • アドホックな振り返り分析の進行

4大シグナル

  • レイテンシ
  • トラフィック
  • エラー
  • サチュレーション

Bigtableでの事例

過剰なアラートが発生していたため、問題切り分けのためにかなりの時間を消費していた。アラートの閾値を下げることでアラートを減らし、根本的な解決のための時間を確保し、結果として早期に安定稼働させることができた。

7章に続く)