SRE本まとめ(6章 分散システムのモニタリング)
自分の理解を深めるためにまとめてみました。5章の続きです。
6章 分散システムのモニタリング
モニタリングの必要性
- 長期的なトレンドの分析
- 時間や実験グループ間での比較
- アラート
- アドホックな振り返り分析の進行
4大シグナル
- レイテンシ
- トラフィック
- エラー
- サチュレーション
Bigtableでの事例
過剰なアラートが発生していたため、問題切り分けのためにかなりの時間を消費していた。アラートの閾値を下げることでアラートを減らし、根本的な解決のための時間を確保し、結果として早期に安定稼働させることができた。
(7章に続く)
Author And Source
この問題について(SRE本まとめ(6章 分散システムのモニタリング)), 我々は、より多くの情報をここで見つけました https://qiita.com/bassbone/items/86414eddcc2b2d2b05ac著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .