SRE本まとめ(12章 効果的なトラブルシューティング)


自分の理解を深めるためにまとめてみました。11章の続きです。

12章 効果的なトラブルシューティング

理論

トラブルシューティングのプロセスは仮説演繹法の応用と考えられる。プロセスとしては「トリアージ→観察→診断→対処」となる。

実践

全ては問題のレポートからスタートする。問題毎にBTSにチケットを登録して処理するほうがよい。問題発生時はまずはトリアージを行うが、最速で原因究明をしようとは考えずに、システムがその状況で出来る限り正常動作するように振る舞うことが大切。診断の際はにはコンポーネント間の接続を注意深く観察する。ブラックボックステストを行うことも有効である。分割統治法は非常に有用なテクニックである。問題の整理にあたっては「What」「Where」「Why」を意識すること。

否定的な結果の素晴らしさ

否定的な結果は、無視したり過小評価したりするべきではない。否定的な結果を理解することには大きな意味がある。否定的な結果が出た実験は決定的なものである。ツールや方法論は有益である。極力ケースを周囲に公開することで業界全体の底上げとなる。

トラブルシューティングを容易にするために

  • 観察のための仕組みを構築する。
  • システム設計時に既知の技術を使ってコンポーネント間に観察可能なインターフェースを持たせる。

13章に続く)