SRE本まとめ(3章 リスクの受容)


自分の理解を深めるためにまとめてみました。2章の続きです。

3章 リスクの受容

リスクについて

信頼性を高めることは重要ではあるが、必要以上に高めることはすべきではない。信頼性を高めるにつれてコストもあがるため、信頼性とコストのバランスを常に意識する必要がある。信頼性を計測する際は「サービスの可用性」に着目するとよい。可用性の計算として2パターンあり、稼働時間をベースにするパターンとリクエスト数の成否をベースにするパターンがある。この可用性はSREだけで決めるのではなく、プロダクトマネージャーと連携して決める必要がある。Googleの中でも当然サービスによって求められる可用性のレベルは異なっている。例えば「G Suite」の場合は対外的な目標値と内部的な目標値をそれぞれもち、対外的<内部的という関係としている。(顧客との契約で対外的な目標を約束している。)
エラーバジェットを導入することでSREと開発チームとの間でリスクコントロールが可能となる。エラーバジェットに余裕がある場合は多少リスクがあってもローンチを優先する方向となり、逆にエラーバジェットがほとんど尽きている場合はリスクを取らずにローンチのスピードを落とす方向となる。

4章に続く)