SRE本まとめ(3章 リスクの受容)
自分の理解を深めるためにまとめてみました。2章の続きです。
3章 リスクの受容
リスクについて
信頼性を高めることは重要ではあるが、必要以上に高めることはすべきではない。信頼性を高めるにつれてコストもあがるため、信頼性とコストのバランスを常に意識する必要がある。信頼性を計測する際は「サービスの可用性」に着目するとよい。可用性の計算として2パターンあり、稼働時間をベースにするパターンとリクエスト数の成否をベースにするパターンがある。この可用性はSREだけで決めるのではなく、プロダクトマネージャーと連携して決める必要がある。Googleの中でも当然サービスによって求められる可用性のレベルは異なっている。例えば「G Suite」の場合は対外的な目標値と内部的な目標値をそれぞれもち、対外的<内部的という関係としている。(顧客との契約で対外的な目標を約束している。)
エラーバジェットを導入することでSREと開発チームとの間でリスクコントロールが可能となる。エラーバジェットに余裕がある場合は多少リスクがあってもローンチを優先する方向となり、逆にエラーバジェットがほとんど尽きている場合はリスクを取らずにローンチのスピードを落とす方向となる。
(4章に続く)
Author And Source
この問題について(SRE本まとめ(3章 リスクの受容)), 我々は、より多くの情報をここで見つけました https://qiita.com/bassbone/items/756ef8b4769ceb0ee000著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .