SRE本まとめ(11章 オンコール対応)


自分の理解を深めるためにまとめてみました。10章の続きです。

11章 オンコール対応

イントロダクション

オンコール対応はサービスを安定運用させるために必要であり、SREチームもオンコール対応を行う。しかし、SREチームが異なるのは、問題に対するアプローチにおいてエンジニアリングの活用に非常に重きをおいていることである。オンコールエンジニアはユーザとの取り決めで要求が厳しい場合は5分以内、通常であれば30分以内に対応することが求められている。(サービスの可用性と大きな関係性がある。)多くのチームはプライマリ&セカンダリの体制でやっている。

バランス

量はオンコール相当に費やす時間の割合、質はオンコールシフト中に生じたインシデント数で計算される。マネージャーは量と質の観点で持続可能な状態を保つ責任を持つ。時間としては全体の25%以下になるようにすべき。チームとしては少人数でマルチサイト対応にできればベター。夜間シフトの観点とエンジニアが本番環境に接点を持たせる観点から。過去の経験から1つの障害の対応に要する時間は6時間のため12時間シフトの場合は1回のシフトで2件までであり、その中におさまるようにコントロールすべき。忘れがちだが、時間外のサポートに対する報酬もきちんとすべき。障害に直面したときは理性的かつ集中して慎重な認識のもとに対応しないといけない。経験則から直感的に対処しがちであるが誤った判断をしてしまう恐れがある。インシデントが発生した際には振り返りも重要であり、再発しないようにする。オンコールエンジニアの過負荷を避けるためには、インシデントに対するアラートを極力1:1に調整したり、アプリ開発者と連携してアプリケーションの品質をコントロールしたり、場合によってはオンコール対応をアプリ開発者に任せるという策もある。逆に低負荷であることも問題であり、稀に発生するオンコールに対処できなくなってしまうため、障害訓練などのトレーニングを意図的に行う必要がある。

12章に続く)