ユーザーが必要とするスロットを選択する


私たちの最新の2部シリーズのブログでは、アダムハモンドは、どのようにあなたのユーザーに適している持続可能なスロットを構築することができますについての話、あなたの技術プラットフォーム、およびあなたのビジネスは、順番にあなたのシステムを堅牢にするお客様は、お客様の幸せ、ビジネスブームを支援します.
サービスレベルの目標(slos)は、メトリックベースのターゲットを使用して、ユーザーに負の影響を与える可能性がある活動(保守や失敗した展開など)を制約する強力な操作ツールです.伝統的に、あなたはそれがサービスレベル協定(SLAs)の範囲内で契約条件で使用されるのを聞いたかもしれません.しかし、彼らははるかにそれ以上です:スロートは、“ビジネスの人々”だけでなく、プロセスの改善と技術進歩を推進するための技術スタッフによって使用することができる強力なツールです.Slosは、あなたのシステム、その能力に改善される必要があることを示すメトリックベースの指標として恐るべき使用をしています、そして、あなたがあなたの仕事努力を集中させるとき、あなたは最高の「Back for Buck」を得ることができます.しかし、スワイプはデータによって影響されなければなりません、そして、データがあなたの顧客から来ることができるだけです.多くのIT専門家は、彼らが最高の指標を知っていると思う傾向があります、そして、彼らはします;唯一の問題は、顧客満足度を向上させるためではなく、モニタリングシステムに最適な指標であることです.今日、我々はあなたがあなたのユーザー、あなたのテクノロジープラットホームとあなたのシステムを堅牢にするのを助けるあなたのビジネスとあなたのビジネスに適切な持続可能なslodを構築するのを援助するつもりです.

正しい質問をする


私たちには、何がslosであるかについての考えがあるので、我々はポジティブなユーザー結果をもたらすデータベースのアプローチを確立することについて行く必要があります.これは、データを収集し、そのデータを使用してスロットを構築する2段階のプロセスです.これらの質問のためのソースデータは、3つの主要な場所から来ます:あなたのユーザー、あなたのシステムとあなたのビジネスプロセス.外出してズームコールでクライアントに話をし、ログを介してトロール、およびメンテナンスを理解し、あなたのシステムのサポートライフサイクルを準備します.これらの質問のための処方箋はありません、彼らは主観的です、そして、みんなのシナリオは異なります.Paretoの原則を覚えておくことも重要です.ユーザの80 %は、システムの約20 %を使います.したがって、あなたのシステムの最も一般的に使用される部分のためのスロットをターゲッティングして提供することによって、このエクササイズの中で最高の価値を得るでしょう.
例質問
-ユーザがいつ私のシステムをアクティブに使うのか、それとも受動的に使うのですか?
どのくらいのメンテナンスを行う必要がありますどのように定期的に
それが必要ですか?
-どのような許容範囲が私のユーザーが停電を持っていますか?
-あなたのユーザは、あなたのアプリケーションを
ビジネス?
今の私のシステムはどれだけうまく実行できますか?
-どのようなレベルのパフォーマンスが必要ですか?

スロートの決定


あなたがデータ収集運動を終えたとき、それは実際にあなたのslosをセットすることに集中する時間です.slosは一般的には-しかし、必ずしもではない-以下のカテゴリに分類されます.

これらのカテゴリは、人々が品質の側面であると考えているもののほとんどをカバーしています.彼らはまた、客観的にあなたのslosの要件に対してあなたのシステムを測定するために使用できるメトリクスに簡単に翻訳.最後に、あなたのスロットを定義するときに、良いSLOはS . M . A . R .
  • 具体的には、SLOは、それがどのような対策をしているかを明示的に示すべきである(例えば、サーバが要求されるかどうかをテストすることによって可用性を測定したい).
  • 測定可能な
  • : SLOは測定可能なものでなければなりません(ディスクレイテンシは5 ms未満で、ディスクは速くなければなりません).
  • 実現可能な
  • :あなたはあなたのスロットを満たすことができるはずです(例えば、基礎となるサービスが95 %のSLOを持っているなら、100 %を保証することはできません).
  • に関連しています:あなたのSLOはユーザ経験を反映しなければなりません(例えば、ウェブサーバのための適切なメトリックは、CPU時間ではなく、応答時間です).
  • timebound : SLOはあなたのシステムがどのように使用されるかに適した期間をカバーしなければなりません(例えば、あなたのユーザーが午前9時と午後5時の間であなたのシステムを使用するならば、24時間のSLOはあなたの実際のメトリックを希釈して、問題を隠します).
  • さあ、SLOを作成しましょう.SLOが達成可能であるか、関連するかどうかは、必要な特定の文言に関連しません、しかし、それは特定のSLOがセットされなければならないかどうか指図します.たとえば、ファイルを取得するための平均時間が5分であるならば、あなたはファイルがそれより速く届けられることができると保証しません.あるいは、あなたのユーザーがそのファイルが一貫しているのを気にするだけであるならば、結局、それらに彼らに届けられます、そして、検索時間ベースのSLOはたぶんあなたのためでありません.この場合、最高のSLOはファイルの割合が常にユーザーに届けられることを保証するものです.
    いったんSLOが適切であると決心したら、紙にSLOを下ろしましょう.覚えておいてください.私たちは、文言が特定で、タイムバインドされていて、それが測定可能であることを確認する必要があります.それがこれらのすべてでないならば、それは単にSLOとして使うことができません.例を考えましょう.システムは、株式取引を処理し、すべての要求は、規制機関によって指示として300 ms以内に完了する必要があります.システムを運営している会社は、平均で、30日以上が250 msより速く完了すると要求するSLOを提供したいです.システムは現在、30日ローリング平均で232 ms以内98 %の要求に対応しています.SLOテキストは次のようになります.

    これは良いSLOですか?はい.システムは既にSLOを超えているので、実現可能である.要求がSLO制限の範囲内で最終化されるという法的要求があります.私たちは、我々のパフォーマンスを保証したいメトリックに固有です.私達は私達のSLOを30日間の期間に制限しました.そして、それは我々がタイムバウンドであるレポートを走らせるのを許します.最後に、我々のメトリックはプロメテウスメトリックを介して測定可能です.我々は、ユーザーの経験に合わせて調整されているスマートなSLOのすべての要件を満たしている.
    あなたのslosでメンテナンスと予定のダウンタイムを説明する方法
    誰もがシステムを維持する必要がありますいくつかは非常に利用可能です
    他のダウンタイムが必要ですが、ダウンタイムはありません.シンプル
    答えは、あなたのメンテナンスをSLOに焼くことです.あなたが知っているならば
    月にシステムの97 %の可用性を提供することができますが
    メンテナンスの14時間(2 %)を必要とし、95 %のみを提供します.それは
    赤い顔をしているより、約束して、より配達するほうがよい
    あなたのシステムがオフラインであったので
    )

    より良いサービスを提供する(そしてあなたのSLO保証を増やす)


    我々が我々のスロットを持っている今、彼らはスマートです、しかし、...我々は、我々の目標に会っていません(あるいは、彼らを上回ることを望む).何をするか我々は、この挑戦を克服するのに十分に我々のシステムパフォーマーを作る必要があります.努力に関して要求している間、これはSRE Wheelhouseで正しかって、あなたのシステムパフォーマンスを改善するために、あなたの専門知識と知識に支配的に依存します.ユーザーがより速い要求を必要とするならば、あなたのプロキシ設定を合理化してください.ディスクの読み込みが遅すぎる場合は、高いIOPまたはより高いスループットの選択肢を考慮してください.バッチジョブが長すぎる場合は、正しいサイズのインスタンスのように、彼らは適切な量の時間で処理します.いくつかのより困難なアプローチは、オペレーティングシステム、データベースプラットフォーム、あるいは開発フレームワークを変更することを含みます.それは完全に分析し、あなたのslodsに影響を与えるシステムの要因を理解し、適切なSREの練習を通じてそれらの問題を軽減するあなたの能力に依存します.
    改善された監視と災害回復:より技術的なアプローチから別のオプションもあります.あなたのモニタリングを改善することによって、あなたが問題が彼らがあなたのslosに影響する前に捕えられることを確実とすることができます.あなたの災害復旧計画は、あなたの溝を管理して、維持する鍵です.我々が少なくとも彼らを予想するとき、災害は来ます、それで、DR手順を実行して、改善することは、災難が襲われるならば、あなたはできるだけ速くサービスを元に戻すことができることを意味します.これは、どんな災害停止時間もあなたのシステムを回復するために厳しく必要とするものだけに制限されることを確実とすることによって、スロットへの全体的な影響を制限します.
    これらのプロセスを使用すると、あなたのユーザーを喜ばせるとあなたのシステムを喜んで自分たちの経験を作るスロットを提供することができます.会議(そして、うまくいけば、彼らの予想を超える)によって、あなたはあなたのビジネスと製品を危険にさらす生涯の顧客を構築します.

    続く。


    このブログの2番目の部分において、私たちは、そのようなスロットが顧客ニーズから派生していないならば、「達成しているslos」がビジネスのために必ずしも良いというわけではない方法をハイライトするThe Phoenix Projectからのビルに基づく例を見ています.
    Squadcastは、SREのために造られる目的の事件管理ツールです.あなたのチームは、不要なアラートを取り除くことができる、関連する通知を受け取る、仮想事故の戦争室を使用してコラボレーションで作業し、tobookのように自動化ツールを使用して苦労を排除する.