SLA / SLO / SLI

SLA / SLO / SLI とは

SRE (Site Reliability Engineering) の中核概念で、サービスの信頼性を定量的に管理するための 3 層の指標体系である。Google の SRE チームが体系化し、2016 年の「Site Reliability Engineering」で広く知られるようになった。

3 つの関係を図で示す。

SLI (何を測るか) → SLO (どこまで目指すか) → SLA (何を約束するか)
  リクエスト成功率     99.9%                    99.95% (違反時10%返金)

SLO は SLA より厳しく設定する。SLO を守れていれば SLA 違反は起きない。SLO と SLA の差がバッファ (安全マージン) になる。SLA なしで SLO だけを運用する組織も多い。社内サービスや初期段階のプロダクトでは、SLO のみで十分だ。

SLI は「ユーザーが体感する品質」を測定するメトリクスを選ぶ。サーバーの CPU 使用率やメモリ使用量は SLI に適さない。ユーザーにとって重要なのは「リクエストが成功したか」「応答が速かったか」だ。

SLO が 99.9% なら、30 日間で 0.1% (約 43 分) のダウンタイムが許容される。この「許容される失敗の量」がエラーバジェットだ。

月間エラーバジェット = 30日 × 24時間 × 60分 × (1 - SLO)

SLO 99.9%  → 43.2 分/月
SLO 99.95% → 21.6 分/月
SLO 99.99% → 4.3 分/月

エラーバジェットの運用ルールは明確にする。

この仕組みにより、「信頼性 vs 機能開発」のトレードオフが定量的に管理できる。開発チームと SRE チームの間で「もっと安定させろ」「もっと速くリリースしろ」という感情的な対立が解消される。

「ナイン」の数が 1 つ増えるごとに、許容ダウンタイムは 10 分の 1 になる。

SLO	月間ダウンタイム	年間ダウンタイム	難易度
99% (ツーナイン)	7.3 時間	3.65 日	単一サーバーでも達成可能
99.9% (スリーナイン)	43 分	8.76 時間	冗長化が必要
99.95%	21.6 分	4.38 時間	マルチ AZ が必要
99.99% (フォーナイン)	4.3 分	52.6 分	自動フェイルオーバー必須
99.999% (ファイブナイン)	26 秒	5.26 分	マルチリージョン必須

99.99% と 99.999% の差は月間 4 分だが、達成に必要なアーキテクチャの複雑さとコストは桁違いに増える。ほとんどのサービスでは 99.9%〜99.95% が現実的な目標だ。

AWS の主要サービスの SLA は以下のとおり。自サービスの SLO を設定する際の参考になる。依存する AWS サービスの SLA より高い SLO を自サービスに設定しても達成できない。

SLO を 99.999% に設定すると、月間 26 秒しかダウンタイムが許されない。デプロイのたびにエラーバジェットが枯渇し、事実上リリースできなくなる。SLO はユーザーの期待に合わせて設定する。社内ツールに 99.999% は過剰だ。

SLA は契約であり、違反すると金銭的なペナルティが発生する。SLO は内部目標であり、違反してもペナルティはない (エラーバジェットの消費として扱う)。SLA は SLO より緩く設定し、バッファを持たせる。

より深く学ぶには関連書籍が役立つ。