インシデント管理
システム障害の検知から復旧、再発防止までを体系的に管理するプロセス
SRE運用
インシデント管理とは
インシデント管理は、システム障害の検知から復旧、再発防止までを体系的に管理するプロセスである。「誰が何をするか」を事前に定義し、障害時の混乱を最小化する。
インシデントの重大度
| レベル | 影響 | 対応 |
|---|---|---|
| SEV1 | サービス全体がダウン | 即時対応、全員招集 |
| SEV2 | 主要機能が利用不可 | 30 分以内に対応開始 |
| SEV3 | 一部機能に影響 | 翌営業日に対応 |
| SEV4 | 軽微な問題 | バックログに追加 |
インシデント対応の流れ
1. 検知 (Detection)
CloudWatch アラーム → SNS → PagerDuty → オンコール担当者
2. トリアージ (Triage)
重大度を判定、インシデントコマンダーを任命
3. 対応 (Response)
ランブックに従って復旧作業
コミュニケーションチャネルで状況を共有
4. 復旧 (Recovery)
サービスの正常動作を確認
5. 振り返り (Review)
ポストモーテムで根本原因を分析
再発防止策を策定・実施
インシデントの役割
インシデントコマンダー (IC) が全体の指揮と意思決定を担い、テクニカルリードが技術的な調査・復旧を行う。コミュニケーションリードがステークホルダーへの報告を担当し、スクライブがタイムラインを記録する。
ステータスページ
[Investigating] 18:00 - API のエラー率が上昇しています。調査中です。
[Identified] 18:15 - DynamoDB のスロットリングが原因と特定しました。
[Monitoring] 18:30 - 対策を実施しました。監視中です。
[Resolved] 19:00 - 正常に復旧しました。
AWS でのインシデント検知
CloudWatch Alarms (メトリクスベースのアラート)、CloudWatch Anomaly Detection (異常検知)、GuardDuty (セキュリティインシデント)、Health Dashboard (AWS サービスの障害) を組み合わせて検知する。
インシデント管理のアンチパターン
犯人探しは心理的安全性を低下させる。ポストモーテムをスキップすると同じ障害が再発する。全員が同時に作業すると混乱と重複作業が生じる。記録を残さないと知見が蓄積されない。
詳しくは関連書籍を参照。