インシデント管理

システム障害の検知から復旧、再発防止までを体系的に管理するプロセス

SRE運用

インシデント管理とは

インシデント管理は、システム障害の検知から復旧、再発防止までを体系的に管理するプロセスである。「誰が何をするか」を事前に定義し、障害時の混乱を最小化する。

インシデントの重大度

レベル 影響 対応
SEV1 サービス全体がダウン 即時対応、全員招集
SEV2 主要機能が利用不可 30 分以内に対応開始
SEV3 一部機能に影響 翌営業日に対応
SEV4 軽微な問題 バックログに追加

インシデント対応の流れ

1. 検知 (Detection)
   CloudWatch アラーム → SNS → PagerDuty → オンコール担当者

2. トリアージ (Triage)
   重大度を判定、インシデントコマンダーを任命

3. 対応 (Response)
   ランブックに従って復旧作業
   コミュニケーションチャネルで状況を共有

4. 復旧 (Recovery)
   サービスの正常動作を確認

5. 振り返り (Review)
   ポストモーテムで根本原因を分析
   再発防止策を策定・実施

インシデントの役割

インシデントコマンダー (IC) が全体の指揮と意思決定を担い、テクニカルリードが技術的な調査・復旧を行う。コミュニケーションリードがステークホルダーへの報告を担当し、スクライブがタイムラインを記録する。

ステータスページ

[Investigating] 18:00 - API のエラー率が上昇しています。調査中です。
[Identified]    18:15 - DynamoDB のスロットリングが原因と特定しました。
[Monitoring]    18:30 - 対策を実施しました。監視中です。
[Resolved]      19:00 - 正常に復旧しました。

AWS でのインシデント検知

CloudWatch Alarms (メトリクスベースのアラート)、CloudWatch Anomaly Detection (異常検知)、GuardDuty (セキュリティインシデント)、Health Dashboard (AWS サービスの障害) を組み合わせて検知する。

インシデント管理のアンチパターン

犯人探しは心理的安全性を低下させる。ポストモーテムをスキップすると同じ障害が再発する。全員が同時に作業すると混乱と重複作業が生じる。記録を残さないと知見が蓄積されない。

詳しくは関連書籍を参照。

関連用語