インシデント管理

インシデント管理とは

インシデント管理は、システム障害の検知から復旧、再発防止までを体系的に管理するプロセスである。「誰が何をするか」を事前に定義し、障害時の混乱を最小化する。

インシデントの重大度

インシデントの重大度を以下にまとめる。

レベル	影響	対応
SEV1	サービス全体がダウン	即時対応、全員招集
SEV2	主要機能が利用不可	30 分以内に対応開始
SEV3	一部機能に影響	翌営業日に対応
SEV4	軽微な問題	バックログに追加

インシデント対応の流れ

インシデント対応は検知、トリアージ、対応、振り返りの 4 フェーズで進行する。アラートで検知した後、重大度を判定してインシデントコマンダーを任命し、ランブックに従って復旧作業を行う。復旧後はポストモーテムで根本原因を分析し、再発防止策を実施する。

1. 検知 (Detection)
   CloudWatch アラーム → SNS → PagerDuty → オンコール担当者

2. トリアージ (Triage)
   重大度を判定、インシデントコマンダーを任命

3. 対応 (Response)
   ランブックに従って復旧作業
   コミュニケーションチャネルで状況を共有

4. 復旧 (Recovery)
   サービスの正常動作を確認

5. 振り返り (Review)
   ポストモーテムで根本原因を分析
   再発防止策を策定・実施

インシデントの役割

インシデントコマンダー (IC) が全体の指揮と意思決定を担い、テクニカルリードが技術的な調査・復旧を行う。コミュニケーションリードがステークホルダーへの報告を担当し、スクライブがタイムラインを記録する。

ステータスページ

ステータスページを図で示す。

[Investigating] 18:00 - API のエラー率が上昇しています。調査中です。
[Identified]    18:15 - DynamoDB のスロットリングが原因と特定しました。
[Monitoring]    18:30 - 対策を実施しました。監視中です。
[Resolved]      19:00 - 正常に復旧しました。

AWS でのインシデント検知

CloudWatch Alarms (メトリクスベースのアラート)、CloudWatch Anomaly Detection (異常検知)、GuardDuty (セキュリティインシデント)、Health Dashboard (AWS サービスの障害) を組み合わせて検知する。

インシデント管理のアンチパターン

犯人探しは心理的安全性を低下させる。ポストモーテムをスキップすると同じ障害が再発する。全員が同時に作業すると混乱と重複作業が生じる。記録を残さないと知見が蓄積されない。

詳しくは関連書籍を参照。

インシデント管理とは

インシデントの重大度

インシデント対応の流れ

インシデントの役割

ステータスページ

AWS でのインシデント検知

インシデント管理のアンチパターン

関連用語

SRE

エラーバジェット

オブザーバビリティ

デザインシステム

Chaos Monkey

レトロスペクティブとは - スプリント振り返りの進め方とファシリテーション

関連する記事

障害対応の夜に思い出す、あの本の 1 ページ

深夜 3 時のデプロイ前に読み返したい 1 ページ

バグを生むのは知識不足ではなく想像力不足である