インシデント管理
システム障害の検知から復旧、再発防止までを体系的に管理するプロセス
インシデント管理とは
インシデント管理は、システム障害の検知から復旧、再発防止までを体系的に管理するプロセスである。「誰が何をするか」を事前に定義し、障害時の混乱を最小化する。
インシデントの重大度
インシデントの重大度を以下にまとめる。
| レベル | 影響 | 対応 |
|---|---|---|
| SEV1 | サービス全体がダウン | 即時対応、全員招集 |
| SEV2 | 主要機能が利用不可 | 30 分以内に対応開始 |
| SEV3 | 一部機能に影響 | 翌営業日に対応 |
| SEV4 | 軽微な問題 | バックログに追加 |
インシデント対応の流れ
インシデント対応は検知、トリアージ、対応、振り返りの 4 フェーズで進行する。アラートで検知した後、重大度を判定してインシデントコマンダーを任命し、ランブックに従って復旧作業を行う。復旧後はポストモーテムで根本原因を分析し、再発防止策を実施する。
1. 検知 (Detection)
CloudWatch アラーム → SNS → PagerDuty → オンコール担当者
2. トリアージ (Triage)
重大度を判定、インシデントコマンダーを任命
3. 対応 (Response)
ランブックに従って復旧作業
コミュニケーションチャネルで状況を共有
4. 復旧 (Recovery)
サービスの正常動作を確認
5. 振り返り (Review)
ポストモーテムで根本原因を分析
再発防止策を策定・実施
インシデントの役割
インシデントコマンダー (IC) が全体の指揮と意思決定を担い、テクニカルリードが技術的な調査・復旧を行う。コミュニケーションリードがステークホルダーへの報告を担当し、スクライブがタイムラインを記録する。
ステータスページ
ステータスページを図で示す。
[Investigating] 18:00 - API のエラー率が上昇しています。調査中です。
[Identified] 18:15 - DynamoDB のスロットリングが原因と特定しました。
[Monitoring] 18:30 - 対策を実施しました。監視中です。
[Resolved] 19:00 - 正常に復旧しました。
AWS でのインシデント検知
CloudWatch Alarms (メトリクスベースのアラート)、CloudWatch Anomaly Detection (異常検知)、GuardDuty (セキュリティインシデント)、Health Dashboard (AWS サービスの障害) を組み合わせて検知する。
インシデント管理のアンチパターン
犯人探しは心理的安全性を低下させる。ポストモーテムをスキップすると同じ障害が再発する。全員が同時に作業すると混乱と重複作業が生じる。記録を残さないと知見が蓄積されない。
詳しくは関連書籍を参照。
この記事は役に立ちましたか?
関連用語
SRE
Site Reliability Engineering の略で、ソフトウェアエンジニアリングの手法でシステムの信頼性を向上させる実践
エラーバジェット
SLO で許容される障害の量を予算として管理し、信頼性と開発速度のバランスを取る仕組み
オブザーバビリティ
システムの内部状態を外部から観測可能にし、問題の原因を迅速に特定するための仕組み
Chaos Monkey
本番環境でランダムにインスタンスを停止し、システムの耐障害性を検証するツール
デザインシステム
UI コンポーネント、デザイントークン、ガイドラインを体系化し、一貫した UI を実現する仕組み
Kinesis
AWS のリアルタイムデータストリーミングサービスで、大量のデータを収集・処理・分析する
関連する記事
障害対応の夜に思い出す、あの本の 1 ページ
本番障害の緊迫した場面で、過去に読んだ技術書の知識が助けてくれた経験はありませんか。「いつか役立つ」知識が「今この瞬間」に変わる読書の価値を考えます。
深夜 3 時のデプロイ前に読み返したい 1 ページ
本番デプロイの直前、最終確認のチェックリストとして技術書の特定のページが役立つことがあります。緊張の場面で頼りになる「お守りの 1 ページ」の見つけ方と活用法。
バグを生むのは知識不足ではなく想像力不足である
バグの多くは、コードを書いた時点で「こういうケースもありうる」と想像できなかったことが原因です。想像力を鍛える読書法と、エッジケースへの感度を高める方法を解説します。