ITILによるインシデント管理とは?目的やフロー、効率化の方法

インシデント管理とは、インシデント(事故や事故が発生する恐れがある状態など)を発生の把握から収束までとフェーズに分けて管理することで、同じインシデントを繰り返し発生させないようにし、運用をスムーズにする取り組みのことをいいます。
インシデント管理は、安全管理や保安業務でよく行われます。医療現場やITシステム運用などでよく聞かれ、ITサービスマネジメント(ITSM)においても重要です。
本記事では、インシデント管理の必要性やよくある課題などについて紹介します。
目次
インシデントとは
インシデントとは、英語では「Incident」といい、「できごと」「事件」「異変」などと訳されます。
意味としては、事故そのもの、または事故が発生する恐れがある状態などを指し、安全管理や保安業務でよく使われます。医療現場やITシステム運用などでよく聞かれますが、ここでは後者の場面におけるインシデントを対象として解説します。
ITシステム運用におけるインシデントの例
ITシステム運用に限ってもインシデントが指す範囲は幅広く、例えば、以下のようなものがインシデントに当たります。
- 顧客から、利用しているITシステムにアクセスできないと問い合わせが入る
- 悪意あるメールに記載されたURLを従業員がクリックしてしまい、不正なWebサイトへアクセスしてしまった
- 社内システムの画面が固まってしまい、次の画面に遷移しない
- アプリケーションを使用しようとしたら「ライセンスが切れている」とエラーが出る
インシデントと障害との違い
ITシステム運用の中でも、現場や管理目的によって「インシデント」が指す内容は異なりますが、厳密にいえば「インシデント」と「障害」はイコールではなく、「障害は、インシデントを引き起こしている要因の一つ」となります。
インシデントを引き起こす要因は「問題」とも呼ばれ、この「問題」を管理することが、同じインシデントを繰り返さないために重要です。
詳しくは後述の「インシデント管理のよくある課題」でお伝えします。
インシデント管理とは
インシデント管理とは、英語では「Incident Management」といい、こうしたインシデントの発生把握から収束、つまりもとの状態に復旧するまでを管理することです。
インシデント管理は、ITILのフレームワークに基づくプロセスであり、ITサービスの中断や障害発生時に、業務への影響を最小限に抑え、迅速な復旧を図ることを目的としています。
たとえば、自社が何らかのITシステムを提供している場合は、顧客から不具合の連絡を受けてから対応が完了して顧客が問題なくシステムを利用できるまで、さらには再発防止策の作成までがインシデント管理の範囲となります。
一般的なインシデント管理の流れについては、「ITILに準拠したインシデント管理のフロー」でご紹介します。
ITILにおけるインシデント管理の目的
ITIL(Information Technology Infrastructure Library)とは、ITサービスマネジメントにおけるベストプラクティス(成功事例)をまとめたガイドラインです。ITILでは、インシデント管理の目的を「ITサービスの予期せぬ中断、またはサービス品質の低下を可能な限り迅速に復旧させ、ビジネスへの影響を最小限に抑えること」と定義しています。
つまり、ITILが重視しているのは、原因究明に時間をかけることではなく、一刻も早くサービスを正常な状態に戻すこと。これにより、サービス利用者への影響を最小限にとどめることを目指しています。
ただし、応急処置のみで根本原因を放置すると、同じインシデントが再発する可能性があります。そのため、根本原因を特定し、恒久的な解決策を講じる「問題管理」と連携させることが重要です。
ITILに準拠したインシデント管理のフロー
ITILに準拠したインシデント管理のフローは、一般的に以下のプロセスで実施されます。
1.インシデントの検出・記録
インシデントが発生すると、ユーザーからの問い合わせやシステム監視アラートによってインシデントが検出されます。このインシデントの情報をツールなどに入力・記録します。
2.インシデントの分類・優先順位付け
記録されたインシデントを、緊急度や重要度、影響範囲などに基づいて分類し、優先順位を決定します。これにより、対応が必要な順序を明確にし、最も影響の大きいインシデントから迅速に対応できるようになります。
3.初期診断と対応
担当者がインシデントの初期診断を行います。対応手順が確立されているインシデントや、過去に発生した既知のインシデントであれば、この段階で解決を図ります。
4.エスカレーション
初期対応で解決が難しいインシデントは、専門的な知識を持つ担当者や責任者にエスカレーション(上位への引き継ぎ)を行います。エスカレーションには、機能的なエスカレーション(専門チームへの引き継ぎ)と階層的なエスカレーション(マネージャーなど責任者への報告)があります。
5.インシデントのクローズ
インシデントが解決し、サービスが正常に復旧したら、インシデント対応の経緯や解決策を記録し、インシデントをクローズします。この記録は、後のナレッジベースとして活用されます。
インシデント管理の必要性
インシデントについては、一度起きたインシデントと同様のインシデントを起こさないことと、起きてしまったインシデントを素早く解決し、復旧させることの2点が重要です。
これらを実現するためには、インシデント管理を行う必要があります。
同じインシデントの再発防止のため
インシデントをゼロにすることはほぼ不可能といえ、ある意味では、インシデントが起きてしまうことは仕方のないことです。
しかし、インシデントにはそれを引き起こす問題(「要因」とも呼ばれる)があり、解消できる要因を取り除くことで、同じインシデントの繰り返しを回避できる可能性は高まります。
先ほどもお伝えしましたが、この「問題」を管理することが、同じインシデントを繰り返さないためには重要になってきます。
問題管理について詳しくは「インシデント管理のよくある課題」でお伝えします。
問題管理のためにも、また、過去に起きたインシデントを把握するためにも、起きたインシデントを一件ずつ確実に記録に残し、管理することが大切になります。
スムーズなシステム運用・ITサービス提供のため
前項でお伝えしたように、問題管理を行うことで同じインシデントを繰り返し発生させないことが重要ですが、除去できる問題ばかりとは限らず、同様のインシデントが何度も発生してしまう状況もあり得ます。
そんなケースでも、正しくインシデント管理を行っていれば、過去の対応履歴を参照して対応できるため、効率や対応スピードを向上させることができます。
同じインシデントに限らず、すべてのインシデントを記録・管理しておくことで、対応した担当者や復旧までにかかった時間などの履歴が、新たなインシデント対応や体制づくりなどに役立ちます。
それが、ひいてはスムーズなシステム運用・ITサービス提供につながります。
インシデント管理のよくある課題
インシデント管理を行う中で起こりがちな課題は、主に以下の3点です。
同じインシデントを繰り返してしまう
ここまでにも何度か出てきましたが、同じインシデントの繰り返しを回避することがインシデント管理の大きな目的の一つです。
その場しのぎの対応でインシデント対応を完了させてしまい、解決まで導くため過程の蓄積を怠ったり、根本原因を解決しなかったりということが課題として挙げられます。
「インシデント管理」と「問題管理」の違いを理解できていない
インシデント管理の目的は暫定対応、問題管理の目的は根本原因の特定です。つまり、インシデント管理には対応スピードが求められ、問題管理には問題を解決に導いた件数が指標となります。
この2つを混同して考えているケースは非常に多くあります。根本原因を調べるのに時間を掛けすぎて、ユーザーがサービスを使えない状況が長く続いたり、逆に、暫定対応ばかりしているので、同じインシデントが繰り返されたりするケースは良くあります。
インシデントは絶対に「0」にはなりません。インシデントが発生したときにはまずサービス復旧を最優先し、インシデントが発生していないときには、過去に発生したインシデントの分析・調査をすることで、インシデントの発生数を減らしていくことが大切です。
インシデントの情報共有ができていない
課題の一つ目「同じインシデントを繰り返してしまう」とも関連しますが、現在進行中のインシデント対応については、担当者や進捗状況(ステータス)などがわからない状態のままインシデント対応を続ければ、行き違いや手戻りが発生する恐れが高く、非効率的です。
また、過去のインシデント対応について履歴が残っていないと、過去に同様のインシデントが発生・対応しているのに、また一から調査を行ってしまうなど二度手間になり、余計な工数がかかります。
これは、言い換えると「チーム内でナレッジが共有されていない状態」ともいえ、対応の属人化にもつながりかねません。
ITILによるインシデント管理を適切に行う方法
ITIL(Information Technology Infrastructure Library)に準拠したインシデント管理は、サービスの安定稼働と効率的な運用を実現するために不可欠です。
ここでは、ITILのベストプラクティスに基づき、インシデント管理を適切に行うための具体的な方法を解説します。
ナレッジベースの作成と活用
インシデント管理を効率化し、対応品質を向上させる上で、ナレッジベースの作成と活用は極めて重要です。
インシデント発生時に過去の事例や解決策を素早く参照できるナレッジベースがあれば、同様のインシデントが発生した際の対応時間の短縮や属人化の解消につながります。
ナレッジベースには、以下のような情報を蓄積していくと良いでしょう。
- よくある質問(FAQ)と回答…顧客からの問い合わせが多い事項や、オペレーターが頻繁に参照する情報。
- 既知のエラー(Known Error)と回避策…過去に発生し、恒久的な解決策がまだ確立されていない問題とその暫定的な対処法。
- 解決手順書…特定のインシデントに対する具体的な対応手順を詳細に記載したもの。
- 各種設定情報…システムの設定情報や、特定のサービスに関する詳細情報。
これらの情報を体系的に整理し、検索しやすいかたちで管理することで、担当者は必要な情報を迅速に見つけ、適切な対応を行うことができます。
また、ナレッジベースは常に最新の状態に保ち、新たなインシデントや解決策が発生するたびに更新していくことが重要です。
オペレーションルールの明確化と周知
インシデント管理プロセスを円滑に進めるためには、オペレーションルールを明確にし、関係者全員に周知徹底することが不可欠です。
ルールの曖昧さは、対応の遅れや誤った判断、責任の所在不明確化を招く原因となるためです。
具体的には、以下の点を明確に定めて周知しましょう。
- インシデントの定義…何をもってインシデントとするのか、その基準を明確にします。
- 報告ルートとエスカレーション手順…インシデント発生時の報告先、エスカレーションの基準と経路を定めます。
- 役割と責任…各担当者がどのフェーズでどのような役割を担い、どのような責任を持つのかを明確にします。
- 対応時間の目標(SLA/OLA)…インシデントの重要度に応じた目標対応時間や解決時間を設定します。
- コミュニケーション方法…インシデント発生時の情報共有方法や、関係者間での連絡手段を定めます。
これらのルールは文書化し、定期的に研修を行うなどして、関係者全員が理解している状態を維持することが重要です。
こうすることで、緊急時でも混乱なく、迅速かつ的確な対応が可能になります。
問題管理と変更管理との連携
ITILにおけるインシデント管理は、単体で機能するものではなく、問題管理と変更管理とで密接に連携することで、その効果を最大限に発揮します。
問題管理との連携
インシデント管理では個々のインシデントの解決に焦点を当てますが、問題管理ではインシデントの根本原因を特定し、その再発防止を目指します。
問題管理と似たものに「インシデント管理」がありますが、問題管理では、インシデントの終息後も、インシデントの原因が究明されるまで、管理し続けます。
変更管理との連携
変更管理とは、ITサービスへの変更が引き起こすリスクを最小限に抑えながら、計画的に変更を実施するための管理を指します。
OSのアップデートからハードウェアの追加・入れ替え、担当者の変更まで、さまざまな変更が管理の対象となります。
これら3つのプロセスが連携することで、インシデントの迅速な解決だけでなく、サービス全体の安定性と品質向上に貢献します。
インシデント管理ツールを使うメリット
発生したインシデントの対応記録と可視化、情報共有に特化しているのがインシデント管理ツールです。
インシデント管理ツールを使うと、主に以下の4つのメリットが得られます。
インシデントの現状を可視化できる
インシデント管理をツール上で行えば、グラフなどによる可視化が簡単に行えます。
また、インシデント管理ツールに入力した内容は、閲覧権限のあるメンバーであればいつでも確認でき、情報共有もスムーズです。社内で起きるインシデントへの対応については、対応部門だけでなく利用部門にも閲覧権限を付与することで、報告業務の負荷が軽減されるでしょう。
インシデントを低減させる方法については、下記の記事をご覧ください。
【関連記事】
インシデントはどうやったら減るのかな?
インシデントの管理フローを標準化できる
インシデント管理ツールに設定したステータスを順に追って対応することで、フローのヌケやモレがなくなり、対応担当者によるバラツキを解消できる効果が期待できます。
また、管理フロー見直しの場面でも、インシデント管理ツールに蓄積されたデータを分析することで、より効果的な改善が期待できます。
インシデント対応のナレッジを共有できる
毎回、インシデント対応の記録をツールに入力していくことで、インシデント対応のデータベースができます。
対応メンバーは、過去のインシデント対応履歴を参照できるため、対応したことがないインシデントについても対応フローを疑似体験でき、インシデント対応の参考にできます。
対応のスピードアップにつながる
上記3点から、インシデント対応の効率化が実現でき、対応のスピードアップにつながります。
まとめ:インシデント管理の課題解決には管理ツールの導入が有効
インシデント管理とは、インシデント(事故や事故が発生する恐れがある状態など)を、発生把握から収束までのフェーズを管理することで、同じインシデントを繰り返し発生させないようにし、運用をスムーズにする取り組みのことをいいます。
ご紹介したようなインシデント管理の課題をお抱えの企業様は、解決のために、業務効率化のために、管理ツールの導入を検討してみてはいかがでしょうか。
LMISが提供するITIL準拠のインシデント管理ソリューション
「LMIS」は、カスタマーサポートやカスタマーサクセスにご活用いただけるツールです。
ヘルプデスクの問題点や解決策、構築ステップをご紹介する資料はいかがですか?
ヘルプデスクの問題点から、解決策としてのサービスデスクをいかに構築するか、そのステップをご紹介します。ヘルプデスクの事例集もあわせてダウンロードいただけます。
- 【ノウハウ資料】「サービスデスク・ヘルプデスクのシステム導入時に比較するべき3つのポイント」
- 【ノウハウ資料】「組織を改善する“サービス”デスクを構築するための3ステップ」
- 【事例集】ヘルプデスク実践事例集
- 【製品紹介】「解説!LMIS」