ITIL 4を活用した「監視設計」入門 — 概念と用語

前回の記事では、システム運用における監視の重要性や、監視を行う際の基本的な考え方について解説しました。今回は、より効果的な監視設計を進めるために必要な「モニタリング」と「イベント管理」の基本的な用語や概念を整理しておきたいと思います。

監視設計を適切に行うためには、「どのようなデータを監視するのか」「どのタイミングでアラートを出すべきか」などを明確に定義する必要がありますが、体形的に整理されている情報がなく、案外設計に苦労するものです。

今回は、ITIL 4で定義されている「モニタリングおよびイベント管理」における基本的な用語と概念について、実務でそのまま活用できるようにわかりやすく説明していきます。この基礎を押さえることで、次回から解説する監視設計の理解がさらに深まるはずです。


モニタリングおよびイベント管理の基本

ITIL 4における「モニタリングおよびイベント管理」プラクティスの目的は、システムやサービスの状態を常に観察・分析し、問題が発生した場合に適切に対応することです。

  • システムやサービスの状態を常に監視
  • 異常を検出し、迅速に対応
  • ビジネスに対する影響を最小化

モニタリングおよびイベント管理のプロセス

「モニタリングおよびイベント管理」における主要プロセスについて解説します。

ITIL 4の「モニタリングおよびイベント管理」には、以下の3つの主要なプロセスがあります。これらのプロセスは、システムやサービスの異常を早期に検出し、適切な対応を行うために設計されています。

  1. モニタリング計画 (Monitoring Planning)
    システムやサービスの監視対象、監視方法、しきい値(Threshold)を定義するプロセスです。監視対象の優先順位付けやモニタリング頻度の調整を行います。
  2. イベント処理 (Event Handling)
    検出されたイベントを分類し、対応の必要性を判断するプロセスです。警告や異常をリアルタイムで処理し、必要に応じてインシデント登録や自動対応を行います。
  3. モニタリングおよびイベント管理のレビュー (Monitoring and Event Management Review)
    モニタリングやイベント処理の結果を振り返り、プロセスやしきい値の見直し、最適化を行います。

モニタリングおよびイベント管理の用語

「モニタリングおよびイベント管理」におけるに関連する用語について解説します。

イベント (Event)

「イベント」とは、システムやサービスの状態における変化を指します。

  • サービスに影響を与える可能性のある状態の変化
  • 必ずしも障害や問題ではなく、正常な変化や成功の通知も含まれる
  • イベントは「情報」「指示」「警告」「例外」の4つに分類される

イベントを分類することのメリット

  • 例えば、CPU使用率が80%を超えたという「警告イベント」が発生した場合は、「負荷分散」や「スケールアウト」などの対策を検討することで障害を未然に防ぐことができます。また、「サーバーがダウンした」という「例外イベント」が発生した場合は、すぐにインシデント管理を開始し、影響を最小限に抑えることが重要です。
  • イベントの分類を活用することで、「どのイベントに優先的に対応するべきか」「どのイベントは様子を見るべきか」といった判断がスムーズになります。
    • 情報イベント → 通常は対応不要
    • 指示イベント → 定義された手順に従って対応
    • 警告イベント → 速やかに状況を確認し、必要であれば対応
    • 例外イベント → すぐにインシデント管理を開始し、影響を最小化
イベントタイプ内容対応
情報 (Informational)サービスやシステムの状態が正常であることや、何らかの操作や処理が成功したことを示します。特に対応は不要なことが多いですが、トラブルシューティング時に参照するためにログとして残すことがあります。- ユーザーログイン成功
- バックアップ成功
- 定期的な監視結果の正常通知
通常は対応不要。将来のトラブル時に参照できるようにログを保存。
インストラクショナル (Instructional)サービスの通常運用において、あらかじめ定義された手順に従って対応が必要となるイベント。自動対応できるケースもありますが、手動対応が必要な場合もあります。バックアップの開始
サーバーの再起動要求
ソフトウェア更新のスケジュール通知
あらかじめ決められた手順に従って対応。自動化できる場合は自動処理を検討。
警告 (Warning)重大な障害につながる可能性がある「予兆」を示します。すぐに障害が発生するわけではありませんが、トラブルにつながる可能性があるため、調査や予防的な対応が必要となります。CPU使用率80%超過
ディスク容量の不足が90%を超えた
ネットワークのレスポンスタイム遅延
速やかに状況を確認し、必要であれば予防措置を実施(例:負荷分散、容量拡張など)。
例外 (Exception)サービスやシステムが正常に動作していない、または重大な障害が発生したことを示します。サービスレベル合意(SLA)に違反する可能性があるため、迅速な対応が求められます。サーバーダウン
データベース障害
ネットワーク断絶
迅速にインシデントを登録し、インシデント管理プロセスを起動。必要に応じてスウォーミング(協力対応)を適用。

モニタリング (Monitoring)

「モニタリング」とは、システムやサービスの状態を監視し、正常に機能しているかどうかをチェックすることです。

モニタリングには以下の2種類があり、能動的モニタリング受動的モニタリングの2種類を紹介します。能動的モニタリングは定期的にシステムの状態をチェックして異常を早期に検出し、受動的モニタリングはしきい値やイベントをもとに異常が発生した際にリアルタイムでアラートを出します。プロアクティブモニタリングは、過去のデータを分析してトラブルを未然に防ぐ方法です。これらを適切に組み合わせることで、より効果的な監視設計が可能になります。

モニタリングタイプ内容
能動的モニタリング (Active Monitoring)定期的にポーリング(問い合わせ)して、サービスの状態をチェック1分ごとにCPU使用率をチェック
受動的モニタリング (Passive Monitoring)しきい値や条件に基づき、自動的にアラートやイベントを検出サーバーダウン時に自動でアラート送信

測定基準(メトリクス)

測定基準(メトリクス)は、システムやサービスの状態やパフォーマンスを評価するための指標です。CPU使用率や応答時間、メモリ使用量などが代表例です。メトリクスを適切に設定することで、システムやサービスの状態を定量的に把握できるようになります。例えば、「CPU使用率が80%を超えたら負荷が高い」といった基準を設けることで、パフォーマンスの監視や対応方針を決定できます。メトリクスは、SLA(サービスレベル合意)に基づく評価や、パフォーマンス改善施策の指標としても活用可能です。また、測定基準をもとにアラートの発生条件や対応優先度を決定し、障害対応プロセスの自動化や迅速化を図ることができます。

測定基準(メトリクス)例

  • CPU使用率
  • メモリ使用量
  • ネットワークレイテンシ
  • トラフィック量

メトリクスをもとに、サービスがSLA(サービスレベル合意)に適合しているかどうかを評価します

しきい値 (Threshold)

しきい値は、メトリクスの許容範囲を定義する基準です。設定したしきい値を超えた場合、異常として検知され、アラートが発生します。例えば、「CPU使用率90%」や「応答時間100ms」などがしきい値に該当します。しきい値の設定は、障害の早期発見と迅速な対応に直結します。しきい値を厳しく設定しすぎるとアラートが多発し「ノイズ」が増え、重要な異常を見逃す可能性があります。一方で、しきい値が緩すぎると障害発生を見逃すリスクがあります。そのため、適切なしきい値を設定することで、システムの安定運用と障害対応の効率化が可能になります。また、しきい値を動的に調整することで、負荷状況や利用状況に応じた最適な監視が実現できます。

  • CPU使用率が90%を超えたらアラートを発行
  • レスポンスタイムが100msを超えたらアラート
  • しきい値を超えた場合に、自動対応を設定することが可能

アラート (Alert)

アラートは、しきい値を超えた場合や異常が検出された場合に生成される通知です。アラートが発生すると、インシデント管理や自動対応プロセスがトリガーされ、迅速な障害対応が可能になります。アラートは、「情報」「警告」「例外」の3種類に分類されます。情報アラートはシステムが正常に稼働していることを示し、特に対応は不要です。警告アラートは、パフォーマンス低下や負荷増大などの潜在的な問題を示し、必要に応じて対応を検討します。例外アラートは、サーバーダウンや障害発生を示し、即座にインシデント対応が必要です。アラートの管理が適切でないと、不要なアラート(ノイズ)が増えて重要な異常を見逃すリスクがあるため、重要度や優先度に応じてアラート設定を最適化することが重要です。

  • しきい値を超えたことを示す
  • 対応が必要なレベルかどうかを判定
  • 自動対応やインシデント対応を開始する

まとめ

この記事では、ITIL 4の「モニタリングおよびイベント管理」について、基本的な考え方や重要な3つのプロセス(モニタリング計画、イベント処理、モニタリングレビュー)を解説しています。イベントは「情報」「指示」「警告」「例外」の4種類に分類され、適切に分類・対応することで、システムの安定運用と障害発生時の迅速な対応が可能になります。

次回予告

次回は「モニタリング計画」について詳しく解説します。監視対象の決定方法やしきい値の設定ポイントなど、実践的な内容をお届けします。お楽しみに!

ご意見感想募集

内容に関するご意見、ご感想などございましたら、x でお待ちしております。