システム運用でいうイベントとは?なぜ管理するのか?:ITILの基本(6)
ITサービスを企業や個人が利用するときの、具体的なヒントを集めたITIL(アイティル)。現場で役立つポイントが細かく説明されているので、まだまだ続きます。今回は、ITILの5つのフェーズのうち、「4.サービス運用」にある「イベント管理」のことを知っておきましょう。
「イベント」とは?
「イベント(event)」とは、ITサービスにおける状態の変化のことです。ITシステムに影響を与える変化を監視サービスが感知し、メッセージとして通知されます。設定通りの作業が正常に完了したことや、サーバのストレージ使用率がしきい値に近づいていること、サービスがダウンしていることなど、システムの状態に起きた変化はすべてイベントとして通知されます。
そのため、「イベント管理」は監視チームの活動です。システムで発生し、監視サービスから通知されるイベントを受け取り、内容をチェックして処理を判断します。通常通りの稼働を知らせるだけなら確認のみで、仮に異常なイベントが検知された場合は、インシデント管理など、次のプロセスへエスカレーションします。
なぜイベントを管理しなければならないのか?
システム運用の現場では、日々、多くのイベントが発生しています。ITサービスを管理するさまざまなプロセスの入口となるイベント管理を実施することで、どのような課題が解決されるでしょうか?
- システム運用を自動化して、担当者の負担やコストを下げる
- 大量に発生するイベントの、重要度や優先順位を適切に判断する
- システムの稼働状況を監視し、期待されているサービスを安定して提供する
- 「インシデント管理」「変更管理」「問題管理」など、適切な管理プロセスへ引き渡す
- レポートを分析することで、さらなるシステム運用の改善につなげる
<PR>サービスに起きる大量の変化を、少ない人材でどう効率的に捌き、担当者の負担やコストを下げるか?そのニーズには、SaaS型の統合運用管理サービス「UOM」がピッタリですよ!詳しくはこちらへ
イベントは、3種類に分類して対応
イベントは3つの種類「情報」「警告」そして「例外」に分類されます。後者になるほど、重要度や緊急性が高くなります。
◯情報(Information)
システム運用業務が、通常通り機能していることを知らせる通知です。ステータスやジョブの完了などを確認するだけで、特に、何か対応する必要はありません。
例)
- オンラインへの接続
- ユーザのログイン
- メールの到着
- 夜間のバッチの正常完了
- スケジュールされているジョブの終了 など
◯警告(Warning)
注意や調査が必要な通知です。設定したしきい値に近づいている時に発生し、障害が発生する前に適切な処置を取ることを促す通知です。
例)
- ディスクスペースやCPUの使用率が増加して、しきい値を超えている
- 許可されていないソフトフェアが検出された
- ネットワークのトラフィックが上昇している
- 同じユーザが3回連続でログインに失敗した など
◯例外(Exception)
サービスやデバイスが正常に稼働していない時に通知されます。パフォーマンスに直接影響するため、「インシデント管理」へと引き継がれます。
例)
- サーバがダウンした
- 規定された時間内に処理が終了しない
- ネットワークが大幅に遅延している
- 通常を大幅に上回るユーザが同時ログインしている
- 未許可のインフラ装置が発見された など
イベント管理のステップ
次に、イベント管理のステップの一例を見てみましょう。
- 監視ツールが検出、フィルタで抽出
監視ツールがイベントの発生を検知したら、予め設定していた基準に従って処理します。必要なイベントのみ、システム運用担当者に通知されます。 - イベントを3種類のどれかに分類
イベントを前述の3つ種類に分け、緊急性や優先順位を判断します。 - イベント情報を記録
イベントの情報が自動的に記録されます。ログは、統計や調査など、必要な時にいつでも閲覧できます。 - 「警告」の処理を実行
前述の「警告」をどのように扱うか、判断して処理します。対応方法が決まっていれば、プログラム等で自動処理できます。未知のイベントだった場合は、監視サービスからアラートとして通知され、「インシデント管理」「問題管理」「変更管理」など、他のプロセスへ引き継ぐかを人が判断します。 - 「例外」としてエスカレーションサービスの稼働を阻害する「例外」は、「インシデント管理」「問題管理」「変更管理」などのプロセスにエスカレーションされます。
- 結果を記録イベントが適切に処理されたかを記録します。発生したイベントの数や種類、傾向、他のプロセスへの引き継ぎなどを数値化し、分析します。
- クローズして終了適切に処理されたイベントは、完了して終了です。結果の分析と合わせ、今後のサービス品質改善に使われます。
イベント管理で重要なポイントとは?
イベント管理で重要な点は以下の通りです。 監視の内容や範囲の検討、しきい値の設定など、監視をスタートさせる前の初期設定や準備、そして運用中のチューニングなど、測定と改善を繰り返していきましょう。
- ITサービス全体を俯瞰し、効率的にイベントを管理できる仕組みを使う
統合型のシステム運用サービスを使えば、担当者が管理する負担を軽減できます。導入している監視サービスが異なるサーバが複数あっても、メールやAPI経由で連携し、イベントを一箇所で把握できるようにすれば、サービス全体の管理効率も向上します。 - 「情報」「警告」「例外」をはっきりと仕分けして、検知を最適化する
システム全体の運用設計に沿って、何をイベントとして定義して分類するか設定します。重要なイベントにリソースを集中させるために、運用しながら設定を調整し続けます。 - 取得したイベントでどう運用が改善されたか、分析して次の戦略に活かす
その場しのぎの対応で終わらせず、監視からのイベント通知をどのように処理し、サービス全体の品質向上にどのようにプラスに作用したかのレポートを分析し、さらなる安定稼働へとつなげていきます。
<PR>サービス全体を俯瞰して、情報・警告・例外を明確に検知し、効率的にイベントを管理していくには?運用現場に必要なプロの機能をカンタンに使える「UOM」をトライしてみませんか?詳しくはこちらへ