システム運用の一部である監視とは?具体的に何を監視すべきか?

システム運用の一部である監視とは?具体的に何を監視すべきか?

システムの停止は、ビジネスに大きなマイナスの影響を与えます。そこで重要なのが、サービスがダウンする前の、システム監視(サーバ監視)業務です。業務システムやWebサイト、ECサイト、モバイルアプリなどサービスの稼働状況をモニタリングし、ユーザが通常通り利用できている状態かをチェックします。

システム監視で、何を監視すればいいのか?

システム監視の目的は、サービスに起きた障害をいち早く発見し、ダウンタイムを限りなくゼロに近づけることで、ビジネスに悪影響を及ぼすリスクを回避することです。システムを構成しているサーバやアプリケーション、OS、ネットワークなどの状況を、24時間365日、監視し続けます。サーバが正常に稼働しているか、負荷が上昇していないか、普段と違う挙動はないかなどを注視します。
一般にシステム監視する内容には、大きく分けて2つあります。

◯正常監視

システムが正常に稼働していることを監視します。異常が起きているかどうかは、正常時の動作を把握しておく必要があります。一般的な監視サービスでは、システムのステータスがグラフィカルに表示されたり、文字情報で更新され、わかりやすくて管理も楽です。

◯異常監視

システムに何らかの障害が発生しているか、正しくサービスが稼働していない、または悪影響が予想されることを監視します。緊急度や頻度によって管理者に通知されます。通知方法としては、管理画面への表示以外に、メールや自動電話、オペレーションセンタに設置されたランプの点灯などの方法があります。
もしサーバが停止していれば、再起動など必要な処置を取ります。サーバが停止した原因が、想定された条件に沿っていれば自動処理などへ移ります。想定外の挙動なら、システム保守の担当者へ引き継いだり共同して、応急対策と原因究明、根本的な解決策へと進みます。

サービス監視で意識するユーザ導線

監視する対象は、サービスとインフラに大きく分かれます。
まず、サービス監視では、ユーザがストレスなくそのサービスを使うことができているか、安定した稼働を維持するために必要な情報をチェックします。この時、意識するのはユーザの導線です。
例えば、ECサイトであれば、ユーザがサイトにアクセスし、商品が正しく表示され、ショッピングカートに商品が入り、在庫や送料、納期が表示されて、チェックアウトで決済されて、購入履歴に反映されるまでが一連の流れです。もし、商品DBサーバとの連携に不具合があれば、売上にならないと同時に、カートのページでの離脱率が上昇するはずです。

◯サービス監視する主な内容

URL応答、表示速度(初回アクセスやリロード、DBからの読み込みなど)、画面遷移など

インフラ監視で障害の原因特定と、障害回避

障害が発生したら、何が問題なのかを真っ先に特定しなければなりません。サーバやネットワーク、ハードウェア、プロセスなど、多角的に検証する必要があります。ただし、障害は複合的な問題で障害が発生することが多いため、原因の特定は非常に複雑です。システムを構成している要素はそれぞれ連携しているため、ポイントになる部分を把握しておくことで、障害が発生した時にも適切かつ迅速に対応できます。
また、システム監視のもう一つ重要な役割が、障害が起きる前に危険を知らせることです。監視を含むシステム全体を工夫することが、障害の予防にもつながります。例えば、データベースサーバDB1を冗長化してDB2を用意した環境で、どちらか一方がダウンしたことをいち早く知り、他方が稼働しているうちに適切に対処することで、障害の発生を回避できます。。

◯システム監視する主な内容

・死活
サーバが停止することなく稼働しているかどうかを監視します。PINGコマンドを定期的に送信し、応答を見る方法が一般的です。システム監視ツールによっては、監視専用の小さなアプリケーション(エージェント)をインストールして監視します。

・ハードウェア
サーバやネットワーク機器に、物理的な故障が発生していないかを監視します。電源やハードディスク、ネットワーク機器などの温度が上昇しすぎていないか、故障していないかを監視します。

・ネットワーク
サーバやネットワーク機器のスピードが低下したり、アクセスが遮断されていたり、トラフィックが混雑しているかをチェックします。死活監視と同様に、PINGコマンドを送ったり、ページの表示速度を監視します。

・アプリケーション
サーバにインストールされているアプリケーションが、正常に動作しているか、ログを監視します。

・パフォーマンス
ハードディスクやメモリ、CPU、アプリケーションなどの使用率やアクセス状況などをチェックします。サービスに影響ある負荷かどうか、「しきい値(エラーにするかどうかの基準)」を設定して監視します。

  • サーバの死活
  • ハードウェア(電源や温度など)
  • ストレージ(使用率・量、空き容量など)
  • メモリ(実メモリおよびスワップの使用量など)
  • CPU使用率
  • ネットワーク
  • アプリケーション
  • パフォーマンス
  • プロセス稼働、ログ監視 など

監視業務もアウトソースの時代に

クラウドや仮想化の普及もあり、システム監視はますます重要になっていますが、サービス全体の監視は非常に複雑になっています。その理由は、現場の経験や高度な専門知識、新しい技術への対応が必要だからです。十分な監視体制が伴わずにシステム運用しても、サービスが安定して提供されることはありません。
そのため、社内の人材をコアビジネスに集中させるために、監視も含めたシステム運用全体を、外部の専門会社にアウトソースする例も増えています。また、膨大な情報を効率的に取り扱える、総合的なサービスの導入も不可欠です。
すべてに共通しているのは、自社のゴールやビジネスの規模、必要な機能のコストパフォーマンスなどで、複合的に判断することが重要です。

関連記事

ページ上部へ戻る