現場が疲弊する3つの脅威:もう一度システム運用を考える(1)

新型コロナウイルスと共に人類が共存していく社会として、新しい日常「ニューノーマル」への適応が世界的に叫ばれる中、いわゆる「攻めのIT」がますます注目されています。これは、ビジネスモデルの大胆な変革や新しいワークスタイルを通じて、新たな価値の創出を目指す、企業のサバイバル戦略です。
しかし同時に、「守りのIT」も見直しが必要ではないでしょうか?例えば、従来のシステム運用を見直すことによる業務効率化やコスト削減で、「攻めのIT」をさらに推進できる可能性は大いにあります。
『攻撃は、最大の防御』ともいわれますが、やはりバランスは重要ですし、そもそも両者は切り分けられません。ここでは、対策を考える前にシステム運用の現場を疲れさせてしまう、陥りがちな状況について考察します。

増えるアラート:そのアラートは本当に必要?

まず、システム運用の典型的なフローを考えてみましょう。
監視システムを使ってサーバやプロセスの状態を常に把握し、もし何か障害が発生し、サービスへ影響を及ぼす可能性があれば、いち早く関係者へ通知します。通知した後は、ビジネスに悪影響が出ないように、または出てもその影響をできるだけ最小限に抑えるために、迅速に回復するというのが通例です。
不要な通知や対応を避けるために、監視は必要最低限に絞って設定し、不要なアラートは監視システムで除外する、という現場の皆さんも多いでしょう。
しかし、運用現場の実態としては、なかなか理想通りにはいきません。大量のアラート通知に溢れ、その都度、問題がないことを確認しては、何とかアラート対応を終える繰り返し…。そんなストレスフルな状況は、一刻も早く見直しが必要です。

増える手順:手順はシステム運用の基本、だけど…

発生したアラートの多くは、事前に作成された手順書に基づいて対応するのが定石です。手順書によるアラート対応は属人化を防ぎ、誰が対応しても一定の品質を保つ効果があります。そのため、想定できるアラート対応を手順化するのは、システム運用の基本中の基本でもあります。
とはいえ、手当たり次第に手順化して、無駄に数を増やすのは考えもの。手順化する内容は、十分に吟味する必要があります。例えば、UNIXプロセスやWindowsサービス起動、あるいは電話によるエスカレーションだけの手順なんて、存在したりしませんか?果たして、それらは本当に、人手で処理しなければならないものでしょうか?
意味のない作業を、キレイに手順書にまとめて満足するのは本末転倒。今まで当たり前になっていた手順書でも、改めて見直してみることは重要です。しかし、日々の業務に忙殺されていては、手順書を見直すどころか、全体を俯瞰する余裕も生まれません。

<PR>本当に必要なアラートだけに絞り、無駄な手順を見直せば、少ない人材でも安定したシステム運用が可能に。
SaaS型の統合運用管理サービス「UOM」を導入すれば、そんな現場の理想も現実に!詳しくはこちら

 

増える環境:増やすメリットもわかるけど

近年、さまざまなビジネスでクラウドの導入が拡がっていることで、ハイブリッドクラウドが浸透しています。これは、機密情報を含むシステムは、堅牢性が高いプライベートクラウド(またはオンプレミス)で構築する一方、公開情報を含むWebサーバなどは、低価格なパブリッククラウドへ構築するという、両者のメリットを活かした組み合わせです。また、複数のクラウドサービスを組み合わせるマルチクラウドも注目されています。

このように、ITシステムが単一の環境で構築されることは少なくなっています。コスト最適化やリスク分散などの観点から、複数の環境にシステムを構築するニーズはさらに増えていくでしょう。

必然的に、システム運用の観点からすると、複数の環境を運用しなければならないことが避けられません。環境が多岐に渡れば、その数に比例して操作手順も増えますし、日々更新される環境の学習コストも軽視できません。環境が異なれば、それぞれに最適化しているうちにサイロ化を招き、属人化もしていきます。結局、運用負担は増加して、その結果、業務の俊敏性も低下する…といった事態に陥ってしまいます。現場で奮闘するシステム運用エンジニアの本音を代弁すれば、『できれば環境は統一して欲しい…』その一言に尽きるのではないでしょうか。

増える課題に対応したソリューションを選べばいい!

今回挙げた3つの課題がどれも該当しない、あまりにも恵まれているシステム運用の担当者なら、恐らくこの記事を読んでいるはずはないですね(笑)。

クラウドや仮想化で環境が増えるのは、どうしても避けられませんし、運用現場だけが「守り」に入っても仕方ありません。一方、無駄なアラートや手順が増えるのは、避けられます。むしろ、徹底して自動化・効率化する「攻め」の姿勢がなければ、増え続ける環境に限られた人材で対応できるはずがないでしょう。

ビジネスの変化やスケールに合わせ、今回紹介した3つの課題のバランスを上手く調整するには、SaaS型の専用サービスが最適です。キーワードは「フィルタリング」、「自動オペレーション」、「統合的なUI(ユーザインタフェース)」。次回の記事では、IIJ統合運用管理サービス「UOM」を例に、システム運用現場を楽にするヒントを解説していきます。

不要なアラートを回避する2つのフィルタ:もう一度システム運用を考える(2)
https://un4navi.com/efficiency/20089/

<PR>コロナ禍でクラウドがさらに増えるこれから、人の手間とコストは抑えて、現場のストレスも減らしたい!
今すぐ、SaaS型の統合運用管理サービス「UOM」で、システム運用を自動化・効率化!詳しくはこちら

関連記事

∞∞∞∞∞∞∞ おすすめ記事 ∞∞∞∞∞∞

  1. Zabbixなど監視サービスからのアラートは、メールかAPIで読み込んで自動処理するのが楽。運用エンジニアは、Excelに転記なんてしてる余裕はないはず!

    監視サービスからのアラートメールは、取り込んで自動処理しよう!

    近年では、システム運用を効率化できる、クラウド型(SaaS型)の運用管理サービスが人気です。わざわざ…
  2. 最近話題? 見える化を超えた「オブザーバビリティ」ってなんだ?!

    皆さんは「オブザーバビリティ:Observability(o11y)」という言葉を聞いたことあります…
  3. 仮想化サーバの運用(2)- デメリットや制限、導入前の注意点とは?

    前回の記事のように、仮想化にはさまざまなメリットがあり、システム運用の現場で抱える課題の解決につなが…
  4. SREって大規模な組織の話?開発と運用をチームにするメリットとは?

    システム運用に関する話題の中でもたびたび目にする機会が増えてきた「SRE」。これは、「サイトリライア…
  5. 複雑で多様なシステムも全部一括チェック:監視

    この連載ストーリーの背景 佐藤 一郎(42) …
ページ上部へ戻る