無駄な手順から見直そう:もう一度システム運用を考える(3)

一般的には、発生した障害を通知するアラートの多くは、事前に作成された手順書に基づいて対応します。想定されるアラートへの対応を、手順化・マニュアル化しておくのはシステム運用の基本です。手順化することで、作業が属人化してしまうことを防ぎ、誰が対応しても一定の運用品質を保てます。

しかし、手当たり次第に手順化し、数や量を増やしていくのが最善とは限りません。新型コロナウイルスの影響で、今年の春以降、いろいろな手順やルールが増えて、管理が煩雑になった現場もあると聞きます。今回は、手順の改善ポイントや対策を考えてみましょう。

そもそも、その手順に意味はあるのか!?

どんなシステムでも長期化していくと、機能の追加や拡張、連動するサービスの変更、ユーザの増加など、大小さまざまな影響によって、手順書はどうしても増えていくことが避けられません。

ノウハウはすべて記録に残して更新!運用手順書はこう作っていこう!
https://un4navi.com/visualization/19003/

とはいえ、やはり手順は簡素化・効率化したいので、人は自動化を考えるわけです。「自動化」は経営層も好きなマジックワードの一つ。確かに、自動化が実現できれば現場は楽になりますし、いうだけなら簡単…。

しかし、自動化できるように変えるまでが、通常業務とは別のタスクが発生する点は無視できません。ゼロからのシステム実装なら、さらにコストが掛かります。健康のためにジムに通うのに、その時間や費用を捻出しようと働きづめで身体を壊すようなナンセンス。また、時間を掛けて苦労して実装できても、その時点で機能が最適だとは限りません。ビジネスが変化するスピードは想像以上に速くなっているからです。

自動化できないか?を前提に、手順を見直そう

一旦、手順化する内容を吟味してみませんか?例えば、電話によるエスカレーションのみの手順はないか?UNIXプロセスやWindowsサービスの起動は、本当に人手で処理する必要があるのか?その現場では当たり前になっている手順でも、改めて見直してみると、改善の余地がいろいろあるかもしれません。

具体的な改善ポイント

  • 手順書を作った当初は必要だった手順でも、現状に照らし合わせて、必要なければ削除
  • メールや電話など、定型の通知も仕組み化できる手順は自動化
  • アラートの発生をトリガーにして、プロセスやサービスを自動で再起動
  • その他、必要な手順でも人の介在に意義がないなら、プログラムに任せて属人化を排除

手順書の作成や管理をできるだけシンプルにするには、手順書だけを意識していてはダメ。禅問答のようですが、『そもそも、その手順に意味はあるのか?』『簡略化や削除できないのか?』『運用プロセス全体が、現状だけでなく将来を見据えた仕組みとして適しているのか?』をチェックする必要があります。

<PR>手順書の作成や管理の余裕なんてない!だったら手順そのものにムダがないかをまずチェックしませんか?
人が管理しなくてもいい作業は、SaaS型の統合運用管理サービス「UOM」に任せて効率化を。詳しくはこちら

電話やメッセージで自動通知、または自動オペレーション

手順をいちいち見直す余裕もない忙しいシステム運用の現場にも、スムーズに導入できるのが、SaaS型の統合運用管理サービスです。UOMの場合は、障害が発生した時に、メールや電話、SNSのメッセージなどでアラートを「自動通知」する機能があります。
前回の記事で、アラートメールはフィルタリングができるという話をしました。しかし、他の件でも毎日届く大量にメールの中から、重要度の高いメールを確実にチェックするのは、至難の業。そこで、確実に通知される手段として、緊急時には電話も非常に心強い手段です。
自動電話を使うと、一般的なアラートはメールで通知し、緊急性の高い障害だけ電話で受けるような、通知先の使い分けができるのが便利です。電話には、任意のキーを押して受諾すればいいので、通話は不要。電話先も、複数のメンバーでグループ登録できるので、勤務日や勤務時間、頻度などを、シフトに合わせてカレンダーで管理すればOK。

緊急アラートこそやっぱり電話が強い!レガシーな運用通知の温故知新
https://un4navi.com/automation/19038/

自動通知(自動電話)
https://www.iij.ad.jp/biz/uom/menu.html#target05

また、アラートの内容が定型処理なら、「自動オペレーション」機能で、発生したアラートをトリガーにして、事前に登録しておいたコマンドを実行することが可能です。対応がさらに必要であれば、自動でチケット登録され、障害の詳しい内容を確認して、必要な対応へと移ります。

サービスの自動化機能に任せることで、人が操作することによるミスはなくなり、スキルの高いエンジニアの手を煩わせなくても、限られた人数で楽にシステム運用できます。手順として整備しなければならないステップもシンプルになるので、実施する作業と手順書の管理の両方に費やす時間も短くできます。

無駄な手順の見直しは、安定したシステム運用に不可欠

アラートの対応手順をドキュメント化・見える化することは必須ですが、手順のすべてを人手で処理する必要はありません。使われない手順や意味のない人の作業に、貴重なリソースを割くのは論外。自動架電や自動オペレーションなど、専用サービスに任せられる部分を選別し、自動化・効率化を目指ししましょう。

自動化することで空いた稼働時間は、自動化できないオペレーションや運用業務の改善、運用設計など、人でなければ処理できないタスクに費やすことで、正確で迅速なシステム運用が実現します。これは運用現場の負担だけでなく、コスト軽減にも繋がり、システム全体の運用品質を向上させることにもプラスに作用します。

職人技だからこそアウトソース可能!:現場のプロが語ってみる(5)
https://un4navi.com/prologue/20085/

<PR>SaaS型の統合運用管理サービス「UOM」の強みは、現場ですぐに役立つ、自動電話と自動オペレーション。
手順をシンプルにすることで、負担も減り、システム運用を徹底的に自動化・効率化できます!詳しくはこちら

関連記事

∞∞∞∞∞∞∞ おすすめ記事 ∞∞∞∞∞∞

  1. チャットボットで問い合わせを効率化しよう!

    Webサイトで問い合わせをするときに、従来のようなフォームだけでなく、最近[チャットでお問い合わせ]…
  2. 待ったなし!システム運用現場へのテレワーク導入

    コロナ禍が広がりつつあった今年の年度末以降、一気にテレワーク化が進みました。ネットワークのトラフィッ…
  3. 現場が疲弊する3つの脅威:もう一度システム運用を考える(1)

    新型コロナウイルスと共に人類が共存していく社会として、新しい日常「ニューノーマル」への適応が世界的に…
  4. InteropのZabbixブース

    Interop Tokyo 2019へのご来場、ありがとうございました

    InteropのZabbixブースに出展しました 6月12日(水)から14日(金)まで、Inter…
  5. システム運用のコスト削減(1)- コストが掛かる理由はコレ

    開発と違い、組織にとっての利益を生み出さず、費用を使うだけの「コストセンター」だと誤解されるシステム…
ページ上部へ戻る