実録：システム運用でやってしまいがちな失敗例とその対策

2020.10.22

システム運用エンジニアなら、新入社員もベテランでも、システム運用中に失敗してしまったことがあるはずです。いわゆる「1：29：300の法則*」が常にあるのが現場であり、その対策をしていくことがカイゼンの第一歩です。今回は重大インシデントになった事例を紹介しましょう。

*「ハインリッヒの法則」としても知られる、安全管理の現場で広く知られる法則。1件の重大事故の背後には、重大事故に至らなかった29件の軽微な事故があり、さらにその背後には事故寸前だった300件の異常、いわゆるヒヤリ・ハットが隠れているという、注意喚起。

ありがちな、3つの失敗例

実際に起きた失敗例を紹介しましょう。反面教師として役立ててもらえれば幸いです。

失敗例1：本番機サーバと開発機サーバを間違えた！

メンテナンス日に作業する本番機の設定変更に備えて、事前に開発機で同様の作業をしていました。エンジニアは、ブラウザ経由のサーバ管理コンソールから操作していたのですが、うっかりマウスを左クリック。それが偶然、Ctrl＋Alt＋Deleteを同時に押せるキーだったため、Linux機が再起動しました。最悪なことに、それがなぜか本番機側（！）。平日の日中にサービスが停止したため、ユーザからの電話が鳴り続き、顧客にも大きな影響が出てしまいました。

失敗例2：手順書を作成せず、場当たり的な作業をしてしまった！

深夜3時に障害が発生し、状態復旧するのに現場で緊急対応が必要になりました。しかし、変更手順書がなかったために、エンジニアが経験だけに頼り、トライ＆エラーを繰り返す羽目に。いろいろな設定変更を試してみても、結局、その時には解決しませんでした。

失敗例3：事前バックアップが未取得で、設定後に保存し忘れた！

手順書があるにも関わらず、きちんと確認せずに設定を変更してしまいました。ロールバックできず、過去に取得していたバックアップから戻す作業が必要になりました。しかし、ベテラン担当者の中には、事前バックアップなしに作業する人もいました。

それぞれ問題点は何だったのか？

それぞれ失敗に至った問題点を分析してみます。

問題点1：経験不足による認識ミス

再起動処理が走らないように設定を変更していなかったり、確認作業を一人でしていたのも確かに問題です。ただ、一番の問題は、エンジニアとしての経験不足。どの会社や現場でも「やってはいけない十箇条」のようなルールがありますが、現場の経験が浅いと、十分に認識できません。

問題点2：ベテランにありがちな慢心

いくつもの修羅場をくぐり抜けてきた、ベテランの経験や勘は確かに大切で、緊急時には頼りになることも多いものです。とはいえ、経験則に基づいた場当たり的な対応で、常に正しい選択ができるとは限りません。経験豊富であるが故に、それが慢心となってしまいました。

問題点3：時間という制約

手順書に記載されている作業を削ってしまう理由は、時間という制約があるから。平日夜間、週末のメンテナンス日の時間枠は決まっています。バックアップするのが、テキストファイルであれば軽いのですが、フォルダを丸ごとコピーするような場合は、長い時間を要します。いくつもの工程がある以上、どこかを削ろうと考えるのも無理はありません。

＜PR＞夜景は残業で、経験は失敗で作られます。他のエンジニアの失敗例ほど参考になるものはありません。
でも自分の失敗とストレスは、統合運用管理サービス「UOM」で減らしましょう！詳しくはこちらへ

具体的な対策と解決策とは？

では、どのような対策があるでしょうか？

対策1：自動化や、チェックリストの活用

ミスの原因を、エンジニアの経験不足だけにしていては、人材も育たず、システム運用も楽になりません。人が処理しなくてもいい仕組みにしたり、経験の浅いエンジニアでも簡単に運用できるように、徹底的に自動化しましょう。また現場では、手順書通りに実施したかどうかなど、さまざまなチェックリストがあります。リストを改良し続けるのも有効です。

対策2：障害対応手順書の見える化

障害時の対応手順は、ベテラン担当者の頭の中にはあります。しかし、確実に原因を突き止め根本から対応するためにも、パターン別の手順書は不可欠。手順の見える化には、大変な工数と労力が必要ですが、属人化させずに誰でも対応できるようにしておくことには、大きなメリットです。システム障害やセキュリティインシデントの被害はより少なくなり、運用品質の向上、コスト削減にもつながります。

対策3：冗長化への変更、そして効率化

バックアップの取得状況や、緊急時の復帰手順などを確認しましょう。また、サーバを複数台構成にし、ロードバランサーでアクセスする冗長化構成にすれば、1台のバックアップ中にもう1台の設定を変更できます。何より、時間に追われてしまうことを減らすには、自動化・効率化が必須です。

人は、必ず失敗する生き物だから

もはやシステム運用は、24時間365日、人力だけで処理することは不可能です。運用の負担を軽減するなら、オンプレミスからクラウドへの移行が進みつつあるのもうなずけます。また、効率的なサービスを活用するか、外部の専門業者へアウトソースすることも有効です。システム運用担当者にとっても自社にとっても、最適な方法で対策しましょう。

＜PR＞マニュアル化や冗長化も重要ですが、最も効果的なのが自動化。属人性も排除して人のミスを減らせます。
統合運用管理サービス「UOM」は、プロ用機能をビギナーでも使えるから確実で安心！詳しくはこちらへ

実録：システム運用でやってしまいがちな失敗例とその対策

ありがちな、3つの失敗例

失敗例1：本番機サーバと開発機サーバを間違えた！

失敗例2：手順書を作成せず、場当たり的な作業をしてしまった！

失敗例3：事前バックアップが未取得で、設定後に保存し忘れた！

それぞれ問題点は何だったのか？

問題点1：経験不足による認識ミス

問題点2：ベテランにありがちな慢心

問題点3：時間という制約

具体的な対策と解決策とは？

対策1：自動化や、チェックリストの活用

対策2：障害対応手順書の見える化

対策3：冗長化への変更、そして効率化

人は、必ず失敗する生き物だから

関連記事一覧

システムの冗長化という、3つの視点から考えるBCP対策...

手順書を運用保守にどう活かす？ありがちなトラブルと...

災害も障害も忘れた頃にやってくる！平時に考えたい事...

ITILの要求実現って何の要求？どう管理する？：ITILの...

自分の未来をどう描く？システム運用担当者のキャリア...

業務運用と運用業務って紛らわしいけど同じ？一体何が...

システム運用だって設計が必須！設計の視点が運用担当...

経営者に知ってもらいたい！売上げに直結しないセキュ...