トラブル発生!そんな時は、現場の“人”の経験値を大事にしよう
システムの正常運用を保つために、さまざまなログやプロセスモニタ、センサーなどをチェックしていることかと思います。システムの見える化により、多くのことが判断できるようになりました。それでも、トラブルは起きてしまいます。トラブルを未然に防ぐ、トラブルが起きても大きな問題に発展する前に事態を抑えることは非常に重要です。
その時、どのような対策が取れるでしょうか。まずは1つ、興味深い事例をご紹介しましょう。
事例:「コインチェック」で起きたトラブル
仮想通貨取引所「Coincheck」を運営するコインチェックは、2020年6月にあるインシデント報告書を公開しました。この報告書では、同社が利用する外部のDNS情報が、何者かによる不正アクセスで書き換えられてしまったことによるインシデントが発生したことが述べられており、結果として情報漏えいの可能性があるということが記されています。
当社利用のドメイン登録サービス「お名前.com」で発生した事象について(最終報告) |コインチェック株式会社
https://corporate.coincheck.com/press/Y8pLx5Q2
実はこの背景にある話が、非常に示唆に富んでいます。報告書では2020年6月1日12時00分頃に、「監視業務にてレスポンスの遅延を検知し関連システムの調査を開始」ということがきっかけで不正アクセスに気が付くことになったのですが、従業員からの「ちょっとおかしい?」が運用チームに報告として上がり、そこから原因を追究していくと、実はサイバー攻撃を受けていたという大きなトラブルであることが発覚しました。(詳細は下記サイトで詳しく解説しております)
ある日突然、自社ドメインが乗っ取られた――“原因も手口も不明”の攻撃に、セキュリティチームはどう立ち向かったか
https://www.itmedia.co.jp/enterprise/articles/2010/02/news021.html
ここから得られる教訓は、さまざまな情報を基に、未然にトラブルを防ぐ仕組みも重要ながら、システムを日常的に利用している“人”こそが、最高に優秀な「センサー」にもなりえたということです。いつもよりもレスポンスが遅いということに気が付くには、現場や利用者の体感値こそが重要なのです。
<PR>システムの障害にいち早く気づくためには、システムの監視とアラート通知が重要。統合運用管理サービス「UOM」を導入することで、マルチクラウドのシステムインフラの状態を監視し、迅速な障害対応が可能になります。詳しくはこちらへ
現場の声を聞ける仕組み、ありますか?
コインチェックのインシデントに学ぶべきは、現場の従業員が感じた、ほんの少しの違和感も、正しくエスカレーションするルートによって集約することが重要であるということです。それがもしかしたら、企業のビジネスを左右しかねない大きなトラブルの、ほんのちょっとした兆候であるかもしれないのです。
しかし、このような経験や感覚に基づくアラートは、どうしても「誤検知」の割合が高くなってしまいます。そのため、運用を続けて行くと、「この程度で報告するな!」「ちゃんと調べろ!」と叱責をうけてしまう現場も多いはず。とはいえ、利用者の体感にもとづく、かすかな兆候を見逃さないような仕掛けも必要でしょう。
次回は、サーバー攻撃を例に経験値豊富な人でも気づきにくい事例を元に社内の報告体制の重要性をお知らせします。
<PR>正しいエスカレーションルートに基づいて報告したとしても、その報告に有益な情報がないことには意味がありません。IIJの統合運用管理サービス「UOM」で運用・保守の情報を可視化して共有できるので、報告後の対応のスピードアップが図れます。詳しくはこちらへ