Cloud Operator Days Tokyo 2021からNTT東日本とKDDIのインフラ監視に関するセッションを紹介
KCPSの運用で直面した仮想化基盤拡大に伴う課題とその対策
対してKDDIのセッションは、まじめに自社が保有するサーバー群やスイッチなどのネットワーク機器から発生するアラームをどうやって処理するべきか? を解説するものであった。
セッションを行った森田亙昭氏は2003年にKDDIに入社、2011年から運用チームとして監視業務をスタートし、2012年からはKCPS(KDDI Cloud Platform Service)の専任として従事しており、運用の苦労を知り尽くしているエンジニアだ。
ここではデータセンターの機器が増加に伴い複数の世代の機器を運用する必要が出てきたこと、そしてそれに従って故障もアラームも増えてきたことを解説した。
アラームに対するマニュアルを作成する部門としては、発生するアラームを削減することで運用チームの稼働を下げたいという思いもあったが、実際には追いついていなかったことを紹介した。
結果として故障対応やアラーム対応に追われることで、KCPSが目指してきた高品質を保つことが難しくなってきたという課題について、より詳細な分析が必要となったという。
業務分析を行ったことにより、アラームの大半が人手による対応が不要なものだったことがわかったとして、本当に必要なアラームだけをオペレータに通達するべきだということがわかったという。
そのために、これまでオペレータが判断していた部分を監視機能の中に組み込むことを決めたと説明した。
これまでマニュアルで判断していた正常かどうかの機能は「正常性監視」機能として実装され、マニュアルの作業が自動化されたことを解説した。
また冗長化された機器においては、たとえ1台が故障したとしても冗長化によって運用を続けることは可能であるという発想で、機器の冗長度を判断する仕組を組み込んだことを説明した。
結果としてアラーム数と対応時間がそれぞれ90%減、70%減となったことを紹介して、KCPSにおけるアラーム対応の品質を保ったことを解説した。
また単発で発生するアラームではなく継続して発生するアラームから故障を検知するための仕組として統計監視を導入し、時系列や頻度を意識したアラーム検知を行えるように改善したと言う。
最後にまとめとして、人手に頼っていたアラーム監視から正常性を検知する仕組みに移行したこと、冗長度を意識した監視を導入したこと、これによって冗長度が高い機器はまとめて交換するなどの効率化がなされたこと、頻度を意識したアラーム分析によって見落とされがちだった故障なども検知できるようになったことを説明した。
NTT東日本の事例はあくまでも新人研修の域を出ない内容だったが、KDDIのアラーム監視システムは人手による作業を分析することで無駄を省き、さらに統計データから異常を検知するという一歩踏み込んだ内容となった。実際には運用担当者が行っていたアラーム判断の部分をシステム化する時の実装方法(ルールベース、マトリックスなど)まで踏み込んで欲しかったというのは欲張りなリクエストかもしれないが、KCPSの今後の進展に注目していきたい。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- CNDO2021、サーバーレスの勘所をサーバーワークスのエンジニアが紹介
- CODT2021、組織変革でスクラム開発を加速したKDDIのセッションを紹介
- CI/CD Conference 2023から、アルファドライブ/ニューズピックスのSREがAWS CDKを活用したCI/CD改善を解説
- クラウドネイティブの真髄であるサーバーレスがキーノートに登場
- サーバーレスな事例が次々登場―ServerlessConf Tokyo 2016レポート
- OpenStack Summit Sydneyに見るOpenStackの今そしてこれから
- 米Red HatがRHELの無償サブスクリプションを提供、米MSがWindows 10でコンテナをサポート、ほか
- Observability Conference 2022、利用者目線のオブザーバビリティ実装をドコモのSREが解説
- サーバレスアプリケーション運用フレームワーク「Serverless Framework 1.54」リリース
- OpenShift Commonsで知る継続的デリバリーのSpinnaker最新情報