Cloud Operator Days Tokyo 2021からNTT東日本とKDDIのインフラ監視に関するセッションを紹介

2021年12月3日(金)
松下 康之 - Yasuyuki Matsushita
CODT2021から、インフラストラクチャー監視に関する2つのセッションを紹介する。

Cloud Operator Days Tokyo 2021から、NTT東日本とKDDIがそれぞれインフラストラクチャー運用の自動化について解説したセッションを紹介する。タイトルはそれぞれ「新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた」「KCPSの運用で直面した仮想化基盤拡大に伴う課題とその対策」で、脱力系とまじめ系という対極のセッションのように思えるが、実際にはどちらのセッションも管理しているインフラストラクチャーから上がってくるアラートやエラーメッセージをどうやって処理するのか? に焦点を定めた内容となっている。

NTT東日本のセッション:新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた

KDDIのセッション:KCPSの運用で直面した仮想化基盤拡大に伴う課題とその対策

新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた

最初に紹介するのはNTT東日本のエンジニア、坂齊史奈子氏のセッションだ。坂齊氏は2020年度の新卒入社で大学では機械工学を専攻しており、入社までプログラミングもクラウドも触ったことがなかったという経歴を持つ。タイトル通りに「新入社員がAWSを9ヶ月触った経験しかない」のに自動化システムを作ったという内容だ。AWSを使い始めたのが2020年6月で、今回の実装のインフラとなるAWSのサーバーレスサービスLambdaを触り始めたのが2020年7月という経験の少なさに驚くかもしれない。

坂齊氏のプロフィール

坂齊氏のプロフィール

坂齊氏のプロフィールからわかることは、プログラミングやクラウドの知識も経験もなかった新入社員が、この1年間にAWSに関する4つの認定試験をクリアし、社内教育の講師役を担当しているということで、今回のシステムもすべてAWSに特化した内容となっている。

AWS上のシステムから発生するアラート対応を効率化するのが目的

AWS上のシステムから発生するアラート対応を効率化するのが目的

このスライドでは、NTT東日本でAWS上のシステムを運用している際にアラートが頻繁に上がってくることで業務効率が落ちてしまっているという課題を解決するために、人手による処理を自動化することが解説された。

AWSのサーバーレス、Lambdaを選択

AWSのサーバーレス、Lambdaを選択

そのためにAWSのサーバーレスプラットフォームであるLambdaが選択されたわけだが、その理由として「サーバーのプロビジョニングや管理が不要であること」と「コードの複雑化を避けたかったこと」を挙げた。

Lambdaの中の処理方法を検討し、Step Functionsを選択

Lambdaの中の処理方法を検討し、Step Functionsを選択

ここではアラートの処理のために複数のLambdaファンクションが必要となるが、その実行制御をどのように実装するのかという点について、SQSやEventBridge、Step Functionsを評価した結果、Step Functionsを選択したことが解説された。

Step Functionsのインターフェースを紹介

Step Functionsのインターフェースを紹介

Lambdaで構築されたアラート処理システムのフロー

Lambdaで構築されたアラート処理システムのフロー

この構成図では坂齊氏が開発したアラート処理の概要が解説されているが、アラートについて通知が必要かどうかを振り分けた後、誰にどのような文面でメールを送信するのかを処理するという中身が明らかになっている。

今回の開発案件のスケジュール

今回の開発案件のスケジュール

このスケジュールからわかるのは、AWSの基礎知識を2ヶ月で習得した後に現場業務の理解、設計に1ヶ月、開発に6ヶ月という時間の割り振りだ。それほど大がかりなシステムでもなく、実施対象となる組織への説明に苦労したというコメントを見れば、このシステム自身は坂齊氏の新人教育の一貫として業務理解から設計、開発、テスト、現場への導入までの一通りのプロセスを経験させるためのものだったように思える。

今回の開発案件のまとめ

今回の開発案件のまとめ

このまとめもAWSに特化した内容となっており、運用担当者にとってはAWS以外のシステムには応用できないこと、大量のアラートに対応するにはどうするべきか? というスケールアウトの発想が見られないことなどから、あくまでも新人教育の中で「作ってみた」というレベルだったことがわかる。

著者
松下 康之 - Yasuyuki Matsushita
フリーランスライター&マーケティングスペシャリスト。DEC、マイクロソフト、アドビ、レノボなどでのマーケティング、ビジネス誌の編集委員などを経てICT関連のトピックを追うライターに。オープンソースとセキュリティが最近の興味の中心。

連載バックナンバー

運用・管理イベント
第6回

CODT2021、NTT ComがOSアップデートに関する失敗談を紹介

2021/12/7
CODT2021において、NTTコミュニケーションズが仮想サーバーサービスのOSをアップデートした際の失敗談を共有するセッションを紹介する。
運用・管理イベント
第5回

Cloud Operator Days Tokyo 2021からNTT東日本とKDDIのインフラ監視に関するセッションを紹介

2021/12/3
CODT2021から、インフラストラクチャー監視に関する2つのセッションを紹介する。
プロジェクト管理イベント
第4回

CODT2021、組織変革でスクラム開発を加速したKDDIのセッションを紹介

2021/11/26
巨大なインフラストラクチャーサービス開発のために、スクラム開発を組織変革によって加速したKDDIのセッションを紹介する。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています