CODT2021、NTT ComがOSアップデートに関する失敗談を紹介

2021年12月7日(火)
松下 康之 - Yasuyuki Matsushita
CODT2021において、NTTコミュニケーションズが仮想サーバーサービスのOSをアップデートした際の失敗談を共有するセッションを紹介する。

Cloud Operator Days Tokyo 2021から、NTTコミュニケーションズ株式会社(以下、NTT Com)が発表した「エンタープライズ向けクラウドサービスにおける大規模・商用環境でのホストOSバージョンアップ」というセッションを紹介する。これはタイトル通り、NTT Comが世界中に展開するエンタープライズ向けのクラウドサービスであるEnterprise Cloud(現在ではSmart Data Platform、SDPFと改名)における仮想サーバーのホストOSをアップグレードした際の経験を解説する内容となっている。実際の内容から考えれば「運用苦労話」というカテゴリーで語られるべき失敗談とその原因の追及、そしていかにリカバリーを行ったかという経験を詳細に説明したものである。

セッションの動画:エンタープライズ向けクラウドサービスにおける大規模・商用環境でのホストOSバージョンアップ

セッションを担当したのはNTT Comのソフトウェアアーキテクトである佐野成氏だ。

クラウドサービスを運用する「辛み(つらみ)」

タイトルではOSのバージョンアップに絞られているが内容は失敗談

タイトルではOSのバージョンアップに絞られているが内容は失敗談

次のスライドでこのセッションの語られる内容が挙げられているが、ここでも「エンタープライズ向けクラウドサービスの辛さ」について記述されており、この時点で次に失敗談が来るであろうことは想像できる。

セッションの概要に「辛さ」と「難しさ」が並んでいる

セッションの概要に「辛さ」と「難しさ」が並んでいる

まずは対象となるクラウドサービスの紹介から始まった。世界中の13拠点に仮想マシンの総数として35,000台という規模のサービスであり、その中の仮想サーバーを提供するサービスが今回のバージョンアップの対象となる。ここではECLという名称からSDPFという現在の名称に変わったことが簡単に説明された。また提供するプラットフォームは、OpenStackをベースにしていることが解説された。

仮想サーバーサービスの概略

仮想サーバーサービスの概略

続いては仮想サーバーの中核となるコンピュートノードの紹介である。3つの世代のインテル製CPU(古い順にHaswell、Broadwell、Skylakeというコードネームで呼ばれる)を使ったサーバー40台のクラスター構成で36台がアクティブ、4台がホットスタンバイ状態となる。またホストOSもカノニカルのUbuntuとレッドハットのRHELを使った2種類が存在していることが解説された。

コンピュートノードの概要。2種類のホストOSを3世代のインテル製CPUで利用

コンピュートノードの概要。2種類のホストOSを3世代のインテル製CPUで利用

ホストOSの違いによってコンピュートノードを世代として定義し、それをアップグレードするというのが今回のセッションのトピックである。

2つのホストOSをセットにして世代として管理

2つのホストOSをセットにして世代として管理

CPv1はUbuntu 14.04とRHEL7.4を使用するサーバー、CPv2はUbuntu16.04とRHEL7.6を使うサーバーだ。

また仮想サーバーのプラットフォームとなるOpenStackについてもバージョン管理が行われており、OpenStackとコンピュートノードのホストOSを交互にアップデートしていくというスパイラルアップデートという方法を採用している。

OpenStackとコンピュートノードのOSを交互にアップデート

OpenStackとコンピュートノードのOSを交互にアップデート

そしてライブマイグレーションを使ってアップデートを行う仕組みを解説した。CPv1の上で稼働している仮想サーバーを別のCPv1のサーバーにマイグレーションした後で、元のCPv1のOSをCPv2にアップデート、その後でCPv1で稼働していた仮想サーバーを元のハードウェアにマイグレーションする方法を採用している。

コンピュートノードのローリングアップデートの方法を解説

コンピュートノードのローリングアップデートの方法を解説

著者
松下 康之 - Yasuyuki Matsushita
フリーランスライター&マーケティングスペシャリスト。DEC、マイクロソフト、アドビ、レノボなどでのマーケティング、ビジネス誌の編集委員などを経てICT関連のトピックを追うライターに。オープンソースとセキュリティが最近の興味の中心。

連載バックナンバー

運用・管理イベント
第6回

CODT2021、NTT ComがOSアップデートに関する失敗談を紹介

2021/12/7
CODT2021において、NTTコミュニケーションズが仮想サーバーサービスのOSをアップデートした際の失敗談を共有するセッションを紹介する。
運用・管理イベント
第5回

Cloud Operator Days Tokyo 2021からNTT東日本とKDDIのインフラ監視に関するセッションを紹介

2021/12/3
CODT2021から、インフラストラクチャー監視に関する2つのセッションを紹介する。
プロジェクト管理イベント
第4回

CODT2021、組織変革でスクラム開発を加速したKDDIのセッションを紹介

2021/11/26
巨大なインフラストラクチャーサービス開発のために、スクラム開発を組織変革によって加速したKDDIのセッションを紹介する。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています