クラウド時代のデータセンターが持つ理想と現実
運用管理体制のサイロ化
リソースごとに専任の担当者がいることはまれなケース
従来の運用管理体制の問題点として、ひとつはサーバー、ネットワーク、ストレージなど、管理対象ごとにツールが細分化されている、という点が挙げられる。
運用管理者側も“サーバー管理者”、“ネットワーク管理者”、“ストレージ管理者”と分かれている場合にはあまり明確に意識されないかもしれないが、システム全体としてのサービスレベルを保証しようとした場合、こうした“サイロ化”は全体を俯瞰(ふかん)することを難しくしてしまい、ともすれば不毛な“犯人捜し”に陥ってしまう可能性すらある。
大規模な企業IT部門などでは対象リソースごとに専任の担当者がいる、という恵まれた環境もあるかもしれないが、一般的には限られた数のスタッフが何もかも面倒を見なくてはいけない、という状況の方が多いと思われる。この場合、さまざまなツールの使い方を学習し、適宜使い分ける負担は無視できず、結果として作業負担を重くしてしまい、人的コストを押し上げることにもなる。
また、何らかの障害発生等で「システムのパフォーマンスが劣化した」「レスポンスが悪化している」といった状況が発生した場合には、根本原因がどこにあるのかを突き止めるまでに時間を要してしまう原因にもなる。しかも、従来のツールが想定していなかった仮想化レイヤーが新たに加わったことで、運用管理ツールの種類はさらに増える傾向にもある。
図2:従来の運用管理体制の問題点(クリックで拡大) |
ユーザーの期待値は高い
現時点では、さまざまな運用管理ツールが一斉に仮想化対応を強化しつつある段階だが、まだ過渡期といった印象は否めず、「仮想化環境に対応し、オールインワンで運用管理ができる決定版ツール」といったものはなかなか見つけられない状況だ。こうした複雑な運用管理体制は、ユーザーに提供できるサービスレベルにも直接的に影響を与える。
システムが大規模化/複雑化し、従来はユーザー企業の社内に設置されていたマシンルームが社外の専用ファシリティであるデータセンターに移動する過程で、多くのユーザーにとってきめ細かな運用管理を自力で実施することが困難になってきた、という事情もあって、データセンター事業者では付加価値サービス/マネージドサービスの一環として「運用監視」を提供するようになってきている。
しかし、ユーザーが期待するレベルのサービスを提供できている例は少ないのではないかと思われる。例えば、ユーザーとしては「障害の兆候をいち早くつかみ、大事になる前に対処してくれる」ことを期待するだろうが、性能劣化/レスポンス悪化の兆候をデータセンターの運用担当者がユーザーが気づくよりも前につかんでいる例はどのくらいあるのだろうか。
むしろ、ユーザーからの連絡を受けて初めて状況確認を開始する、という例の方が多いのが現実ではないだろうか。こうした対応はユーザー側の不満/不信感を増大させてしまうことになるが、データセンター側が楽をしているわけではなく、負担も決して軽くはない。
担当者の常時確保は大きな負担
ユーザーからの連絡を受けた時点で既に相当切迫した状況になってしまっているため、まずは迅速に原因を究明し、対処しなくてはならない。障害状況の確認から始まり、根本原因となっている障害箇所の特定、影響範囲の確定から、関連する他のスタッフやユーザーへの連絡など、こなすべき作業は膨大にある。こうした緊急対応を可能にするためには運用管理担当者側に高度な技術知識/経験が必要だし、そうした人材にとってもユーザーが「今か今か」と解決を待っている状況で迅速かつ確実な対処を行うのは容易ではない。
いつ発生するか分からない障害発生に備えてスキルの高い担当者を待機させておくのはデータセンターにとって重い負担となるし、可能な限り迅速に問題を解決できたとしても、ユーザー側には「連絡するまで障害に気づかなかった」という不満が残る。まさに労多くして功少なし、という状況に陥ってしまう。