システムの現状把握を欠かさないために必要なアクションとは

連載 :

2013年3月7日(木)

死活監視から性能監視へ

企業ITシステムは、かつての自社内マシンルームでの運用からデータセンターのハウジングサービスの活用、そして最近ではさらにクラウドサービスの利用へと段階的にトレンドが変遷している。この進化は、ユーザー企業の管理者の視点からは「システムがどんどん遠くに移動していく」プロセスでもあり、かつては「ちょっと見てくる」で確認できたことも、そう簡単にはできなくなってきた。そのため、システムの稼働監視がデータセンターのサービスとして一般化してきている。現在では「死活監視」はごく基本的なサービスとして標準的に提供されていると言って過言ではない状況であり、さらに高度な監視サービスを提供する事業者も出現してきているところだ。システムの構成が複雑化していることや、サーバ仮想化の普及などにより、物理サーバ単位で死活監視するだけでは障害を発見することができなくなりつつあることが背景にある。

死活監視が「生きているか死んでいるか」というデジタルな判断だとすれば、性能監視は「どのくらいのパフォーマンスが出ているか」を無段階のアナログで判断する手法だと言えるだろう。死んでいたら大問題なのは当然だが、生きていればそれで良いというわけではない。「元気いっぱい」なのか「息も絶え絶え」なのか、サービスレベルの維持という観点からはより踏み込んだ判断が必要になる。このための基本情報となるのが、性能監視によって得られる詳細な性能情報だ。

適切なアクションを導くもの

現在では「システムの見える化を実現するツール」も各種市場に投入されており、状況把握は以前に比べると格段に容易になったように思える。しかし、ツールがあればそれで良いわけではない。プロの板前と同じ包丁を買ってくるだけでいきなりプロのように魚を捌くことができるわけではないのである。適切なツールを導入すれば、性能監視に必要な情報の収集は実現できるだろう。しかし、その情報を適切に解釈し、必要な分析を行って何らかの知見を得るのは、運用管理者の仕事となる。これは、「ログ」に対する考え方と全く同一だ。
システムに何が起こったかを詳細に知るためには、ログ情報を取得し、保存しておくことが有益だが、単に大量のログが蓄積されているだけではどうにもならず、そのログを分析して何が起こったのかを理解するための知識やノウハウがないとただ途方に暮れるだけで終わってしまう。

性能監視では、システムを構成する大量のコンポーネントから詳細な性能情報を収集することが第一歩となるが、情報収集は目的ではなく単なる手段に過ぎない。

図1：各システムで取得すべき性能情報（クリックで拡大）

言うまでもないことだが、性能監視の目的は、適切なタイミングで適切なアクションを起こすための根拠を与えることだ。システムがリソースを使い切ってトラブルを起こす前にリソースの追加を決断できるかどうかは、現状のリソースの消費量を正確に把握し、将来的なリソース逼迫を正しく予測できるかどうかにかかっている。障害対応という見地からは、障害が発生したら即座に対応する、ということになるが、性能監視によって事前にトラブル発生を予測できていれば対応は遙かに迅速かつ容易に低コストで実施できることになる。

性能監視の本当のメリットは、収集された情報を踏まえて適切な判断を下せるようになる点にあるのだ。