スペイン発のオープンソース統合監視ツール「Pandra FMS」(1)
技術者へエスカレーションする際の内容の定義
次に、統合運用管理システムを使った運用設計のポイントとなるのは、事前に定義したパターンから外れた場合の処理である。
事前に定義したパターンから外れた場合、今度は技術者へエスカレーションする内容の定義が重要になる。エスカレーション時にシステムのどのような情報を伝えるかで、その後の対応の手間や対応速度、また今後のシステム改善につなげることができるかどうかが大きく変わってくるためだ。
20世紀型の従来の運用であると、このエスカレーション作業自体がオペレーターによるものであることが多く、かつ何を伝えるべきかがしっかり定義されていないことが多かったのではないだろうか。このような場合には、内容の再確認や複数の人が同じ調査を行うなどといったことが発生する。しかし、統合運用管理システムでは、システムが必要な情報を的確に教えてくれるのだ。
このような、ちょっとした事であっても、回数が重なれば統合運用管理システムによる効率化の効果は大きい。
一方、システムによる障害復旧ができなかった場合、技術者へのエスカレーションは、大きく次の2パターンに分けることができる。
- 技術者が対応しないと復旧できないものの、サービスの維持には影響がなく、後ほど対処すればよいもの。
- サービス停止など、その場ですぐに対処しなければならない緊急を要するもの。
(1)の場合であれば、なるべく多くの情報を集めてしっかり伝えることが重要であるが、(2)では、第一報が重要となる。この点についても、従来の20世紀型の運用では、オペレーターが人的対応していた部分であろう。「効率化」「コスト削減」のためには、重要度に応じた伝え方の変更も統合運用管理システムが実施するよう、設計することが重要である。
Pandora FMSでは、障害内容に応じた連絡先の変更のみならず、「障害通知文面に関連情報へのリンクを入れる」「緊急度の低い障害は昼間になってから通知する」「緊急度の高い障害は頻繁に再通知をする」などといった、柔軟な設定を行うことができる。Pandora FMSをベースに、ASPとしてサービス提供されている「SoNar」では、緊急時に、音声電話で障害を通知する機能も備わっている(図4)。
これまでの説明で、技術者でないと対応できない状況になる前段の対応については、すべて統合運用管理システムで実現できることが、わるはずである。繰り返しになるが、システム運用において、オペレーターと呼ばれる人の配置は、不要なのである。ここをしっかり設計することで、「効率化」「高品質化」「コスト削減」の効果は大きい。システムが大きくなればなるほど、効果は大きいはずだ。まさに、大規模システムや、クラウド上に多数のサーバーを立ち上げているようなシステムに適している。