スペイン発のオープンソース統合監視ツール「Pandra FMS」(1)
PandoraFMSと、それを利用した関連商用サービスを表1に示す。
主な機能 | 詳細 | Pandora FMS(※1) | SoNar(※2) | ||
---|---|---|---|---|---|
オープンソース版 | エンタープライズ版 | オープンソース版ベース | エンタープライズ版ベース | ||
監視機能 | 疎通監視、リソース監視、プロセス監視、応答監視、ログ監視、SNMPトラップ監視エージェント型監視、エージェントレス型監視、仮想化環境監視にも対応(同一GUIで一元管理可能) | ● | ● | ● | ● |
サービスレベル(複数項目の重みづけ)監視 | ● | ● | |||
アプリケーションシナリオ監視 | ● | ● | |||
監視設定 | 定義済み監視項目テンプレート、 自動検知・自動設定。設定の複数 ノードへの一括コピー | ● | ● | ● | ● |
監視ポリシーの作成、インストー ル済みエージェントの設定変更、 複数拠点の監視サーバ一括管理 | ● | ● | |||
障害通知 | メール通知、syslog出力、SNMP トラップ出力、サウンドアラート | ● | ● | ● | ● |
音声電話通知 | ● | ● | |||
システム運用情報管理 | リソース情報収集、イベント管理、 インシデント管理 | ● | ● | ● | ● |
収集情報のエクスポート(CSV,Excel形式) | ● | ● | ● | ● | |
インベントリ管理 | ● | ● | |||
カスタムレポート生成(xml, html) | ● | ● | ● | ● | |
カスタムレポート作成(PDF)、カスタムレポート定時自動作成 | ● | ● | |||
システムリソース推移変化分析 | ● | ● | |||
ユーザー管理 | ユーザーごとの参照・設定範囲設定 | ● | ● | ● | ● |
ユーザーインタ フェース | Webコンソール、 スマートフォンコンソール | ● | ● | ● | ● |
※1 Pandora FMS:http://pandorafms.org
※2 SoNar:http://www.rworks-ms.jp/service/detail/id=45(Pandora FMS をベースに利用したASPサービス)
監視と一次対応部分を自動化し、障害対応をスピードアップ
監視ツールとしての機能詳細に関しては第4章に譲るとして、ここでは、「効率化」「高品質化」「コスト削減」という命題に対して、どう効果を発揮するかという点を見ていく。
まず、基本的な障害対応部分を考えてみる。
システムの運用において、ある障害が発生したとしよう。統合運用管理システムが構築されている環境であれば、一次対応をシステムが実施し、二次対応を技術者が行う体制になるはずだ。このフローチャートを、図2に示す。
基本的な障害対応部分の高品質化を実現するためには、まず発生しうる事象と自動復旧処理をいかにパターン化して定義できるか、ということが重要になる。システムで対処できる処理がしっかり定義されていればいるほど、確実に、かつスピーディな対応ができるからである。その結果、問題が発生したとしても、問題が継続している時間を最大限短くすることができる。
このPandoraFMSでは、ある事象が発生した場合に、任意のアクションを定義することができる。例えば、Webサーバーでhttpdが動いているとしよう。そのhttpdで障害が発生した場合、20世紀型の運用であれば、オペレーターに障害通知されるか、または自動処理をするにしても、単純にプロセスダウン時の再起動までではなかっただろうか。
これに対して、21世紀型の運用における統合運用管理システムでは、再起動の先までもシステムが対応する領域だ。もちろん、httpdの障害を検知したら、単純に再起動するという対応もあるかもしれない。しかし、PandoraFMSでは複数回リトライしてNGであれば再起動したり、システムの負荷が高い場合に限り再起動したりするなど、複雑な対応を定義できる。
ここで、考えられる事象に対してシステムが自動対応を行う例を、以下に示す。
- httpdのプロセスダウンを検知したらプロセス自動再起動
- httpdの応答障害を検知したらプロセス自動再起動
- httpdの応答障害(遅延)検知時にロードアベレージ10以上であれば自動再起動
- httpdの応答障害(遅延)検知時にロードアベレージ10以上であればページ差し替え
- httpdの応答障害(遅延)検知時に該当サーバーをロードバランサーから切り離し・復旧時に切り戻し
- その他
いずれの場合も、それぞれの自動処理に失敗した場合に初めて、技術者へ通知されることになる。これは、他の監視項目でも同じである。統合運用管理システムを導入して活用することにより、まず監視と一次対応部分で、オペレーターの体制をおく必要がなくなり、想定された障害への対応はスピードアップできることを、理解していただけるだろうか。次に、PandoraFMSにおける設定例を見てみよう。これは、httpdの応答障害かつロードアベレージ10以上で、プロセスを再起動させる設定例である(図3)。
以上で、パターン化された事象の対応をシステムによって実施できるようになる。