スペイン発のオープンソース統合監視ツール「Pandra FMS」(1)

2014年6月2日(月)
株式会社アールワークス

PandoraFMSと、それを利用した関連商用サービスを表1に示す。

表1 Pandora FMSとそれを利用した商用サービス
主な機能 詳細 Pandora FMS(※1) SoNar(※2)
オープンソース版 エンタープライズ版 オープンソース版ベース エンタープライズ版ベース
監視機能 疎通監視、リソース監視、プロセス監視、応答監視、ログ監視、SNMPトラップ監視エージェント型監視、エージェントレス型監視、仮想化環境監視にも対応(同一GUIで一元管理可能)
サービスレベル(複数項目の重みづけ)監視    
アプリケーションシナリオ監視    
監視設定 定義済み監視項目テンプレート、 自動検知・自動設定。設定の複数 ノードへの一括コピー
監視ポリシーの作成、インストー ル済みエージェントの設定変更、 複数拠点の監視サーバ一括管理    
障害通知 メール通知、syslog出力、SNMP トラップ出力、サウンドアラート
音声電話通知    
システム運用情報管理 リソース情報収集、イベント管理、 インシデント管理
収集情報のエクスポート(CSV,Excel形式)
インベントリ管理    
カスタムレポート生成(xml, html)
カスタムレポート作成(PDF)、カスタムレポート定時自動作成    
システムリソース推移変化分析    
ユーザー管理 ユーザーごとの参照・設定範囲設定
ユーザーインタ フェース Webコンソール、 スマートフォンコンソール

※1 Pandora FMS:http://pandorafms.org

※2 SoNar:http://www.rworks-ms.jp/service/detail/id=45(Pandora FMS をベースに利用したASPサービス)

監視と一次対応部分を自動化し、障害対応をスピードアップ

監視ツールとしての機能詳細に関しては第4章に譲るとして、ここでは、「効率化」「高品質化」「コスト削減」という命題に対して、どう効果を発揮するかという点を見ていく。

まず、基本的な障害対応部分を考えてみる。

システムの運用において、ある障害が発生したとしよう。統合運用管理システムが構築されている環境であれば、一次対応をシステムが実施し、二次対応を技術者が行う体制になるはずだ。このフローチャートを、図2に示す。

図3-13 障害発生時の対応フローチャート例
図2:障害発生時の対応フローチャート例

基本的な障害対応部分の高品質化を実現するためには、まず発生しうる事象と自動復旧処理をいかにパターン化して定義できるか、ということが重要になる。システムで対処できる処理がしっかり定義されていればいるほど、確実に、かつスピーディな対応ができるからである。その結果、問題が発生したとしても、問題が継続している時間を最大限短くすることができる。

このPandoraFMSでは、ある事象が発生した場合に、任意のアクションを定義することができる。例えば、Webサーバーでhttpdが動いているとしよう。そのhttpdで障害が発生した場合、20世紀型の運用であれば、オペレーターに障害通知されるか、または自動処理をするにしても、単純にプロセスダウン時の再起動までではなかっただろうか。

これに対して、21世紀型の運用における統合運用管理システムでは、再起動の先までもシステムが対応する領域だ。もちろん、httpdの障害を検知したら、単純に再起動するという対応もあるかもしれない。しかし、PandoraFMSでは複数回リトライしてNGであれば再起動したり、システムの負荷が高い場合に限り再起動したりするなど、複雑な対応を定義できる。

ここで、考えられる事象に対してシステムが自動対応を行う例を、以下に示す。

  1. httpdのプロセスダウンを検知したらプロセス自動再起動
  2. httpdの応答障害を検知したらプロセス自動再起動
  3. httpdの応答障害(遅延)検知時にロードアベレージ10以上であれば自動再起動
  4. httpdの応答障害(遅延)検知時にロードアベレージ10以上であればページ差し替え
  5. httpdの応答障害(遅延)検知時に該当サーバーをロードバランサーから切り離し・復旧時に切り戻し
  6. その他

いずれの場合も、それぞれの自動処理に失敗した場合に初めて、技術者へ通知されることになる。これは、他の監視項目でも同じである。統合運用管理システムを導入して活用することにより、まず監視と一次対応部分で、オペレーターの体制をおく必要がなくなり、想定された障害への対応はスピードアップできることを、理解していただけるだろうか。次に、PandoraFMSにおける設定例を見てみよう。これは、httpdの応答障害かつロードアベレージ10以上で、プロセスを再起動させる設定例である(図3)。

図3-14 複数条件合致時の自動処理例(アラート設定)
図3:複数条件合致時の自動処理例(アラート設定)

以上で、パターン化された事象の対応をシステムによって実施できるようになる。

著者
株式会社アールワークス
1985年に株式会社アステックとして創業。2000年10月の株式会社アールワークス設立を経て、2005年6月より現在の1社体制に移行。同時に、社名を(株)アールワークス(Rworks, Inc.)に変更。
設立以来、IDC事業やITマネージドサービスを行い、そこで培ったネットワークインフラの運用ノウハウや、さまざまなソフトウェアを開発した技術力を結集し、現在、ITシステムのリモート運用サービスをはじめとして、インフラ構築、ハウジングやホスティングサービス、SaaS/ASP型のシステム監視基盤の提供を行う。単純なオペレーターではない技術提供をベースにした24時間365日の統合的なフルマネージドサービスを提供している。

連載バックナンバー

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています