TOPサーバ構築・運用> 運用管理のもう1つの肝:運用監視
Hinemos
運用管理ツール「Hinemos」完全利用ガイド

第3回:Hinemosを利用した運用監視で何が把握できる?

著者:NTTデータ  宮本 洋輔   2006/12/25
1   2  3  次のページ
運用管理のもう1つの肝:運用監視

   第2回では、統合運用管理ツールであるHinemosのジョブ管理機能の使い方を説明しました。最終回の今回は、運用管理のもう1つの中心業務である運用監視におけるHinemosの活用法を紹介します。
Hinemosでのシステム運用監視

   Hinemosでは、NMS(Network Management System)などで監視するネットワークレイヤから、httpサーバのレスポンスのようなアプリケーションレイヤまで、統一的な操作で設定・監視を行うことができます。Hinemosで監視可能な項目を表1に示します。

機能 説明
ping監視 管理対象の死活を監視します。
SNMP TRAP監視 SNMP TRAPを受信し、内容からイベントを生成します。
SNMP監視 SNMPの任意のOIDに対して閾値超過を監視します。
syslog-ng監視 システムログ 管理対象のシステムログとアプリケーションが出力するログを監視します。
アプリケーションログ
プロセス監視 プログラムを指定し、そのプロセスの数を監視します。
リソース監視 サーバのリソース情報を監視します。
SQL監視 応答時間 DBMSに接続し指定したSQL文の実行結果に対して、閾値監視または、文字列の出現を監視します。
文字列
エージェント監視 ジョブエージェント Hinemosのジョブエージェント、ログエージェントが接続されているか監視します。
ログ転送エージェント
HTTP監視 応答時間 HTTPサーバにアクセスし、応答時間およびページに含まれる文字列を監視します。
文字列

表1:Hinemosで行える状態監視項目

   Hinemosの運用監視では、2つの観点でシステムの状態を把握します。1つは定期的なポーリングによって把握した管理ノードの状態を表示する「ステータス画面」です。例えばping監視によるステータス表示をオンにした場合、pingが届いていなければ赤の「危険」と表示し、その状態が改善しpingが届くようになると緑の「通知」と変えて表示します。

   2つ目の観点は、ログや重要な状態をイベントとして表示管理する機能です。pingの不達時にイベントを出力する設定をしている場合は、pingが届かなかったときに赤の「危険」のイベントを出力します。これにより、いつの時間帯にネットワーク障害があったかという履歴がすぐに把握できます。


通常の運用監視 - 簡単に状態を把握したい

   通常の運用監視として、ミッションクリティカルなシステムや大規模システムでは、オペレータが常時または定期的に管理画面を確認するといった運用が多いでしょう。また一般的なシステムでは、異常が発生した際にメールなどで通知するというような場合もあるでしょう。

   管理対象のシステムに問題がない時には、管理負荷をできるだけ下げるためにも、システムが正常であることを簡単に確認できることが求められます。

   Hinemosの統合監視画面では、多数の監視項目をまとめて一番重要な状態を表示します。「第1回:Hinemosができること」で説明したようにHinemosでは管理対象ノードをグループ化して階層管理することができます。統合監視画面でもノードの状態はノードが所属する上位のグループに伝搬されます。

   つまり、管理対象の最上位グループの状態が正常ならば、下位に属するノードにも問題が発生していないということになります(図1)。これにより、管理対象のサーバやネットワーク機器が多数存在しても、簡単に状態を把握することができます。

Hinemosの統合監視画面
図1:Hinemosの統合監視画面
(画像をクリックすると別ウィンドウに拡大図を表示します)

   管理対象ノードに問題が発生した場合には、通知設定によりメール通知を実行したり、事前に定義しておいたジョブを実行させることができます。さらに、この通知は回数や時間を設定できますし、また「警告 → 危険」といった状態の遷移があった場合にのみ出力することも可能です(図2)。システム要件に応じた柔軟な設定が可能なので、確認に時間を要したり無駄なメールに悩まされることがありません。

細かな制御が可能な通知設定
図2:細かな制御が可能な通知設定
(画像をクリックすると別ウィンドウに拡大図を表示します)

   Hinemosの初期状態では「危険」「不明」「警告」「通知」の順で重要度が高くなっており、重要度の高いイベントやステータスから対応することができます。この重要度はカスタマイズすることができ、例えば複数のサーバのうち1台でも正常であれば、Hinemosとして正常(通知)として判定することもできます(図3)。

判定基準のカスタマイズ
図3:判定基準のカスタマイズ
(画像をクリックすると別ウィンドウに拡大図を表示します)

1   2  3  次のページ


株式会社NTTデータ  宮本 洋輔
著者プロフィール
株式会社NTTデータ  宮本 洋輔
基盤システム事業本部 オープンソース開発センタ
2003年、株式会社NTTデータに入社。入社以来セキュリティや運用管理などのシステム管理OSSに関する研究開発に従事。現在はHinemosの開発とコミュニティ作りに活動している。


INDEX
第3回:Hinemosを利用した運用監視で何が把握できる?
運用管理のもう1つの肝:運用監視
  障害発生!そのときどこを見る?
  システムに起こったことを監視する