ZABICOM / Zabbixの概要
ITサービスのシステム・ダウンを未然に防ぐには、ネットワークやサーバーのリソース、ログ・メッセージ、プロセス状態の監視が欠かせません。しかし、機械的なキーワード検知、画一的なしきい値判定だけでは、無用なアラートが増えてしまい、真に重要な障害を見逃すことになってしまいます。
本連載では、4回にわたり、ZABICOM / Zabbix の特長や、実際の運用で利用できるような柔軟なしきい値設定などを紹介しながら、ZABICOM / Zabbixの設定方法について解説します。
なお、今回は、ZABICOM / Zabbixを利用する上で重要となる監視設定や運用を効率化する、各種の機能および設定例を中心に解説します。
- 第1回 ZABICOM / Zabbixの概要
- 第2回 ZABICOM / Zabbixの設定方法 - ネットワーク監視編
- 第3回 ZABICOM / Zabbixの設定方法 - サーバー監視編
- 第4回 ZABICOM / Zabbixの機能活用
ZABICOM / Zabbixとは
Zabbixとは、ラトビア共和国のZABBIX SIAが開発している、システム監視のためのソフトウエアです。オープン・ソースとして提供されています。日本のZabbixの登録商標は「ZABICOM」です。以下、本稿ではZABICOMの表記を使用します。
さらに、ZABICOMをベースに、日本の監視シーンに合わせた付加機能、拡張仕様を適用した「ZABICOM-J」を、NTTコムテクノロジーが提供しています。
|
図1: Zabbix、ZABICOM、ZABICOM-Jの関係 |
ZABICOMは、エージェントを用いたサーバー監視、SNMPによる機器監視、IPMI(Intelligent Platform Management Interface)によるハードウエア監視など、システム運用の上で必要な監視を統合的に行えます。これらの機能は、追加ライセンスやプラグインを導入することなく、all-in-oneで提供されます。
障害を検知した際は、メールや監視表示灯による通知はもちろん、スクリプトの自動実行、監視対象上でのコマンドの実行も可能であり、運用の自動化を進めることができます。さらに、ZABICOMの大きな特長として、可視化機能があります。ZABICOMでは、収集した数値データをリアルタイムでグラフ化することができます。
マップ機能で構成図を作成しておけば、どこで障害が発生したのかを、視覚的に分かりやすく確認できます。スクリーン機能では、監視現場に合わせて、障害履歴や取得したデータ、複数のグラフやマップなどを1つの画面に集約し、監視対象システムの全体像を把握できます。
図2: ZABICOM / Zabbixのスクリーン機能(クリックで拡大) |
ZABICOM設定の基礎
「何から設定したらいいのか分からない」。これは、ZABICOMを初めて利用する方からよく聞く言葉です。
ほかの障害監視ツールの場合、障害判定の設定だけで済むものもあります。一方、ZABICOMの場合は、障害判定条件(以下、トリガーと呼びます)と、判定に利用するデータ(以下、アイテムと呼びます)収集とを、それぞれ別々に設定します。
これは一見、煩雑にも思える仕組みですが、このおかげで単なる障害監視だけでない、複数のデータを組み合わせたグラフの定義が可能になります。これを利用し、リソースの長期の傾向分析を行い、システム更改計画の参考にできたり、複数のデータを組み合わせた柔軟で詳細な障害判定設定ができます。現場管理者の知恵をロジックとして蓄積し、不要な障害通知を抑制し、本当に重要な障害だけを通知するように「成長」させることが可能になります。
トリガー条件式によって障害と判定された場合、ZABICOMはこれを「イベント」として記録します。このイベントを基に、障害通知やコマンドの実行などの動作(以下アクションと呼びます)をさせるように設定できます。
ZABICOMの設定方法を理解するためには、このシステム・フローを把握することが重要です。
|
図3: ZABICOM / Zabbixの処理の流れ |