サイレント障害を検知する新分析技術
インバリアント分析技術の利点 ~正確な異常検知~
インバリアント分析技術のメリットは、従来のシステム監視よりも正確に異常を検知できる点です。このインバリアント分析が従来の分析手法とどう違うかを少し説明しましょう。
従来の障害監視は、“しきい値監視”が一般的です。しきい値監視は、性能情報に一定のしきい値を設け、そのしきい値を超えるか超えないかで正常/異常を判断します。
当然、しきい値が低ければ意図しない警報が発生するため「誤報」は多くなります。一般的には、誤報を低減するために、確実に異常と判断できる高い値をしきい値に設定し、運用します。この場合、将来の負荷を考慮して余力を持ったシステムでは、多少の異常があっても検知できず、今度は必要な障害が見つからない「検知漏れ」が発生してしまいます。
このように、従来の性能分析手法では、誤報と検知漏れがトレードオフとなり、うまくサイレント障害を検知できません。
これに対して、インバリアント分析技術は、絶対的なしきい値との比較ではなく、平常時との相対的な比較により異常を検知します。しきい値の高低によるトレードオフが発生しないため、誤報や検知漏れが発生することなく、意図した障害を正確に異常として検知することが可能です。
また、インバリアント分析技術では、管理対象1台1台に対して個別にしきい値設定を行う必要がありません。
従来のしきい値設定は、システムを構成するマシンのスペックに応じて調整する必要があり、システムを増強した場合にはしきい値の再調整が必要でした。このため、システムが大規模/複雑化すると、しきい値を設定する管理者に大きな負担がかかることが問題でした。
これに対して、WebSAM Invariant Analyzerでは、稼働しているITシステムの性能情報を与えるだけで自動的に平常時のシステムのモデルを作成し、異常を検知できます。しきい値の設定を行う必要がないため、従来のしきい値監視ツールと比べて管理者の負担を大幅に減らすことが可能です。
インバリアント分析技術の利点 ~クロスドメインでの性能分析~
インバリアント分析技術が登場する以前から、しきい値監視よりも検知精度を向上させた手法としてベースライン監視という手法がありました。この手法は、通常時の性能値の変動パターンを記憶し、その変動パターンから、正常とする範囲の変動幅(ベースライン)を定義します。そして、そのベースラインに沿った挙動かどうかで正常/異常を判定します。
ベースライン監視は、しきい値監視とは違い、平常時の性能パターンに沿って監視を行うことが可能です。平常時をベースに監視を行うという点では、今回の連載で解説しているインバリアント分析技術と同様のアプローチといえます。
しかし、ベースライン監視では、ベースラインと大きく異なる性能情報が検知されたからといって、管理者はすぐに異常と判断できるわけではありません。その性能情報と関係のあるほかの性能情報を調べ、そこに問題がなければ正常と判断することもあるのです。
管理者は、1つ1つの性能情報ではなく、システム全体の動作から、性能情報間の相関関係を考慮して正常か異常かを判断しています。ベースライン監視では、このような相関関係を考慮できません。このため、管理者によって正常/異常の判断にずれが生じるおそれがあります。
これに対して、インバリアント分析技術は、各性能情報のパターンを個別に分析するのではなく、2つの性能情報間の相関関係で分析を行います。性能情報1つのベースライン分析ではなく、ネットワークとサーバー機器を含めたシステムを横断した“くし刺し分析”や、多数のサーバーにまたがる個々の業務システムごとの相関分析ができます。システム全体の異常の度合いも算出でき、より正確な性能分析が可能です。
また、分析可能な要素は、性能情報だけではありません。業務量や在庫量といった、機器の性能情報以外の情報も含めて分析可能です。異なるレイヤーの性能情報をまとめて、システム全体をクロスドメインで分析できる点も、WebSAM Invariant Analyzerの大きな特徴の1つです。これにより、管理者はより適切な判断が可能になります。
次ページでは、インバリアント分析技術の大きなメリットの1つとして、運用の自動化が可能になる点について解説します。