サイレント障害を検知する新分析技術
インバリアント分析技術の利点 ~「経験と勘」に頼らない性能分析~
第2回では、サイレント障害の発生個所の特定や原因分析には、各コンポーネントの管理者と専門家が集まって分析を行う必要があることを説明しました。逆に言えば、サーバー台数の少ないシステムであれば、そのシステム全体を把握した管理者がシステム全体を運用できます。豊富な知識と経験を持つ管理者や専門家がいれば、「経験と勘」によってサイレント障害の発生個所と原因を特定することも可能なのです。
ところが、このような経験豊富な管理者がいつでも対応できるとは限りません。特に、多数の顧客システムを預かるデータセンターでは、顧客システムごとに異なる特徴を、少数の管理者がすべて把握することは困難です。かといって、多数の経験豊富な管理者や専門家をシステムごとに常時張り付けて監視することは現実的ではありません。
また、システムの構成要素が多様化し複雑化している昨今では、このような「経験と勘」に頼る方法では、問題の解決が難しくなってきているのです。障害に関係するであろう大量の性能情報をすべてチェックするような、“手探り”での原因究明では、原因分析の長期化は免れません。
これに対して、インバリアント分析技術では、性能情報からシステム全体を自動的に分析し、不変関係をモデル化、異常の発生個所を自動で特定することができます。
これまでのように属人的な「経験と勘」に頼るものではないので、システムが大規模であっても、網羅的かつ正確に、異常の発生を検知できます。また、システムが複雑であっても、性能情報を読み込むだけで分析可能なので、管理者の負担も軽減できます。このように、管理者が行う分析作業をシステムが代行することで、大規模/複雑化するシステムでも、効率的な運用を行うことができます。
クラウド指向データセンターの運用効率化に大きく貢献
以上、説明したように、WebSAM Invariant Analyzerでは、対象機器ごとに複雑な分析設定を行うことなく、容易にサイレント障害の分析が実現できます。管理者が分析する場合と同様に、システムを構成する各要素の相関関係を把握し、管理者に代わってシステムが網羅的に分析を行います。
同製品が採用したインバリアント分析技術には、正確な異常検知や、クロスドメインでの性能分析、「経験と勘」に頼らない性能分析、といった利点があります。この新しい技術を採用することで、管理者を悩ませるサイレント障害に効率的に対応できます。従来であればシステム監視ソフトで対応していた異常メッセージの分析に加えて、異常メッセージを伴わないサイレント障害の分析も標準化できます。
特に、多数の顧客業務を収容するクラウド指向データセンターでは、少ない管理者で多数のサーバーを効率的に監視することが求められていますが、サイレント障害への対応が十分でなかったことがその妨げになっていました。インバリアント分析技術によって、サイレント障害の原因究明に費やされていた時間を低減することができるため、データセンターの運用を効率化し、コストを低減することが可能になります。
今回は、NECのオリジナル技術であるインバリアント分析の特徴と、それを採用したWebSAM Invariant Analyzerについて概説しました。次回は、キャパシティ予測など、インバリアント分析技術の応用について説明します。