サイレント障害を検知する新分析技術

2009年12月17日(木)
加藤 清志

インバリアント分析技術の利点 ~「経験と勘」に頼らない性能分析~

第2回では、サイレント障害の発生個所の特定や原因分析には、各コンポーネントの管理者と専門家が集まって分析を行う必要があることを説明しました。逆に言えば、サーバー台数の少ないシステムであれば、そのシステム全体を把握した管理者がシステム全体を運用できます。豊富な知識と経験を持つ管理者や専門家がいれば、「経験と勘」によってサイレント障害の発生個所と原因を特定することも可能なのです。

ところが、このような経験豊富な管理者がいつでも対応できるとは限りません。特に、多数の顧客システムを預かるデータセンターでは、顧客システムごとに異なる特徴を、少数の管理者がすべて把握することは困難です。かといって、多数の経験豊富な管理者や専門家をシステムごとに常時張り付けて監視することは現実的ではありません。

また、システムの構成要素が多様化し複雑化している昨今では、このような「経験と勘」に頼る方法では、問題の解決が難しくなってきているのです。障害に関係するであろう大量の性能情報をすべてチェックするような、“手探り”での原因究明では、原因分析の長期化は免れません。

これに対して、インバリアント分析技術では、性能情報からシステム全体を自動的に分析し、不変関係をモデル化、異常の発生個所を自動で特定することができます。

これまでのように属人的な「経験と勘」に頼るものではないので、システムが大規模であっても、網羅的かつ正確に、異常の発生を検知できます。また、システムが複雑であっても、性能情報を読み込むだけで分析可能なので、管理者の負担も軽減できます。このように、管理者が行う分析作業をシステムが代行することで、大規模/複雑化するシステムでも、効率的な運用を行うことができます。

クラウド指向データセンターの運用効率化に大きく貢献

以上、説明したように、WebSAM Invariant Analyzerでは、対象機器ごとに複雑な分析設定を行うことなく、容易にサイレント障害の分析が実現できます。管理者が分析する場合と同様に、システムを構成する各要素の相関関係を把握し、管理者に代わってシステムが網羅的に分析を行います。

同製品が採用したインバリアント分析技術には、正確な異常検知や、クロスドメインでの性能分析、「経験と勘」に頼らない性能分析、といった利点があります。この新しい技術を採用することで、管理者を悩ませるサイレント障害に効率的に対応できます。従来であればシステム監視ソフトで対応していた異常メッセージの分析に加えて、異常メッセージを伴わないサイレント障害の分析も標準化できます。

特に、多数の顧客業務を収容するクラウド指向データセンターでは、少ない管理者で多数のサーバーを効率的に監視することが求められていますが、サイレント障害への対応が十分でなかったことがその妨げになっていました。インバリアント分析技術によって、サイレント障害の原因究明に費やされていた時間を低減することができるため、データセンターの運用を効率化し、コストを低減することが可能になります。

今回は、NECのオリジナル技術であるインバリアント分析の特徴と、それを採用したWebSAM Invariant Analyzerについて概説しました。次回は、キャパシティ予測など、インバリアント分析技術の応用について説明します。

NEC 第一システムソフトウエア事業部 マネージャー
1991年、日本電気株式会社に入社。研究所でのヒューマン・インタフェース技術、ユビキタス・コンピューティング技術、自律運用管理技術などの技術研究を経て、2007年から運用管理製品の開発に従事。性能分析エンジンなど新技術を取り入れ、クラウド指向データセンタに向けた運用管理製品の設計開発を進めている。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています