ネットワーク障害と管理ツールの機能
今日では、規模の大小にかかわらず、ビジネスにおいて電子メールは非常に重要なツールとなっている。メールなしではビジネスが停止してしまうこともあるだろう。もちろん、ショッピング・サイトを始めとするWebサイトも、メール同様に重要だ。
メールもWebも、ベースとなっているのはネットワークだ。ISP(プロバイダ)、携帯キャリアなどの通信事業者は言うまでもなく、証券・銀行などの公共性の高いサービスにおいても、ネットワークのダウンは非常に大きな問題となる。
こうした企業では、万が一の障害に備え、回線やネットワーク機器を冗長化したり、監視ツールを導入して障害をいち早く発見・保守する体制を整え、24時間365日停止しないネットワークを維持している。冗長化にせよ、監視や保守の体制にせよ、障害は発生するものだ、という前提で準備をしている。
障害の原因は、大きく分けると、機器の故障と人為的なもの2種類になる。今回は、ネットワーク全体を対象とすると範囲が広すぎるので、L2スイッチに的を絞って、まずは機器の故障から解説していくことにする。
なぜネットワーク機器は故障するのか
この世の中に永遠の寿命を持ったものはない。と言ってしまえばおしまいだが、電子機器の中には数多くの電子部品が使用されており、部品の寿命は身近な話題だ。ネットワーク機器も、電子機器の1つだ。技術の進歩によって、昔に比べれば個々の部品の信頼性は向上し、部品点数も減っているが、かなりの数の部品が使われていることには違いない。
機器のカタログでMTBF(Mean Time Between Failure)という文字を目にすることがある。これは、日本語では平均故障間隔と呼ばれ、平均故障率の逆数でもある。保守を考える上で、この値は重要となる。1996年ごろまで、このMTBF値を計算するのに、MIL-HDBK-217(米国防省信頼度予測モデル)が使われていた。
MTBFの計算方法は、2種類あった。1つは、それぞれの部品の数を数え、それに部品ごとの係数を掛けたものを合計し、平均故障率を割り出して、その逆数から求める方法。もう1つは、機器を実稼働状態にして、それぞれの部品にかかるストレス(電流、電圧、電力、温度など)を測定し、これに係数を掛けて、すべての部品の故障率を足したものを逆数にする、という方法だ。
後者では、温度の影響が特に大きく、部品の表面温度が10度違えば寿命が数分の1になることもある。実際のところ、寿命に関係する要因はこれだけではなく、湿度やホコリなども関係し、結果としてMTBFが設計値を下回ることがある。近年では、製造工程に起因する不具合が一番多いようだ。
計算上、L2スイッチのMTBFは、数十年となることが多い。
人為的な要因
次に、人為的な要因について、一例を挙げて説明しよう。
導入当初を除けば、L2スイッチのレベルでトラブルが発生することはあまり無い。しかし、完全にないというわけではない。
例えば、新しいPCを購入してネットワークに接続した際に、LANケーブルの一方をスイッチに差し、もう一方もスイッチに差してしまったとする。こうすると、ネットワークのループが形成される。この場合、ブロードキャスト・ストームと呼ばれる大量のブロードキャスト・パケットが発生し、ネットワークの回線をすべて占有してしまい、通信ができなくなる。
これを防止する策の1つが、Spanning Tree Protocol(以下、STP)であり、STPがデフォルトで有効になっているスイッチも多い。STPは、L2環境下におけるネットワークのループ形成時に、ループが発生している物理ポートの1つに対してデータ転送をさせなくする機能だ。
STPが有効になっていると、スイッチに新たな機器を接続するごとに、どのポートがループ経路上にあるかを確認する手順が必要になる。この作業のため、最初の30秒ほどは、ネットワークを利用できない。ケーブルを接続してすぐに通信できないスイッチは、大抵この機能が有効になっている。
STPはループに対して有効だが、利用者の利便性を優先して、STPの機能自体をオフにしているケースもあるだろう。この状態で、もし、その配下のスイッチがループしていたとすれば、発見は困難になるだろう。
過去2回にわたって紹介している韓国HandreamnetのSGスイッチなら、STPを無効にした状態でもループを遮断できる。
図1: ループ形成とSTP(クリックで拡大) |