|
|
前のページ 1 2 3 4 次のページ
|
|
システム世代におけるUNIXサーバー基盤
|
IBM Systems Agendaに示された指針を実現するために、UNIXサーバーに求められるシステム基盤とはどのようなものでしょうか。パフォーマンスとスケーラビリティーは重要なポイントです。パフォーマンスについては、TPCのWeb・サイト(http://www.tpc.org/)で公開されているように、p5 595はTPC-Cベンチマークで非常に優れた結果を出しています。
また、IBM eServer p5のスケーラビリティーは全6モデルで1.5GHz 1wayから1.9GHz 64wayまでカバーする幅広いものです。これらの数値的なポイントは、TPCWeb・サイトのベンチマーク結果や製品のカタログから比較的簡単に得ることができます。ここでは、このような数値データの陰に隠された可用性と柔軟性を中心に触れたいと思います。
|
可用性
|
仮想化によるサーバー統合では1つの筐体で複数のサーバーが稼働します。これは、システム構成や運用の簡素化のメリットとなる反面、筐体の障害時には影響範囲を拡大する可能性もあります。これに対応するためIBMのサーバーは「止まらないシステム」を目指してハードウェアを設計しています。
CPUについては、近い将来に障害を起こすと予想されるCPUを事前に切り離す動的CPUデアロケーション機能を実装しています。この時、予備のCPUが搭載されていれば切り離したCPUに代えて予備CPUを活動化する動的CPUスペアリングが行われます。これらの機能によりCPU障害によるシステム停止を極力避けることができます。
メモリーは、通常のECCによるエラー・チェックに加えて、メモリー・チップ障害時の耐障害性を向上させるChipKillテクノロジーが採用されています。同じメモリー・チップでECCワードを構成すると、チップ障害時にECCワードが複数ビット・エラーとなり回復ができなくなります。
これに対しChipKillメモリーは、ECCワードを構成する各ビットを異なるメモリー・チップに割り当ててメモリー・チップ障害時の影響を1bit・エラーを起こした多数のECCワードとすることでメモリー内容の回復を可能とするものです。また、メモリー・モジュールには予備のメモリー・チップが組み込まれており、障害を起こしたメモリー・チップは自動的に予備チップへの切り替えが行われます。
このほかにも、PCIスロットの拡張エラー回復機能や、システムの内部バスのECC化などのエラー回復力を強化し、各種センサーを含めた監視回路をハードウェアの設計段階から組み込んでいます。この監視回路は、IBM eServer p5の最上位モデルのモデル590/595では数千箇所以上あり、これらによって本体のハードウェアに起因したシステム停止の低減をはかっています。
これらの高信頼性設計の結果、IBM eServer p690/p670では、MTBUIRA (MeanTime Between Unscheduled Incident Repair Action:全体システム障害による予定外のハードウェア交換作業が発生する間隔)21年以上、MTBHIO(MeanTime Between High Impact Outage:重大な全体システム停止が発生する間隔)130年以上の実績があります。これは、ゼロ・ダウンを目指したzSeriesの高信頼性技術を引き継いだものであり、IBM eServer p5/System p5の設計にも踏襲されています。
|
前のページ 1 2 3 4 次のページ
|
|
|
|
著者プロフィール
日本アイ・ビー・エム株式会社 藤井 克美
日本アイ・ビー・エム株式会社アドバンスド・テクニカル・サポート ACP ITスペシャリスト
1985年入社。NTT担当のシステムズ・エンジニアとしてメインフレーム系ネットワーク(VTAM/NCP)を担当。1991年より幕張システム・センター(現IBMシステムズ・エンジニアリング(株))にてAIXに関する技術サポートを担当。現在はアドバンスト・テクニカル・サポートにて、pSeries及びLinux on POWERの技術サポート全般を担当。
|
|
|
|