ストレージのコスト削減

2009年8月3日(月)
シンクイット編集部

De-Dupでデータ量を削減

 ストレージの未使用領域を効率的に利用するというオプティマイズとともに、既存のデータ量を削減する手段として、ストレージ製品で最近特に注目されているのが、De-Dup機能だ。De-Dup(重複除外あるいは重複排除)とは、ストレージ内の複数存在する同一データをブロック単位で1つにまとめ、格納するデータ量を削減する技術だ。

 例えば、図3に示すようなファイルAとファイルBがあった場合、同じブロック部分は1つだけ保存する(重複するブロックは記録しない)ようにする。実際の製品の形態、処理方式にはさまざまなものがあり、ブロック単位の重複除外だけでなく、ファイル内の同一データの除外(ファイル圧縮)、同一ファイルの除外(シングルインスタンス)などを組み合わせていることが多い。

 それぞれメリットやデメリットがあるが、一般に重複除外には、データの同一性を検証するハッシュ値の計算などのオーバーヘッドが生じるため、バックアップ時に適用する場合が多い。これも、バックアップクライアント側で行う場合とバックアップストレージ側で処理する場合に分かれる。どちらの方式でも、バックアップに必要なストレージ容量を削減できるが、バックアップクライアント側で重複除外を実施するほうがメリットが多い。ソース(バックアップクライアント)側でデータ重複除外を実行しておけば、バックアップに要する時間、また、重複するデータがネットワークを介して送信され保存されるのを回避できるため、ネットワーク帯域に掛かる負荷を削減できる。WAN経由で各拠点に点在するデータのバックアップを実行する場合に特に有効となる。

 De-Dupの効果はストレージ内のデータの状況に依存するが、バックアップに関連するストレージ容量を20分の1~50分の1に縮小できるといわれている。また、ストレージ購入のコストに加えて、消費電力の削減、冷却設備の削減、ハードウエアのスペース効率の向上などに貢献する。

インラインデータ圧縮

 データの圧縮は古くからあるデータ容量の削減手法だが、インラインデータ圧縮は、ZIPのようにファイル単位でデータを圧縮するのではなく、NASへの書き込みや読み出しの際に、ネットワークのパケット単位でデータの圧縮・伸張を行い、プライマリストレージのデータをリアルタイムに圧縮する。この種のアプライアンスとしては、Storwize社のSTN-6000シリーズが有名だ(現状ではEMCとNetAppのNASへの対応は保証しているが、それ以外のベンダの製品は動作保証が行われていない)。

 このアプライアンスは、NASとスイッチ間に設置し、NASとネットワーク側を1対1で接続する。アプライアンスを通過するパケット内のペイロードに対して圧縮をかけ、複数のパケットを1つのパケットにまとめてNASに書き込むことで、NASに書き込むパケットの数を減少させる。圧縮されたパケットのなかには、圧縮前のパケットのヘッダ情報やメタデータを非圧縮の状態で格納しているため、NASに格納される時点では、圧縮前のファイルのプロパティは保存されている。そのためユーザーからは、アプライアンスの使用前と同様、圧縮されたデータに透過的にアクセスできる。

 圧縮・伸張処理を行っているため、そこに当然レイテンシは存在する。ただし複数のパケットを圧縮し、1つのパケットにまとめるのに要するレイテンシが、80μs~200μsと非常に小さいのに対し、NASに書き込む時間は通常ミリ秒単位なので、読み書きされるデータを削減し、NASとの読み書き時間を削減するほうが、はるかにメリットが大きい。

 また圧縮によるデータ容量の削減により,ストレージの購入頻度の低減や管理負荷の低減にも効果があるという。例えば、国内自動車メーカーではCADデータを圧縮するために導入し、30%以上のストレージの空き容量を捻出(ねんしゅつ)できている。導入後、ストレージの利用効率の向上により容量不足の回避とともに、ストレージとネットワークの負荷軽減により、性能と可用性が向上したという。

著者
シンクイット編集部

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています