Part4 増え続けるデータの対処方法

2011年9月2日(金)
Think IT編集部

データの増加が大きな課題に

 企業が扱うデータの急増が、大きな課題となっている。手遅れになる前に、何らかの対処を施すべきであろう。しかし、IT設備投資の予算削減に迫られている状況では、安易にストレージを追加することはできない。 こうした中、データの増加を抑止する有効な手段として注目を集めているストレージの技術が「重複除外」である。

ストレージの重複除外とは

 重複除外とは、同じデータを1つにまとめることで、ストレージの容量を減らす技術である。仕組みは大きく2つに分けられる。1つは、データを固定長または可変長サイズに細かく分割し、そのデータ単位で重複除外を行う手法。もう1つは、ファイル単位で重複除外を行う手法(シングル・インスタンス)である。 ストレージが備える重複除外機能としては、以前からデータ・バックアップ関連の製品に実装されており、バックアップ市場ではスタンダードになりつつある。 しかし、現在はバックアップ・データだけでなく、本番環境のデータ領域に対しても重複除外を実行することが求められている。本番データの削減により、設備投資の頻度を下げる効果が期待されている。

容量不足の悪循環から脱却

 オフィス環境のファイル共有サーバに注目すると、多くのデータがほとんどアクセスされることのない古いデータであることが分かる。このようなデータを、いつまでも同じ場所で保存しておくことは、効率的ではない。 アクセスの少ないデータに対して、ピンポイントで重複除外や圧縮で容量が削減できれば理想的だ。また、オフィス環境では、複数の人が同じファイルを保存するケースが多いため、さらに容量削減効果が期待できる。 EMCのストレージ「VNXeシリーズ」では、アクセス頻度の低いファイルを圧縮する機能と、ファイル単位の重複除外機能を提供している。これにより、ファイル共有環境のデータを効率的に保管できる(図4-1)。

図4-1●VNXeが備える重複除外・圧縮機能の特徴
アクセス頻度が低いファイルを圧縮する機能と、ファイル単位での重複除外機能を備える。これにより、ファイル共有環境のデータを効率的に保管できる。


 例えば、VNXeに1TBのファイル共有ボリュームを構成し、800GB(使用率80%)のデータが保存されているとする。この場合、空き容量は200GB(1TBの20%)だが、重複除外・圧縮機能によって40%のデータを削減できたとすると、保存されているデータは800GBから480GB(使用率48%)に減り、空き容量は200GBから520GB(52%)に増える(図4-2)。

図4-2●重複除外・圧縮機能の効果
重複除外と圧縮によるデータ量の削減効果は大きい。仮に重複除外と圧縮をよって、データの40%削減できれば、ディスク使用率が80%から48%に減る。

重複除外ストレージは少ない

 共有ストレージの分野で重複除外機能を提供している製品はまだ少ない。特に、小規模環境(ローエンド・クラス)向けの低価格なストレージ製品では、ほとんど実装されていない。提供していたとしても、機能を利用するために別途ライセンスを購入しなければならないのが一般的だ。 一方、VNXeは低価格なストレージでありながら、重複除外・圧縮機能を標準で装備している。 設定も非常に簡単である。ファイル共有ボリュームのプロパティ画面で「有効/無効」を選択するだけで完了する。後は、あらかじめ定義されているポリシーに従って、バックグラウンドで自動的に対象ファイルだけが重複除外・圧縮される(図4-3)。

図4-3●本番環境のファイルをバックグラウンドで自動的に削減する
VNXeの重複除外・圧縮機能の設定は、ファイル共有ボリュームのプロパティ画面で「有効/無効」を選択するだけ。重複除外・圧縮は、実運用環境においてバックグラウンドで自動的に行われる。

重複除外・圧縮機能の動作

 VNXeで重複除外・圧縮機能を有効にすると、ポリシーに合致するファイルの検出がただちに始まる。該当するファイルはすべて圧縮し、その過程で同じファイルを検出した場合、重複ファイルと見なし、1つにまとめて保存する。
 なお、ファイルの検出と圧縮、および重複除外処理には、わずかではあるがCPUリソースを使用する。このため、VNXeの重複除外・圧縮機能は、CPU使用率にしきい値を設けている。CPU使用率が一定の割合に達している場合は、重複除外・圧縮処理を停止できる。 また、重複除外・圧縮を適用したくないデータがあれば、例外ファイルとして除外したい拡張子やディレクトリを指定する運用も可能だ(図4-4)。

図4-4●VNXeの、重複除外の設定画面
いつでも設定画面から重複除外を有効/無効化できる。除外したい拡張子やディレクトリを指定することもできる。重複除外の効果も、この画面から確認できる。

基本的には、ストレージに処理を任せられるというのが、VNXeの重複除外・圧縮機能の特徴だ。

重複除外ストレージの選択基準

 重複除外機能を利用できるストレージ製品は、今後増えることが予想される。ここで、利用者側の立場で考えると、いくつかの選定ポイントが浮かび上がる。 例えば、重複除外処理で性能が低下しないことや、ほかのストレージ機能と併用できることなどは、重要な条件だ。導入したけれども実際には使うことができなかったという状況を避けるためにも、注意して製品を選ぶべきだ(図4-5)。

図4-5●重複除外ストレージを選ぶポイント

1.サービスレベルに影響を与えない

  重複除外処理に対するCPU使用率が制御できる
   アクセス頻度の低いファイルに限定して重複除外できる

2.他機能との併用が可能

 スナップショット機能と併用できる
 レプリケーション機能と併用できる

3.容量に制限されない

 実効容量のすべてが重複除外対象にできる

重複除外処理によって性能が低下しないことや、ほかのストレージ機能と併用できることなどが重要になる。


 VNXeは、上記すべての条件を満たしている。VNXeの重複除外・圧縮機能を利用すれば、オフィス環境のデータを、最大で1/2程度に圧縮する効果が期待できる。最新のストレージ機能を効果的に活用することで、データの増加に備えたい。
 


Part3Part5>>

Part1~Part8 まとめ読み統合版ダウンロード(PDF)◆

“オープンソース技術の実践活用メディア” をスローガンに、インプレスグループが運営するエンジニアのための技術解説サイト。開発の現場で役立つノウハウ記事を毎日公開しています。

2004年の開設当初からOSS(オープンソースソフトウェア)に着目、近年は特にクラウドを取り巻く技術動向に注力し、ビジネスシーンでOSSを有効活用するための情報発信を続けています。クラウドネイティブ技術に特化したビジネスセミナー「CloudNative Days」や、Think ITと読者、著者の3者をつなぐコミュニティづくりのための勉強会「Think IT+α勉強会」、Web連載記事の書籍化など、Webサイトにとどまらない統合的なメディア展開に挑戦しています。

また、エンジニアの独立・起業、移住など多様化する「働き方」「学び方」「生き方」や「ITで社会課題を解決する」等をテーマに、世の中のさまざまな取り組みにも注目し、解説記事や取材記事も積極的に公開しています。

連載バックナンバー

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています