ストレージの容量削減テクノロジ
重複除外で遠隔地のバックアップも可能に
重複除外機能を備えたバックアップ用ストレージには、Data Domainの方式とは異なり、バックアップ・サーバー機能とストレージを一体化させた製品もある。それが米EMCの「Avamar」である(Avamarはバックアップ・サーバー・ソフト。サーバー機およびストレージと組み合わせて利用する。これらをセットにしたパッケージ「Avamar Data Store」も用意している)。
Avamarでは、バックアップ対象マシンに専用のエージェント・ソフトをインストールしてバックアップを取得する。また、Data Domainがバックアップ先のストレージ側で重複除外を行うのに対し、Avamarでは、バックアップ元となるエージェント側で重複除外を行う。
Avamarによる重複除外プロセスは、図4の通り。バックアップ元のサーバー上でバックアップ対象データを可変長ブロックに分割した後、バックアップ取得済みデータと比較を行い、既にバックアップされているデータ(重複しているデータ)であればデータを送らない、という仕組みになっている。
図4: Avamarの重複除外バックアップの仕組み |
この仕組みにより、バックアップ時にネットワーク転送するデータが大幅に減るため、バックアップに必要な処理時間(データ転送時間)を劇的に短縮できる。さらに、重複除外によって差分や増分バックアップが必要なくなり、毎回フル・バックアップを取得する運用が可能になる。
データのリストア時も、Avamarから重複除外後のデータのみを転送し、バックアップ元のサーバー上でデータを再構成(ファイルを復元)する仕組みとなっている。
バックアップ/リストア時のデータ転送量が減るため、WANを介した遠隔拠点間のバックアップ/リストアが現実的となる(図5)。この手法により、これまで遠隔地ごとに独立して運用していたバックアップ処理を、1つのシステムに集約できる。
図5: AvamarによるWAN経由バックアップ |
バックアップ対象のデータ量は、今後も加速度的に増加していく。しかも、長期間保存することを考えると、重複除外のようなテクノロジを使わずにITプラットフォームを運用することは、事実上困難になる。手遅れになる前に、これらのテクノロジの採用を検討してみてはいかがだろうか。
ファイル・サーバーの容量も削減できる
前述したIDC Japanのレポートによると、ユーザー企業が抱えている「ストレージ管理の課題」の第2位は、「データ量増加への対応」である。
身近な例では、(エンドユーザーが日常的に使う)「ファイル・サーバーの空き容量が足りない」という声をよく耳にするだろう。ファイル・サーバーは使い勝手が良いため、エンドユーザーは、内容が等しい同一のファイルや不要なファイルを保存(そのまま放置)してしまう傾向にある。これにより、システム導入当初に管理者が想定していた利用率を上回り、ストレージ自体の容量が足りなくなる状況に陥る。
しかし、ファイル・サーバーのデータ量が増加する問題も、ストレージのテクノロジで解決できる。米EMCの「ユニファイド・ストレージ」(SANストレージ「CLARiX」とNASサーバーを組み合わせた統合型NASストレージ。具体的な製品名は「Celerra」)では、重複除外により、データ容量の削減を実現している(ファイル単位の重複除外となる。同一ファイルを検知してシングル・インスタンス化するとともに、ファイル・データを圧縮する)。
重複除外対象とするファイルをポリシーで設定することもできる。例えば、「90日以上アクセスされておらず、かつサイズが10Mバイト以上のファイル」といったポリシーを定義しておくと、後は自動的にポリシーに合致したファイルに対して重複除外処理が行われる。
ユニファイド・ストレージが備える重複除外プロセスの詳細は、以下の通りである(図6)。
- ファイル共有領域を一定間隔(例えば一週間ごと)でスキャンし、ポリシー・チェックを行う。
- ポリシーと合致したファイルを、直ちに特殊領域にコピーし、圧縮・保存する。次に、圧縮したファイルのハッシュ値を計算して、データベースに登録する。その後、元のファイルを削除し、数Kバイトのポインタ・ファイルに置き換えて、圧縮済みのファイルとリンクする。
- この処理を繰り返し、ハッシュ値の比較によって、既に圧縮されたファイルとの重複を検知する。重複していた場合は、そのファイル(コピー/圧縮したファイル)は保存せず、元ファイルを既存の圧縮ファイルへのポインタ・ファイルと置き換えて、シングル・インスタンス化する。
図6: ユニファイド・ストレージによるファイル単位の重複除外 |
一般的なオフィス環境におけるファイル・サーバーのデータは、約7~8割が90日以上アクセスされていないという状況にある。こうした、ほとんどアクセスされないデータについては、そのまま放置するのではなく、圧縮と重複除外によって容量を削減した状態で保管すべきだろう。