ストレージの容量削減テクノロジ

2010年7月6日(火)
吉田 尚壮

重複除外で遠隔地のバックアップも可能に

重複除外機能を備えたバックアップ用ストレージには、Data Domainの方式とは異なり、バックアップ・サーバー機能とストレージを一体化させた製品もある。それが米EMCの「Avamar」である(Avamarはバックアップ・サーバー・ソフト。サーバー機およびストレージと組み合わせて利用する。これらをセットにしたパッケージ「Avamar Data Store」も用意している)。

Avamarでは、バックアップ対象マシンに専用のエージェント・ソフトをインストールしてバックアップを取得する。また、Data Domainがバックアップ先のストレージ側で重複除外を行うのに対し、Avamarでは、バックアップ元となるエージェント側で重複除外を行う。

Avamarによる重複除外プロセスは、図4の通り。バックアップ元のサーバー上でバックアップ対象データを可変長ブロックに分割した後、バックアップ取得済みデータと比較を行い、既にバックアップされているデータ(重複しているデータ)であればデータを送らない、という仕組みになっている。

図4: Avamarの重複除外バックアップの仕組み

この仕組みにより、バックアップ時にネットワーク転送するデータが大幅に減るため、バックアップに必要な処理時間(データ転送時間)を劇的に短縮できる。さらに、重複除外によって差分や増分バックアップが必要なくなり、毎回フル・バックアップを取得する運用が可能になる。

データのリストア時も、Avamarから重複除外後のデータのみを転送し、バックアップ元のサーバー上でデータを再構成(ファイルを復元)する仕組みとなっている。

バックアップ/リストア時のデータ転送量が減るため、WANを介した遠隔拠点間のバックアップ/リストアが現実的となる(図5)。この手法により、これまで遠隔地ごとに独立して運用していたバックアップ処理を、1つのシステムに集約できる。

図5: AvamarによるWAN経由バックアップ

バックアップ対象のデータ量は、今後も加速度的に増加していく。しかも、長期間保存することを考えると、重複除外のようなテクノロジを使わずにITプラットフォームを運用することは、事実上困難になる。手遅れになる前に、これらのテクノロジの採用を検討してみてはいかがだろうか。

ファイル・サーバーの容量も削減できる

前述したIDC Japanのレポートによると、ユーザー企業が抱えている「ストレージ管理の課題」の第2位は、「データ量増加への対応」である。

身近な例では、(エンドユーザーが日常的に使う)「ファイル・サーバーの空き容量が足りない」という声をよく耳にするだろう。ファイル・サーバーは使い勝手が良いため、エンドユーザーは、内容が等しい同一のファイルや不要なファイルを保存(そのまま放置)してしまう傾向にある。これにより、システム導入当初に管理者が想定していた利用率を上回り、ストレージ自体の容量が足りなくなる状況に陥る。

しかし、ファイル・サーバーのデータ量が増加する問題も、ストレージのテクノロジで解決できる。米EMCの「ユニファイド・ストレージ」(SANストレージ「CLARiX」とNASサーバーを組み合わせた統合型NASストレージ。具体的な製品名は「Celerra」)では、重複除外により、データ容量の削減を実現している(ファイル単位の重複除外となる。同一ファイルを検知してシングル・インスタンス化するとともに、ファイル・データを圧縮する)。

重複除外対象とするファイルをポリシーで設定することもできる。例えば、「90日以上アクセスされておらず、かつサイズが10Mバイト以上のファイル」といったポリシーを定義しておくと、後は自動的にポリシーに合致したファイルに対して重複除外処理が行われる。

ユニファイド・ストレージが備える重複除外プロセスの詳細は、以下の通りである(図6)。

  1. ファイル共有領域を一定間隔(例えば一週間ごと)でスキャンし、ポリシー・チェックを行う。
  2. ポリシーと合致したファイルを、直ちに特殊領域にコピーし、圧縮・保存する。次に、圧縮したファイルのハッシュ値を計算して、データベースに登録する。その後、元のファイルを削除し、数Kバイトのポインタ・ファイルに置き換えて、圧縮済みのファイルとリンクする。
  3. この処理を繰り返し、ハッシュ値の比較によって、既に圧縮されたファイルとの重複を検知する。重複していた場合は、そのファイル(コピー/圧縮したファイル)は保存せず、元ファイルを既存の圧縮ファイルへのポインタ・ファイルと置き換えて、シングル・インスタンス化する。

図6: ユニファイド・ストレージによるファイル単位の重複除外

一般的なオフィス環境におけるファイル・サーバーのデータは、約7~8割が90日以上アクセスされていないという状況にある。こうした、ほとんどアクセスされないデータについては、そのまま放置するのではなく、圧縮と重複除外によって容量を削減した状態で保管すべきだろう。

EMCジャパン株式会社 プロダクト・ソリューションズ統括部

外資系通信キャリアでホスティングサービス向けシステム開発/設計や運用技術部リーダ、IT部門マネージャ等を経て、2006年よりEMCジャパン(株)に入社。以来、ミッドレンジストレージ製品を担当するSEとしてプリセールス活動に従事している。
 

連載バックナンバー

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています