DC全体からみた効率的なサーバー環境とは
トラフィック量とデータ量の増加
総務省が日本におけるインターネットトラフィック量を試算、公開しています。これによると、日本におけるインターネットトラフィック量は2004年末で約830Gbps、2009年末で約4000Gbpsと推計されています。カスタマートラフィックではありますが、Webエッジ層が受けるトラフィックの推定値として採用して差し支えないでしょう。この結果は、5年の間にトラフィック量が約4.5倍に増加していることを示しています。
一方で全世界にあるデータの総量については、EMCがスポンサーとなってIDCが実施した調査結果に基づく推計値が公開されています。
これによると、2006年に全世界で新たに生み出されたデータ量は約160EB(エクサバイト=10^6TB)弱、2010年では1100EB強と推計されています。1年間に新たに生み出されるデータ量は5年の間に約8倍になりました。
これらのトラフィック量やデータ量の増加は、Flashに代表されるリッチコンテンツの増加、YouTubeや音楽配信に代表されるマルチメディアコンテンツの増加、Web2.0を経たことによりblogやtwitterのようなクライアントサイドが単なる情報の受信者から発信者へと変化したことなど複数の要因が考えられます。
効率化の度合いを見積もる
この5年間を振り返ってみると、フォームファクタとしての"S"はほとんど効率化されていません。CPUはクロック数の大幅な上昇こそありませんが、マルチコア化が進み、チップあたりのコア数が2~3倍に増えています。TDPの上昇もほとんど無いことから、CPU自体による効率化は4~8倍と見積もってよいでしょう。
SCSI HDDについて考えてみるとHDDあたりの容量はSCSI 73~146GBからSAS 300GBへと増えていますので、約2~5倍弱の効率化がなされたと見積もることができます。
データ処理に必要なエネルギー量を見積もる
一方で1回のデータ処理に必要とされるエネルギー量も、データ量の増加に比例して8倍に増加したと見るべきでしょう。エネルギー保存の観点から言っても、データをインデックス化、ピックアップ、整理、整形するのに必要なエネルギー量は、データ量の増加に比例します。
またトラフィック量の増加はクライアントからの処理要求回数が増えたことを意味します。つまりデータセンターに対して要求されるエネルギー量は下記のように見積もることができます。
[1回あたりのデータ処理に必要なエネルギー量(8倍)]×[処理回数(4.5倍)]≒40倍
コンテンツサイズが大きくなったことを考慮に入れても、この5年の間にデータセンターに要求されるエネルギー量は数十倍のオーダーで大きくなったことを示唆しています。
図4:データ量の増加と処理能力の関係 |
SWaPを効率化しただけでは追いつかない!!
データ処理に寄与する効率化は主にCPUから得られるものです。直近5年間のCPUの効率化(4~8倍)と、必要とされるエネルギー量の増加(数十倍)とを比較してみると、明らかに効率化が不足しています。この不足分は単純にはコア数としてのサーバー台数を増やすことによって賄われます。
HDDあたりの効率化(容量の増加:2~5倍弱)と全データ量の増加(約8倍)とを比べても、やはり効率化が不足しています。こちらはHDD本数の増加、つまりストレージ台数の増加で賄わなければなりません。
つまり、データ量とトラフィック量との増加を、サーバー、ストレージを中心としたSWaP視点の効率化だけでは抑え込むことはできなくなっており、サーバー台数、ストレージ台数の増加が余儀なくされています。サーバーやストレージが必要とするエネルギー、それは電力です。消費エネルギー量の増加は、つまりそのまま電力消費量の増加につながっています。
サーバーとストレージは「働けど 働けど なお わが仕事 終わらざりけり・・・」、そんな悲哀を「はやぶさ」は目撃したのです。
今回ここで取り上げたデータは、単純なサーバー視点の効率化だけではデータセンターに対して要求される処理量(トラフィック量とデータ量)の増加に今後も追いつけない可能性を示唆しており、サーバー台数、ストレージ台数、ひいては電力消費量の増加が今後も続いていく可能性を示唆しています。
地球環境への配慮が求められる現在のデータセンターにおいては、データセンター全体に対する視線での効率化を検討しなければならない、それが現在のサーバーを取り巻く環境だと言えるでしょう。