データ共有基盤JLDGとは

2009年1月7日(水)
建部 修見

増え続けるファイル容量について

 企業や研究機関などでは、文書や表計算データといった一般のデータだけではなく、各種サーバーのログデータや送受信メールなど、保存/管理しなければならないデータの容量は肥大化の一途をたどっています。

 素粒子物理学、天文学、生命科学などの科学技術分野では、さらにその上をいきます。実験装置やスーパーコンピュータの発展に伴い、年間にテラバイト(ギガバイトの1,000倍)、ペタバイト(テラバイトの1,000倍)といった従来では考えられない位の大容量のデータが生成されるようになりました。

 特に有名なのは、最近ブラックホール騒動もあった欧州合同原子核研究所(CERN)のLHC実験です。この実験では、年間数十ペタバイトのデータが生成される予定になっています。

 CERNには体育館並の大きさの計算機室がありますが、さすがにこれだけの大量データの格納やデータ解析処理は大変です。そのため10年近く前から、地域データ解析センターを各地に配置し、データ格納とデータ解析を分担して行う仕組みを作ってきました。

データ共有基盤JLDGで扱うデータ

 本連載では、国内の計算素粒子物理学の研究者がデータを共有するためのデータ共有基盤JLDG(Japan Lattice Data Grid)を取り上げますが、ここで実際にどのようなデータを扱っているのかを理解するために、物理の話を簡単に紹介しておきます。

 計算素粒子物理学では、格子QCDシミュレーションによってハドロン物理や素粒子標準模型の研究を行います。素粒子標準模型といえば、先日ノーベル物理学賞を受賞された南部先生、小林先生、益川先生を思い出される読者も多いと思います。計算素粒子物理学は、その標準模型を数値シミュレーションにより研究するものです。

 ただし、そのためには膨大な計算が必要です。現在国内最速のスーパーコンピュータを利用しても計算に数ヵ月から数年かかります。その計算の結果、計算素粒子物理学を進めるための貴重なデータが生成されます。そのデータを元にすると、素粒子の質量の決定などさまざまな物理学の研究ができるようになります。そのため、国内外の研究者は、その貴重な大容量のデータを共有し、データ解析を進めたいと考えています。

 現在、JLDGでは筑波大の並列計算機CP-PACSなどで計算した7.5テラバイトほどのQCDデータが公開されています。今後、筑波大のPACS-CS(図2)、高エネルギー加速器研究機構のBlueGene/Lなどで計算されたQCDデータの公開が予定されています。また、現在もT2Kオープンスーパーコンピュータ(図2)などで計算が続行中です。

 このように計算し生成された大容量のデータを、国内の研究機関が共有するために構築されたデータ共有基盤がJLDGです。

筑波大学
東京大学理学部情報科学科を卒業後、同大学大学院で博士(理学)を取得。電子技術総合研究所を経て、現在は筑波大学准教授。超高速計算システム、グリッドコンピューティング、並列分散システムソフトウエアの研究に従事。Gfarm広域ファイルシステムの開発を主導している。http://sourceforge.net/projects/gfarm/

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています