データ共有基盤JLDGとは

2009年1月7日(水)
建部 修見

JLDGにおける問題点

 JLDGを構築するにあたり、大容量のデータを国内の複数の組織間で効率的に共有するための仕組みが必要となります。

 共有に先立ち、まず大容量のデータを格納する必要がありますが、物理的および論理的な制限により、すべてのデータを1つのファイルシステムに格納することは(お金に糸目をつけなければ)、一般に難しいです。例えば、Linux 2.4では、ブロックデバイスの最大が2TBでしたので、それ以上のファイルシステムは、単一のブロックデバイスでは作成できませんでした。もちろん、利用時に物理的に準備できるハードディスクの容量も関係してきます。

 このような事情から、複数のファイルシステムに保持することが多くなる訳ですが、その場合、ファイルをどのファイルシステムに保持したかを別途管理する必要があります。シンボリックリンクなどを利用すると、1つのディレクトリツリーに見せることができますが、マウントポイントの変更やディレクトリ構造の変更などにおける処理が煩雑になってしまいます。

 また、複数の機関で効率的にデータ共有するためには、それぞれの機関でデータのミラーリングを行うのが効果的です。が、このとき、どこにどういうデータをコピーしたか、データの更新があった場合、どのデータを更新する必要があるか、など適宜管理することが必要になってしまいます。

 ミラーリングも、すべてが同一ファイルシステム構成になっている訳ではないため、ファイル容量もまちまちで、結局、機関ごと、ファイルごとの特殊な設定が必要となってしまいます。

 また、解析したデータを複数組織のメンバからなる同一グループ内だけで共有し、さらに研究を進めることも必要とされていますが、別々のファイルシステムにおけるグループによるアクセス制御を実現するのは一般に困難です。

Gfarm広域ファイルシステムの活用

 このように、国内の複数の組織間で効率的に大容量のデータを共有するためには、これまでとても煩雑な処理が必要でした。

 これらの困難を解決するために、JLDGでファイル共有の基盤ソフトウエアとして利用されているのはGfarm広域ファイルシステムです。Gfarm広域ファイルシステムは、SourceForge(http://sf.net/projects/gfarm/)で公開されています。オープンソースで開発が進められているので、誰でも自由に利用することができます。次回からは、このJLDGの基盤システムとなっているGfarm広域ファイルシステムについて説明していきます。

 なお、JLDGに関しては国立情報学研究所によるインタビュー記事がありますので、そちら(http://www.sinet.ad.jp/case/tsukuba/interview)も参考にしてください。

[参考文献]

「JLDG: Japan Lattice Data Grid」(http://www.jldg.org/)(アクセス:2008年12月)

「Gfarm File System」(http://sourceforge.net/projects/gfarm/)(アクセス:2008年12月)
 

筑波大学
東京大学理学部情報科学科を卒業後、同大学大学院で博士(理学)を取得。電子技術総合研究所を経て、現在は筑波大学准教授。超高速計算システム、グリッドコンピューティング、並列分散システムソフトウエアの研究に従事。Gfarm広域ファイルシステムの開発を主導している。http://sourceforge.net/projects/gfarm/

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています