データ共有基盤JLDGとは
JLDGにおける問題点
JLDGを構築するにあたり、大容量のデータを国内の複数の組織間で効率的に共有するための仕組みが必要となります。
共有に先立ち、まず大容量のデータを格納する必要がありますが、物理的および論理的な制限により、すべてのデータを1つのファイルシステムに格納することは(お金に糸目をつけなければ)、一般に難しいです。例えば、Linux 2.4では、ブロックデバイスの最大が2TBでしたので、それ以上のファイルシステムは、単一のブロックデバイスでは作成できませんでした。もちろん、利用時に物理的に準備できるハードディスクの容量も関係してきます。
このような事情から、複数のファイルシステムに保持することが多くなる訳ですが、その場合、ファイルをどのファイルシステムに保持したかを別途管理する必要があります。シンボリックリンクなどを利用すると、1つのディレクトリツリーに見せることができますが、マウントポイントの変更やディレクトリ構造の変更などにおける処理が煩雑になってしまいます。
また、複数の機関で効率的にデータ共有するためには、それぞれの機関でデータのミラーリングを行うのが効果的です。が、このとき、どこにどういうデータをコピーしたか、データの更新があった場合、どのデータを更新する必要があるか、など適宜管理することが必要になってしまいます。
ミラーリングも、すべてが同一ファイルシステム構成になっている訳ではないため、ファイル容量もまちまちで、結局、機関ごと、ファイルごとの特殊な設定が必要となってしまいます。
また、解析したデータを複数組織のメンバからなる同一グループ内だけで共有し、さらに研究を進めることも必要とされていますが、別々のファイルシステムにおけるグループによるアクセス制御を実現するのは一般に困難です。
Gfarm広域ファイルシステムの活用
このように、国内の複数の組織間で効率的に大容量のデータを共有するためには、これまでとても煩雑な処理が必要でした。
これらの困難を解決するために、JLDGでファイル共有の基盤ソフトウエアとして利用されているのはGfarm広域ファイルシステムです。Gfarm広域ファイルシステムは、SourceForge(http://sf.net/projects/gfarm/)で公開されています。オープンソースで開発が進められているので、誰でも自由に利用することができます。次回からは、このJLDGの基盤システムとなっているGfarm広域ファイルシステムについて説明していきます。
なお、JLDGに関しては国立情報学研究所によるインタビュー記事がありますので、そちら(http://www.sinet.ad.jp/case/tsukuba/interview)も参考にしてください。
[参考文献]
「JLDG: Japan Lattice Data Grid」(http://www.jldg.org/)(アクセス:2008年12月)
「Gfarm File System」(http://sourceforge.net/projects/gfarm/)(アクセス:2008年12月)