KubeCon+CloudNativeCon Europe 2026から、富士通のOSS?AIテクノロジー事業部、シニアディレクターの印藤隆夫氏が行ったライトニングトークを紹介する。動画は以下から参照可能だ。
●動画:From Idle to Ideal: Cross-Cluster GPU Sharing with CoHDI
CoHDIはComposable Hardware in Disaggregated Infrastructureの略から命名されたオープンソースソフトウェアで、KubernetesのSIG(sig-node、sig-autoscaling、and sig-scheduling)と共同で開発が行われているという。Kubernetesにはリソースを動的にスケジューリングする新しい仕組み、Dynamic Resource Allocation(DRA)が存在するが、CoHDIはDRAをGPUのスケジューリングに応用したソフトウェアである。
●CNCFのプロジェクトページ:https://www.cncf.io/projects/cohdi/
●公式GitHubページ:https://github.com/CoHDI/
ライトニングトークとして約5分間の時間でプロジェクトの概要、開発の背景、CoHDIの動作などを解説している。
タイトルは「From Idle to Ideal: Cross-Cluster GPU Sharing with CoHDI」というタイトルだ。GPUが現在の生成AIに必須なのはデータを学習するフェーズで大量の並列行列計算が発生し、それがコア数の多いGPUに適しているからだが、印藤氏はGPUが高価であることとGPU自体を購入することが難しいことを挙げ、その状況においてひとつの部門や開発グループがGPUを占有することが効率的ではないという背景からGPUサーバーを集約して効率を上げる発想が可能ではないかと説明した。
そしてKubernetesは1つのハードウェアに実装されたクラスター内のリソースを効率的に使うという設計になっていることを説明。このため、クラスターを超えてリソースを共有することができないと語った。クラスターを超えてGPUを共有したいというニーズと、クラスター内部だけでリソースが共有されるという状況のミスマッチが起こっているというのがCoHDIの解決する問題だ。
クラスター間で共有されるGPUをプールとして定義して、複数のKubernetesから利用することでGPUの利用効率を上げることがゴールとなる。ポイントは仮想マシンやベンダー特有のソリューションを使わずに、Kubernetesの機能を使ってGPUの共有を可能にしたいということが最優先であるということだ。
その解答がCoHDI(Composable Hardware in Disaggregated Infrastructure)だ。Kubernetesの上で実装され、オープンソースとして公開されているサンドボックスプロジェクトだ。
CoHDIの動作を理解するには公式ページのGifアニメが最適だろう。
●参考:https://github.com/CoHDI/.github/blob/main/profile/how_cohdi_works.gif
CoHDIがKubernetesのDRA(Dynamic Resource Allocation)をベースにしていることがわかる。DRAはKubernetesのバージョン1.34でGA(General Availability)となった、動的にリソースをPodに割り当てる機能だ。1.34ではデフォルトで有効化されることになる。PCIe/CXL Switchによって接続されるサーバー間でGPUの稼働状況を把握してプールとして保持し、空いているGPUのリソースをPodに割り当てるのが基本的な動作になる。
CoHDIはKubernetes Schedulerの1.36ベータ版から利用可能であるというのが2026年3月の状況だ。CoHDI自体はv0.1.1というバージョンになる。CoHDIの開発には富士通、NTT、IBMなどのエンジニアが参加しており、GitHub上のコミュニティもまだ50名以下という状況ではあるもののRed HatのOpenShiftやSUSEのRancherが将来的に採用を予定していることなどがGitHubに記載されている。そのため、エンタープライズがオンプレミスでGPUクラスターを運用するような場合には有望だと思われる。またパブリッククラウドにおいても、クラスターを超えてGPUリソースを共有するようなソリューションはPCIe/CXL Switchによる接続というハードウェア上の要件が存在するために実現は難しいだろう。自社でGPUサーバーを複数保有して、有効活用をしたいと思っているIT部門にとっては検討すべきソフトウェアと言える。このセッションでは5分間という短い時間の中で問題の背景と解決案を提示した形になった。
また日本語によるCoHDIの解説も存在している。こちらにはKubernetes以外に必要となる他のコンポーネントについての記述されており、総合的なソリューションを概観できる内容となっているのでぜひ、参照して欲しい。ちなみに認証には日立製作所がリードするKeycloakが使われており、Kubernetesの本流に沿った実装を外していないところも評価したい。
●日本語による解説:https://github.com/project-cdim/docs/blob/main/concepts/ja/README.md
KubeConは参加者の増大とともに発表したいプロジェクトや企業も急増しており、従来の20分から40分というセッションだけでは発表したい側のニーズに応えられなくなってきていると言える。今回のようなライトニングトーク形式のプレゼンテーションやポスターセッションなどの形式で多くのプロジェクトが発表の機会を得るのは、コミュニティが成長することを願うCNCFにとっては正しい方向だろう。日本のエンジニアもこれらの機会を逃さずチャレンジして欲しい。
- この記事のキーワード
