KubeCon China 2024、LLMを用いてロボットの操作をシンプルにするDoraのセッションを紹介

連載 [第5回] :

KubeCon＋CloudNativeCon China 2024レポート

2024年11月19日(火)

KubeCon China 2024、LLMを使ってロボットの操作をシンプルにするDoraのセッションを紹介する。

KubeCon China 2024から、ロボットの操作に対し人間の動作を真似することで収集したトレーニングデータを大規模言語モデルに集約して開発を簡易化するフレームワークDoraについて、デモを交えて解説するセッションを紹介する。セッションを行ったのはフランスのAIベンチャー1ms.aiの創業者でパリに在住のHaixuan Xavier Tao氏だ。

デモとプレゼンテーションを行うHaixuan Xavier Tao氏

DoraはDataflow-Oriented Robotic Architectureの頭文字を取って命名されているそうだ。名前が示す通り、手続き的にロボットの操作を行うのではなく、実際に人間が操作した際に得られたデータをデータフローとして使うことで、操作を実装するための複雑なプロセスを簡易化するためのフレームワークだ。フレームワーク自体はRustで開発されているが、ユーザーが行うロボットの操作の部分にはPythonを使うことで機械学習に慣れたエンジニアが直接Rustを触る必要がないようにするなど、エントリーのハードルを下げていると言える。

これまではロボット操作の高速化と遅延を極力抑える必要があったために多くの専用モジュールが使用されていたとして、それがロボット開発の難しさに繋がっていたことを説明。ここでは車輛の自動運転に必要なモジュールを例に挙げて説明しているが、OpenVLAと呼ばれるオープンソースの画像認識と言語による指示からロボットに対する操作命令を生成するモデルにおいてはその中核を大規模言語モデルで置き換えることが可能になっていると解説した。

自動運転に必要なモジュールを大規模言語モデルで置き換え

そして現在のロボティクスの問題点を整理したスライドを使ってDoraの利点の前提を解説した。

現在のロボティクスに関する問題点を整理

Tao氏はロボティクスの開発にもっと多くのエンジニアが参加して欲しいと考えており、そのためには参入のハードルを下げること、デバッグを簡単にすること、高速化、低遅延が必須であることなどを課題として挙げた。

dora-rsの概要

ここでdora-rsの概要を紹介するスライドを使っているが、容易に始められること、デバッグを簡単にすること、最新のモデルとハードウェアを使うことなどの特徴がどのように実装されているのかについては詳しい説明がなかった。これは後半のデモに時間を使いたいというための選択だろう。実際にこの後は、持ち込んだロボットアームを使って音声でコマンドを出して操作するという内容となった。

唯一残念なのはデモに集中するあまり、壇上のマイクから離れてしまうことで音声がかなりの部分拾われていないことだろう。現地では客席の前方で観ていた筆者も何度か「マイクを使って欲しい。そうしないと音声が録音されない」と言いそうになったほどだ。動画でもデモの中のかなりの部分の音声が聞こえないような状況だ。

音声を使ってロボットアームを操作するTao氏。マイクから離れて音声が拾われない状況に

実際に構成情報やPythonのコードを見せながらロボットアームに対して「Up」や「Down」「Left」「Forward」「Back」などの動作を命令し、その通りに動くというデモを実施。ここでは音声でロボットが動くことそのものよりも、それが大規模言語モデルによって駆動されていることがポイントだろう。また複数のプロセスがノードを超えて連係する部分には、Apache Arrowが使われていると説明。ここでもオープンソースのエコシステムを最大限に活用していることを見せた。

dora-rsのメッセージ交換はApache Arrowを利用

処理速度、遅延についてはベンチマークの結果を見せて、メッセージ交換については他のツールよりも17倍も性能が向上したことを説明した。

dora-rsの低いレイテンシーを紹介

また大規模言語モデルとロボット操作のための機能を繋ぐ部分には、LeRobotというHugging Faceがホストするオープンソースのツールを利用しているという。

dora-rsとLeRobotが主要なコンポーネント

そのLeRobotについても簡単に紹介を行った。

LeRobotの紹介。Hugging Faceのコンポーネントのようだ

ここで人の動きを真似（イミテーション）することで、データのトレーニングを行うという手法についての課題を紹介。トレーニングされたデータを実際に使うことに対する抵抗や複数のタスクを一つのモデルで実行する難しさ、他機種のロボットへの移植の難しさなどを挙げて、この手法が必ずしも最適の選択ではない可能性もあることを示唆していると言えるだろう。実際に小さな牛乳パックをアームが掴むというデモをみても従来型のシステムとの違いは見つけ難く、今後の進化や応用の拡がりに期待するべきという内容となっていた。

唯一興味深かったのは牛乳パックを持つロボットに「Face」というコマンドを出すことでそのアームの位置を記憶させ、他の動作を行ってアームが移動したとしてもコマンドだけで元の位置にアームをリセットさせられるという部分だろう。これは文脈を維持したまま質問を続けることが可能な大規模言語モデルらしさが出たデモとなった。