WorldVLA:自己回帰型アクションワールドモデルによる行動と画像理解の統一
著者
Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen
公開日
概要
本論文では、視覚・言語・行動(VLA)モデルとワールドモデルを統合した新しい自己回帰型アクションワールドモデル「WorldVLA」を提案。WorldVLAは、行動と画像の理解・生成を統一的に行い、環境の物理的法則を学習することで行動生成を改善します。実験では、WorldVLAがスタンドアロンの行動モデルやワールドモデルを上回り、行動予測におけるエラー伝播を軽減する注意マスク戦略が有効であることを示しました。この研究は、ロボット工学における世界モデルと統一モデルの発展に貢献します。
背景 ロボットのアクションモデル研究では、視覚・言語・行動(VLA)モデルが注目されています。VLAモデルは、大規模なマルチモーダル言語モデル(MLLM)を拡張し、行動生成を行います。一方、ワールドモデルは、現在の観測と行動に基づいて将来の視覚状態を予測する能力を持ち、視覚情報と行動のダイナミクスの両方を理解します。
課題 VLAモデルは行動の理解が不十分で、ワールドモデルは直接的な行動生成ができません。そこで、VLAモデルとワールドモデルの制約を克服するために、行動と画像の理解・生成を統一的に行う自己回帰型アクションワールドモデル「WorldVLA」を提案します。
解決策 WorldVLAは、画像、テキスト、行動をエンコードするために3つのトークナイザーを使用し、単一のLLMアーキテクチャ内で統一的に理解・生成を行います。ワールドモデルは、入力行動に基づいて視覚的な表現を生成し、環境の物理的ダイナミクスを学習します。また、行動モデルは、視覚的な理解を助け、視覚生成を支援します。
技術の中身 WorldVLAは、行動モデルとワールドモデルの2つの主要なコンポーネントで構成されます。
- 行動モデル:画像とテキストデータに基づいて行動を生成します。
- ワールドモデル:テキスト情報、現在の画像、行動に基づいて、環境の将来の状態(次のフレーム)を予測します。
実験や結果 LIBEROベンチマークでの実験では、WorldVLAが同じバックボーンを持つ行動モデルを4%上回る grasping 成功率を示しました。また、従来のワールドモデルと比較して、WorldVLAは優れたビデオ生成能力を示し、LIBEROデータセットでFréchet Video Distance(FVD)を10%削減しました。さらに、行動チャンク生成において、注意マスク戦略を使用することで、grasping 成功率が4%から23%向上しました。
●Fréchet Video Distance (FVD)とは? ビデオ生成モデルの品質を評価する指標の一つで、生成されたビデオと現実のビデオの特徴量の分布を比較します。FVDの値が小さいほど、生成されたビデオが現実のビデオに近いことを意味します。
応用・社会的インパクト WorldVLAは、ロボットがより複雑なタスクを実行できるようになることが期待されます。例えば、家庭内での家事支援や、危険な環境での作業などが考えられます。また、教育やエンターテインメント分野での応用も期待できます。
まとめ 本研究では、行動と視覚の理解・生成を統一した新しいフレームワークであるWorldVLAを提案しました。WorldVLAは、既存のモデルよりも優れた性能を示し、ロボット工学における新たな可能性を開きました。今後の研究では、データとモデルのスケール拡大、新しいトークナイザーの開発、補助的な行動ヘッドの導入などを検討し、grasping性能の向上を目指します。
WorldVLAは、ロボットがより賢く、より柔軟になる未来を切り開くための重要な一歩となるでしょう。