コンテンツへスキップ
- FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions [147.0]
FRoM-W1は、自然言語を用いた一般的なヒューマノイド全体の動作制御を実現するために設計されたオープンソースのフレームワークである。 我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。 その結果,HumanML3D-Xベンチマークにおいて,人体全体の動作生成に優れた性能を示した。
論文 参考訳(メタデータ) (Mon, 19 Jan 2026 07:59:32 GMT)
- 「We introduce H-GPT, a 9B model that generates high quality whole-body human motions from natural language instructions. Enhanced with CoT technology, it achieves versatile instruction understanding.」と自然言語で指示可能な人間型ロボットのためのモデルの提案。ベースはllama3.1 8Bとのこと。
- プロジェクトサイトはFRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions
- Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning [105.4]
VIGA(Vision-as-Inverse-Graphic Agent)は、クローズドループの書き込み-ラン-レンダー-補完-修正手順によってシーンを再構築または編集する。 長距離推論をサポートするために、VIGAは(i)ジェネレータと検証ロールを交換するスキルライブラリと(ii)進化するコンテキストメモリを組み合わせた。
論文 参考訳(メタデータ) (Fri, 16 Jan 2026 09:11:55 GMT)
- 反復的に改善(we present VIGA (Vision-as Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write→run→render→compare→revise procedure.)していくタイプの3D再構成手法。
- リポジトリはVIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning