2024年12月13日 – arXiv最新論文の紹介

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.8]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。 Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文参考訳（メタデータ） (Wed, 04 Dec 2024 18:58:10 GMT)
動画内のオブジェクトのようなインスタンスレベルでの理解を行うためのベンチマーク、データセットの提案。
筆者らによってFinetuningされたモデルはOSSなものでは高性能だが商用レベルには及んでいない。というのとこれが純粋に難しい問題であることが分かるスコア。
リポジトリはInst-IT

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation [66.2]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文参考訳（メタデータ） (Thu, 05 Dec 2024 18:57:04 GMT)
「This paper introduces Moto, a novel method that uses latent motion tokens as a “language” interface to bridge generative pre-training on video data with precise robot control.」という手法の提案。潜在的な意味というか意図というかをTokenシーケンスにして言語として扱うということ、かつ、それが有効というのは興味深い。
プロジェクトサイトはMoto