MM-IFEngine: Towards Multimodal Instruction Following 

  • MM-IFEngine: Towards Multimodal Instruction Following [85.9]
    高品質なイメージインストラクションペアを生成するパイプラインであるMM-IFEngineを提案する。 MM-IFInstruct-23kはSFT(Supervised Fine-Tuning)に適しているが、DPO(Direct Preference Optimization)のためにMM-IFDPO-23kとして拡張されている。 また、MM-IFEvalは、困難で多様なマルチモーダル命令追従ベンチマークである。
    論文  参考訳(メタデータ)   (Thu, 10 Apr 2025 17:59:12 GMT)
  • 「the instruction-following ability of Multimodal Large Language Models」のベンチマークとモデル(公開モデルベース)の提案。商用モデルの強力さが目立つ。また、「DPO using MM-IFDPO-23k significantly surpasses SFT on MMIFInstruct-23k」は興味深い。
  • リポジトリはGitHub – SYuan03/MM-IFEngine: MM-IFEngine: Towards Multimodal Instruction Following

Exploring Expert Failures Improves LLM Agent Tuning

  • Exploring Expert Failures Improves LLM Agent Tuning [76.3]
    本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。 EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
    論文  参考訳(メタデータ)   (Thu, 17 Apr 2025 17:53:54 GMT)
  • 「In this paper, we present EEF, a novel framework that learns beneficial actions from negative expert data while remaining robust against noise from suboptimal actions.」、WebShopと SciWorldベンチマークでSoTAを主張

LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation

  • LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.8]
    LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。 自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。 LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
    論文  参考訳(メタデータ)   (Tue, 15 Apr 2025 17:14:06 GMT)
  • 「LANGTRAJ advances autonomous vehicle simulation by leveraging language-conditioned diffusion models to generate diverse, behaviorally rich scenarios.」という軌道生成手法の提案