- MM-IFEngine: Towards Multimodal Instruction Following [85.9]
高品質なイメージインストラクションペアを生成するパイプラインであるMM-IFEngineを提案する。 MM-IFInstruct-23kはSFT(Supervised Fine-Tuning)に適しているが、DPO(Direct Preference Optimization)のためにMM-IFDPO-23kとして拡張されている。 また、MM-IFEvalは、困難で多様なマルチモーダル命令追従ベンチマークである。
論文 参考訳(メタデータ) (Thu, 10 Apr 2025 17:59:12 GMT) - 「the instruction-following ability of Multimodal Large Language Models」のベンチマークとモデル(公開モデルベース)の提案。商用モデルの強力さが目立つ。また、「DPO using MM-IFDPO-23k significantly surpasses SFT on MMIFInstruct-23k」は興味深い。
- リポジトリはGitHub – SYuan03/MM-IFEngine: MM-IFEngine: Towards Multimodal Instruction Following
カテゴリー: arXiv
Exploring Expert Failures Improves LLM Agent Tuning
- Exploring Expert Failures Improves LLM Agent Tuning [76.3]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。 EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 17:53:54 GMT) - 「In this paper, we present EEF, a novel framework that learns beneficial actions from negative expert data while remaining robust against noise from suboptimal actions.」、WebShopと SciWorldベンチマークでSoTAを主張
LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation
- LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.8]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。 自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。 LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (Tue, 15 Apr 2025 17:14:06 GMT) - 「LANGTRAJ advances autonomous vehicle simulation by leveraging language-conditioned diffusion models to generate diverse, behaviorally rich scenarios.」という軌道生成手法の提案
UXAgent: A System for Simulating Usability Testing of Web Design with LLM Agents
- UXAgent: A System for Simulating Usability Testing of Web Design with LLM Agents [33.9]
大規模言語モデルシミュレーションエージェント(textbfLLM Agent)研究の最近の進歩は、textbfUXAgentを設計するきっかけとなった。 システムにはペルソナジェネレータモジュール,LDMエージェントモジュール,ユニバーサルブラウザコネクタモジュールがあり,数千のシミュレーションユーザを自動的に生成する。
論文 参考訳(メタデータ) (Sun, 13 Apr 2025 02:34:22 GMT) - 「In this work, we designed UXAgent, a system enabling researchers to conduct simulated user studies, thereby facilitating iterative refinement of their UX study designs.」というフレームワークの提案
- いろいろなペルソナを使えるというのは利点だと思う一方、どのくらいの妥当性があるものだろうか。
Future-Proof Yourself: An AI Era Survival Guide
- Future-Proof Yourself: An AI Era Survival Guide [2.7]
Future-Proof Yourselfは、読者が急速に変化する人工知能の世界をナビゲートする実践的なガイドだ。 この本は、コンピュータがシンプルで相対的な言葉でデータからどのように学習するかを説明することから始まる。 機械学習の基本的なアイデアが、画像を認識し、言語を理解し、さらには意思決定できる高度なシステムへとどのように進化していくかを示している。
論文 参考訳(メタデータ) (Sun, 06 Apr 2025 06:11:29 GMT) - 教科書的な分量のあるサバイバルガイド(?)
- Home | MIMIC
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
- xVerify: Efficient Answer Verifier for Reasoning Model Evaluations [24.1]
推論モデル評価のための効率的な答え検証器であるxVerifyを提案する。 xVerifyは同値判定において強い能力を示し、推論モデルによって生成された答えが参照回答と等価であるかどうかを効果的に決定できる。 テストセットと一般化セットの両方で実施された評価実験では、すべてのxVerifyモデルが全体のF1スコアと95%を超える精度を達成する。
論文 参考訳(メタデータ) (Mon, 14 Apr 2025 17:59:36 GMT) - LRM向けの「Verify Answer for Reasoning (VAR) dataset」と回答検証モデルの提案。「xVerify demonstrates strong capability in equivalence judgment, enabling it to effectively determine whether the answers produced by reasoning models are equivalent to reference answers across various types of objective questions.」とのことで、「xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance.」という性能。
- リポジトリはGitHub – IAAR-Shanghai/xVerify: xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
InternVL3, PerceptionLM, BitNet b1.58 2B4T
公開モデルでも興味深いものが発表されている。InternVL3はVision-Languageモデルで有名なInternVLのver 3、オープンなMLLMのSoTA、78Bと大型で商用モデルとも競合する性能を主張。PerceptionLMはMetaによるオープンなVLM(Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding.)。
上記とは雰囲気が異なるBitNet b1.58 2B4TはBitNetの実装・公開モデル。「The core contribution of this work is to demonstrate that a native 1-bit LLM, when trained effectively at scale, can achieve performance comparable to leading open-weight, full-precision models of similar size across a wide range of tasks.」とのこと。
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.5]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。 特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。 オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (Mon, 14 Apr 2025 17:59:25 GMT) - リポジトリはGitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型、モデルはOpenGVLab/InternVL3-78B · Hugging Face
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.2]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。 モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 17:59:56 GMT) - リポジトリはGitHub – facebookresearch/perception_models: State-of-the-art Image & Video CLIP, Multimodal Large Language Models, and More!、データセットも公開されているPLM Data | Meta AI Research
- BitNet b1.58 2B4T Technical Report [118.8]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (Wed, 16 Apr 2025 17:51:43 GMT) - リポジトリはGitHub – microsoft/BitNet: Official inference framework for 1-bit LLMs、モデルはmicrosoft/bitnet-b1.58-2B-4T · Hugging Face
- デモもある(Bitnet)が、特に日本語性能はかなり物足りない。(日本語になっているだけすごいともいえるが・・・)
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation
- CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.5]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。 評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。 本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (Sun, 30 Mar 2025 20:03:36 GMT) - クロスワードパズルを用いるベンチマーク「CrossWordBench collects data and generates puzzles from three sources: (1) multilingual word-clue pairs from public repositories, (2) dictionary-based definitions, and (3) adapted questions-answer pairs from existing benchmarks (e g , CommonsenseQA (Talmor et al , 2018)) where the answers are open-ended or unconstrained.」という構築方針。結果は「Our extensive evaluation of over 20 models shows that reasoning models substantially outperform non-reasoning counterparts and can benefit from increased crossing-letter constraints.」とLRMは強い
- リポジトリはGitHub – SeanLeng1/CrossWordBench、HINT-lab/CrossWordBench · Datasets at Hugging Face
Antidistillation Sampling
- Antidistillation Sampling [98.9]
拡張推論トレースを生成するモデルは、モデル蒸留を容易にするリッチトークンシーケンスを不注意に生成する。 この脆弱性を認識したモデル所有者は、モデル性能を損なうことなく蒸留の有効性を制限するサンプリング戦略を求めることができる。 抗蒸留サンプリング毒は痕跡を推し進め、モデルの実用性を保ちながら蒸留の効力を著しく低下させた。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 17:54:14 GMT) - タイトルの通り蒸留を困難にするサンプリング戦略の提案
- プロジェクトサイトはAntidistillation Sampling
Tree-based Models for Vertical Federated Learning: A Survey
- Tree-based Models for Vertical Federated Learning: A Survey [71.8]
ツリーベースのモデルは、その有効性、堅牢性、解釈可能性により、幅広い現実世界のアプリケーションで大きな成功を収めている。 木質モデルの違いと進歩を実証的に観察するための一連の実験を行った。
論文 参考訳(メタデータ) (Thu, 03 Apr 2025 05:16:09 GMT) - Vertical Federated Learning (VFL refers to the setting where parties’ data samples are overlapped but their feature spaces are different and complementary)かつツリーベースな研究に関するサーベイ
- 実用上は大事なパート