Seed1.5-VL, Qwen3, MiMo, MiniMax-Speech, Aya Vision, BLIP3-o

BytedanceのSeek 1.5 VL、AlibabaのQwen3, XiaomiのMiMo、MiniMaxのMiniMaz-Speechと先週は中国の研究機関からの論文公開が多かった。また、CohereのAya Vision、SalesforceのBLIP3-o論文の公開もあり、LLM、MLLM関連はOpenAI一強という状態ではなくなっている。著者リストを見ると有力な研究者が複数所属する大規模なチームでモデル構築を行っているように見える。

  • Seed1.5-VL Technical Report [237.8]
    Seed1.5-VLは、汎用マルチモーダル理解と推論を促進するために設計されたビジョン言語基盤モデルである。 幅広いパブリックなVLMベンチマークと内部評価スイートで強力なパフォーマンスを提供する。 GUI制御やゲームプレイといったエージェント中心のタスクでは、Seed1.5-VLはOpenAI CUAやClaude 3.7など、主要なマルチモーダルシステムより優れている。
    論文  参考訳(メタデータ)   (Sun, 11 May 2025 17:28:30 GMT)
  • 「Despite its relatively compact architecture, it delivers strong performance across a wide spectrum of public VLM benchmarks and internal evaluation suites, achieving the state-of-the-art performance on 38 out of 60 public benchmarks. Moreover, in agent-centric tasks such as GUI control and gameplay, Seed1.5-VL outperforms leading multimodal systems, including OpenAI CUA and Claude 3.7.」を主張するMLLM
  • MiMo: Unlocking the Reasoning Potential of Language Model — From Pretraining to Posttraining [66.1]
    提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。 最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 12 May 2025 14:30:11 GMT)
  • リポジトリはGitHub – XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining
  • Aya Vision: Advancing the Frontier of Multilingual Multimodality [16.0]
    高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発した。 また,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。 我々の研究は、マルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げる技術に関する洞察を提供する。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 17:03:48 GMT)
  • リポジトリはCohere Labs Aya Vision – a CohereLabs Collection
  • BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.2]
    本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。 画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。 革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
    論文  参考訳(メタデータ)   (Wed, 14 May 2025 17:11:07 GMT)
  • リポジトリはGitHub – JiuhaiChen/BLIP3oBLIP3o/BLIP3o-Model · Hugging Face

WorldPM: Scaling Human Preference Modeling 

  • WorldPM: Scaling Human Preference Modeling [130.2]
    我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。 多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。 1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
    論文  参考訳(メタデータ)   (Thu, 15 May 2025 17:38:37 GMT)
  • 「Motivated by scaling laws in language modeling that demonstrate how test loss scales as a power law with model and dataset sizes, we find that similar laws exist in preference modeling.」とのこと。さらには「Through evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly improves the generalization performance across human preference datasets of varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5% on many key subtasks.」を主張している。この手の基盤モデルの可能性は興味深い(が若干怖くもある)。
    • Appendixのフィルタに関する結果、「we argue that applying RM filtering diverges from capturing world preference. Instead of assuming forum data contains noise, we should interpret apparent contradictions as manifestations of genuine human preferences, allowing models to discover underlying commonalities within these surface-level conflicts.」も面白い
  • リポジトリはGitHub – QwenLM/WorldPM

34 Examples of LLM Applications in Materials Science and Chemistry: Towards Automation, Assistants, Agents, and Accelerated Scientific Discovery

  • 34 Examples of LLM Applications in Materials Science and Chemistry: Towards Automation, Assistants, Agents, and Accelerated Scientific Discovery [26.0]
    大規模言語モデル(LLM)は、材料科学と化学研究の多くの側面を再構築している。 最近の進歩は、最新のモデルのクラスが構造化データと非構造化データを統合することができることを示している。 第2回Large Language Model Hackathon for Applications in Materials Science and Chemistryで開発された34のプロジェクトを通して,LLMの応用を概観する。
    論文  参考訳(メタデータ)   (Mon, 05 May 2025 22:08:37 GMT)
  • 「To explore the frontier of LLM capabilities across the research lifecycle, we review applications of LLMs through 34 total projects developed during the second annual Large Language Model Hackathon for Applications in Materials Science and Chemistry, a global hybrid event. These projects spanned seven key research areas: (1) molecular and material property prediction, (2) molecular and material design, (3) automation and novel interfaces, (4) scientific communication and education, (5) research data management and automation, (6) hypothesis generation and evaluation, and (7) knowl- edge extraction and reasoning from the scientific literature.」というハッカソンのまとめ
  • 興味深いトライもあり、面白い。

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

  • Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.3]
    視覚的依存を明示する多モーダル数学的推論のための総合的なベンチマークであるVCBENCHを紹介する。 VCBENCHには6つの認知領域に1,720の問題がある。 我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
    論文  参考訳(メタデータ)   (Tue, 29 Apr 2025 03:45:30 GMT)
  • Visionに依存するよう設計された数学推論ベンチマークの提案
  • リポジトリはBenchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking

  • HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.1]
    提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。 実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
    論文  参考訳(メタデータ)   (Mon, 05 May 2025 02:38:58 GMT)
  • 「Compared to previous tree planning methods such as ToT (Yao et al , 2024) and RAP (Hao et al , 2023), HTP introduces structural innovations that enable each edge to connect multiple child nodes, making it suitable for a divide-and-conquer strategy.」という特徴を持つHyperTreeを使った行動計画の提案。
  • 効果が高いよう。通常のツリーよりも強力な構造であるのは確かだろうがLLMも扱いやすいという点が面白い。(いろいろ書ける)自然言語に似ている・・・?

Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks

  • Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.7]
    この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。 この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
    論文  参考訳(メタデータ)   (Sat, 26 Apr 2025 07:48:52 GMT)
  • ベンチマークに関するサーベイ。「Fig6 Illustration of capability-based benchmark taxonomy involving: knowledge, reasoning, instruction following, multimodal, and safety.」が視覚的にとても分かりやすい。
  • リポジトリはGitHub – ALEX-nlp/Benchmark-of-core-capabilities

$\textit{New News}$: System-2 Fine-tuning for Robust Integration of New Knowledge

  • $\textit{New News}$: System-2 Fine-tuning for Robust Integration of New Knowledge [6.1]
    我々は,複数のドメインにまたがる仮説的かつ妥当なニュースからなるデータセットである$textitNew News$を紹介した。 我々は,文脈を伴わないモデルから知識を抽出し,文脈を伴わないモデルの重みに組み込むための,セルフプレイデータ生成プロトコルのスイートを探索する。 以上の結果から,Sys2-FTの自己QAプロトコルは,モデルによるニュースの重み付け学習を大幅に改善することが示された。
    論文  参考訳(メタデータ)   (Sat, 03 May 2025 12:49:35 GMT)
  • ICLとFTのギャップに関する分析とSys2-FTという手法の提案。「Our results demonstrate that the self-QA protocol of Sys2-FT significantly improves models’ in-weight learning of the news.」とのこと。
  • ICLとFTの差異はとても興味深いし実用上も重要。

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions 

  • Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.2]
    メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。 コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。 この調査は、AIのメモリに関する研究、ベンチマークデータセット、ツールに関する構造化された動的視点を提供する。
    論文  参考訳(メタデータ)   (Thu, 01 May 2025 17:31:33 GMT)
  • LLM、エージェントにとって重要なメモリのサーベイ。
  • 「In this survey, we first categorize memory representations into parametric, contextual structured, and contextual unstructured and then introduce six fundamental memory operations: Consolidation, Updating, Indexing, Forgetting, Retrieval, and Compression.」という軸設定。

Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

  • Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.9]
    SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。 SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。 SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
    論文  参考訳(メタデータ)   (Thu, 01 May 2025 19:06:10 GMT)
  • 「SAGE instantiates a Sentient Agent that simulates human- like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts.」(SAGE=Sentient Agent as a Judge)という評価フレームワークの提案。「rankings produced by SAGE diverge markedly from Arena results, confirming that social cognition is orthogonal to generic helpfulness. 」とのこと。
  • リポジトリはdigitalhuman/SAGE at main · Tencent/digitalhuman · GitHub