Seed1.5-VL, Qwen3, MiMo, MiniMax-Speech, Aya Vision, BLIP3-o

BytedanceのSeek 1.5 VL、AlibabaのQwen3, XiaomiのMiMo、MiniMaxのMiniMaz-Speechと先週は中国の研究機関からの論文公開が多かった。また、CohereのAya Vision、SalesforceのBLIP3-o論文の公開もあり、LLM、MLLM関連はOpenAI一強という状態ではなくなっている。著者リストを見ると有力な研究者が複数所属する大規模なチームでモデル構築を行っているように見える。

  • Seed1.5-VL Technical Report [237.8]
    Seed1.5-VLは、汎用マルチモーダル理解と推論を促進するために設計されたビジョン言語基盤モデルである。 幅広いパブリックなVLMベンチマークと内部評価スイートで強力なパフォーマンスを提供する。 GUI制御やゲームプレイといったエージェント中心のタスクでは、Seed1.5-VLはOpenAI CUAやClaude 3.7など、主要なマルチモーダルシステムより優れている。
    論文  参考訳(メタデータ)   (Sun, 11 May 2025 17:28:30 GMT)
  • 「Despite its relatively compact architecture, it delivers strong performance across a wide spectrum of public VLM benchmarks and internal evaluation suites, achieving the state-of-the-art performance on 38 out of 60 public benchmarks. Moreover, in agent-centric tasks such as GUI control and gameplay, Seed1.5-VL outperforms leading multimodal systems, including OpenAI CUA and Claude 3.7.」を主張するMLLM
  • MiMo: Unlocking the Reasoning Potential of Language Model — From Pretraining to Posttraining [66.1]
    提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。 最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 12 May 2025 14:30:11 GMT)
  • リポジトリはGitHub – XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining
  • Aya Vision: Advancing the Frontier of Multilingual Multimodality [16.0]
    高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発した。 また,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。 我々の研究は、マルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げる技術に関する洞察を提供する。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 17:03:48 GMT)
  • リポジトリはCohere Labs Aya Vision – a CohereLabs Collection
  • BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.2]
    本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。 画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。 革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
    論文  参考訳(メタデータ)   (Wed, 14 May 2025 17:11:07 GMT)
  • リポジトリはGitHub – JiuhaiChen/BLIP3oBLIP3o/BLIP3o-Model · Hugging Face

34 Examples of LLM Applications in Materials Science and Chemistry: Towards Automation, Assistants, Agents, and Accelerated Scientific Discovery

  • 34 Examples of LLM Applications in Materials Science and Chemistry: Towards Automation, Assistants, Agents, and Accelerated Scientific Discovery [26.0]
    大規模言語モデル(LLM)は、材料科学と化学研究の多くの側面を再構築している。 最近の進歩は、最新のモデルのクラスが構造化データと非構造化データを統合することができることを示している。 第2回Large Language Model Hackathon for Applications in Materials Science and Chemistryで開発された34のプロジェクトを通して,LLMの応用を概観する。
    論文  参考訳(メタデータ)   (Mon, 05 May 2025 22:08:37 GMT)
  • 「To explore the frontier of LLM capabilities across the research lifecycle, we review applications of LLMs through 34 total projects developed during the second annual Large Language Model Hackathon for Applications in Materials Science and Chemistry, a global hybrid event. These projects spanned seven key research areas: (1) molecular and material property prediction, (2) molecular and material design, (3) automation and novel interfaces, (4) scientific communication and education, (5) research data management and automation, (6) hypothesis generation and evaluation, and (7) knowl- edge extraction and reasoning from the scientific literature.」というハッカソンのまとめ
  • 興味深いトライもあり、面白い。

Mistral Medium 3, Gemini 2.5 Pro preview, Llama-Nemotron, OpenCodeReasoning

先週注目のニュースはMistralのMistral Medium 3のリリース(Medium is the new large. | Mistral AI)。Claude 3.7 sonnetと競合する性能で「The Mistral Medium 3 API is available starting today on Mistral La Plateforme and Amazon Sagemaker, and soon on IBM WatsonX, NVIDIA NIM, Azure AI Foundry, and Google Cloud Vertex. To deploy and customize the model in your environment, please contact us. 」と各社環境での動作が可能な点が重要に思う。

GoogleのGemini 2.5 Proが使用可能になったよう(Gemini Pro – Google DeepMind)でこちらも注目度が高い。NvidiaのLlama-NemotronやOpenCodeReasoning がダウンロード可能になったことも話題になっていた。

各モデルの(第三者の)性能検証はこれからという感じだろうが、本当にニュースが多い。

  • OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.2]
    教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。 私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
    論文  参考訳(メタデータ)   (Wed, 02 Apr 2025 17:50:31 GMT)

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs

  • Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.7]
    ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。 本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。 主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 15:46:36 GMT)
  • Llama 4, Nemotron-H, Pangu Ultra, Kimi-VL, Kimi-VL-Thinking, Deep Coder – arXiv最新論文の紹介にも関連するPangu Ultraの主に実装に関する論文。
  • 「Our system optimizations focus on Expert Parallelism and memory management, significantly lowering communication and activation overhead across 6K NPUs. These innovations enable a 30.0% MFU, demonstrating Ascend NPUs’ capability to support full-scale training of large-scale sparse LLMs, e g , Pangu Ultra MoE, with comparable performance as DeepSeek R1.」とのことでNVIDIAのGPUに頼らずとも最先端モデルを構築可能と主張しているように見える。

Teaching Models to Understand (but not Generate) High-risk Data

  • Teaching Models to Understand (but not Generate) High-risk Data [38.3]
    SLUNG(Selective Loss to Understand but not Generate)を紹介する。 SLUNGは、モデルが高リスクデータを生成せずに理解することを学ぶための事前学習パラダイムである。 SLUNGは、生成を増大させることなく、モデルによる高リスクデータの理解を一貫して改善することを示す。
    論文  参考訳(メタデータ)   (Mon, 05 May 2025 22:24:06 GMT)
  • 「This work introduces SLUNG, a pre-training paradigm that enables language models to learn from high-risk data without being trained to generate it. By selectively adjusting the training objective at the token level based on risk, SLUNG decouples a model’s ability to understand from its ability to generate, allowing models to condition on high-risk inputs while learning from adjacent low-risk tokens.」という手法の提案。口外することはできないが学ぶ必要があるもの、というのは現実的に多いわけでこのような手法は非常に面白い。

Qwen3, Phi-4 reasoning, MiMo 7B, OLMo2 1B, Mellum 4B

先週はオープンなモデルのニュースが多かった。その中でもQwen3は大きなニュースである(Qwen3: Think Deeper, Act Faster | Qwen)。MoEなQwen3-235B-A22B, Qwen3-30B-A3Bの他、denseなQwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B, Qwen3-0.6Bが公開されている(Qwen3 – a Qwen Collection)。ライセンスはApache-2。また、MicrosoftのPhi-4のreasoningモデル公開(Showcasing Phi-4-Reasoning: A Game-Changer for AI Developers | Microsoft Community Hubhuggingface)も注目。

SLMの発表も多く、XiaomiによりMiMo(GitHub – XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining)、Ai2によるOLMo release notes | Ai2が興味深い。JetBrainによるMellum(Mellum Goes Open Source: A Purpose-Built LLM for Developers, Now on Hugging Face | The JetBrains Blog)は「Mellum doesn’t try to know everything. It’s designed to do one thing really well: code completion. We call it a focal model – built with purposeful depth and not concerned with chasing breadth.」とある通り特化型。現状、Mellumは十分な性能とは言い難いものの、SLMを特化して強化する、コスパを上げる方向は有望。DeepseekProver-V2の671Bは凄いが、7Bのうまい活用のような組み合わせも重要になると思う。

  • Phi-4-reasoning Technical Report [42.5]
    Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。 我々はPhi-4-reasoning-plusを開発した。 どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 05:05:09 GMT)
  • Phi-4シリーズのLRM
  • Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1]
    CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。 本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 00:04:35 GMT)
  • SLMを利用したreasoningモデルの構築。「The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e g , outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-DistillLlama-8B by 7.7 points on Math-500.」と効果を確認とのこと。
  • 小型のモデルであってもreasoningが有効という興味深い結果。
  • DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition [24.5]
    我々はDeepSeek-Prover-V2を紹介します。 このモデルは、ニューラル定理の証明における最先端のパフォーマンスを達成し、ミニF2Fテストで88.9%のパス比に達し、PutnamBenchの658問題のうち49を解決した。 標準ベンチマークに加えて、325の形式化された問題の集合であるProverBenchを導入し、最近のAIMEコンペティションから選択された15の問題を含む評価を強化した。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 16:57:48 GMT)
  • 「We first prompt DeepSeek-V3 to generate a natural-language proof sketch while simultaneously formalizing it into a Lean statement with sorry placeholders for omitted proof details. A 7B prover model then recursively solves the decomposed subgoals. By combining these subgoal proofs, we construct a complete formal proof for the original complex problem.This composed proof is appended to DeepSeek-V3’s original chain-of-thought, creating high-quality cold-start training data for formal mathematical reasoning. 」
  • リポジトリはGitHub – deepseek-ai/DeepSeek-Prover-V2

WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents 

  • WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents [55.6]
    本研究では,大規模言語モデル(LLM)を補完する環境の記号的知識を学習する「世界アライメント」を提案する。 また、モデル予測制御フレームワークを用いて、RLフリーでモデルベースエージェント「WALL-E 2.0」を提案する。 WALL-E 2.0は、火星(Minecraftのような)とALFWorld(emboded indoor environment)のオープンワールド課題における既存の手法を著しく上回っている
    論文  参考訳(メタデータ)   (Tue, 22 Apr 2025 10:58:27 GMT)
  • 「Can we build accurate world models out of large language models (LLMs)? How can world models benefit LLM agents?」から始まる論文。「We have demonstrated that LLMs can effectively serve as world models for agents when aligned with environment dynamics via neurosymbolic knowledge learning.」で既存ベンチマークで効果を確認とのこと。
  • リポジトリはGitHub – elated-sawyer/WALL-E: Official code for the paper: WALL-E: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation 

  • CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.5]
    CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。 評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。 本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
    論文  参考訳(メタデータ)   (Sun, 30 Mar 2025 20:03:36 GMT)
  • クロスワードパズルを用いるベンチマーク「CrossWordBench collects data and generates puzzles from three sources: (1) multilingual word-clue pairs from public repositories, (2) dictionary-based definitions, and (3) adapted questions-answer pairs from existing benchmarks (e g , CommonsenseQA (Talmor et al , 2018)) where the answers are open-ended or unconstrained.」という構築方針。結果は「Our extensive evaluation of over 20 models shows that reasoning models substantially outperform non-reasoning counterparts and can benefit from increased crossing-letter constraints.」とLRMは強い
  • リポジトリはGitHub – SeanLeng1/CrossWordBenchHINT-lab/CrossWordBench · Datasets at Hugging Face

GPT-4.1, o3, o4-mini, Gemini 2.5 Flash, Grok 3, 3-mini API, Gemma 3 QAT

毎週非常にニュースが多いが、先週は商用APIに関する大きなニュースが多かった。

大注目なのはOpenAIのGPTシリーズ、o-xシリーズに関する発表で高い性能、高いコストパフォーマンスを発揮するモデルになっている。特にChatGPTでのo3は直接的なモデル性能だけでなくツール利用時の便利さが向上している。o3 proが楽しみ。

GoogleのGemini 2.5 Flashはコストパフォーマンスが非常に高いモデル(Gemini Flash – Google DeepMind)。「Developers gain fine-grained control over the model’s thinking process, allowing them to manage resource usage.」という機能が興味深い。Googleからは量子化に適したGemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs – Google Developers Blogがでているのにも注目。

X.aiからもGrok3のAPI提供がアナウンスされている(Grok 3 Beta — The Age of Reasoning Agents | xAI)。コストと性能からは競争力のあるモデルに見える。過去モデルのOSS化に踏み切るのかを含めて目が離せない。

Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 

  • Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 [115.9]
    Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。 ICLR 2025で大規模なランダム化制御研究として実装された。 フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
    論文  参考訳(メタデータ)   (Sun, 13 Apr 2025 22:01:25 GMT)
  • ICLRによるReview Feedback Agentの効果検証、「This suggests that many reviewers found the AI-generated feedback sufficiently helpful to merit updating their reviews. Incorporating AI feedback led to significantly longer reviews (an average increase of 80 words among those who updated after receiving feedback) and more informative reviews, as evaluated by blinded researchers.」と肯定的な結果。
  • リポジトリはGitHub – zou-group/review_feedback_agent
  • 本論とは関係ないが「Authors at AI conferences increasingly report receiving short, vague reviews with criticisms like ‘not novel’ or ‘not state-of-the-art (SOTA)’ 」というのは大変そうな・・・

似て非なる論文ではあるが、「We evaluated The AI Scientist-v2 by submitting three fully autonomous manuscripts to a peer-reviewed ICLR workshop. Notably, one manuscript achieved high enough scores to exceed the average human acceptance threshold, marking the first instance of a fully AI-generated paper successfully navigating a peer review.」というAI Scientist-v2も興味深い。

  • The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search [16.9]
    AI Scientist-v2は、AIが生成した最初のピアレビュー受け入れワークショップ用紙を生産できるエンドツーエンドのエージェントシステムである。 科学的な仮説を反復的に定式化し、実験を設計し、実行し、データを分析し、視覚化し、科学的な原稿を自律的に作成する。 ある写本は、平均的な人間の受け入れ閾値を超える十分なスコアを達成し、完全なAI生成論文がピアレビューをうまくナビゲートした最初の事例となった。
    論文  参考訳(メタデータ)   (Thu, 10 Apr 2025 18:44:41 GMT)
  • リポジトリはGitHub – SakanaAI/AI-Scientist-v2: The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search