Command A Reasoning, DeepSeek V3.1, Gemma 3 270M, Nemotron Nano 2, Dream 7B

LLM/LRM関連の話題は本当に多い。先週はCohere’s Command A Reasoning Model | Cohere(モデルはCohere’s Command A Reasoning Model | Cohere、CC-BY-NC)の公開、DeepSeek V3.1の公開(DeepSeek-V3.1 Release | DeepSeek API Docs、モデルはdeepseek-ai/DeepSeek-V3.1 · Hugging Face)が大きなニュースだった。フロンティアまたはそれに近いモデルが公開される意義は大きい。また、Intern-S1からはテクニカルレポートが公開されている。

a

小型モデル関連でもGemma 3 270M(Introducing Gemma 3 270M: The compact model for hyper-efficient AI – Google Developers Blog、モデルはgoogle/gemma-3-270m · Hugging Face)は超小型であることが興味深い。性能的には疑問があるとはいえ特化用途にPost trainingするなど使える場面はありそう。NVIDIA のMemtron Nano2も注目である(Nanoという名前で9B)。

HuaweiからはDiffusion系のDream 7Bの論文が出ていた。LLaDAを超え、同規模のAutoregressiveなモデルに負けていなさそうと高い性能。

  • Intern-S1: A Scientific Multimodal Foundation Model [185.4]
    Intern-S1は、一般的な理解と推論機能を備えた専門的なジェネラリストである。 Intern-S1はオフラインおよびオンライン強化学習(RL)をInternBootCampで実施する。 Intern-S1は、オープンソースモデル間の一般的な推論タスクにおける競合性能を示す。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 17:58:00 GMT)
  • Qwen3-Coder, Intern-S1, Step-Audio2, TeleChat2 – arXiv最新論文の紹介で取り上げたモデルのテクニカルレポート
  • NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model [176.4]
    Nemotron-Nano-9B-v2は、推論処理のスループットを向上させるために設計されたハイブリッドのMamba-Transformer言語モデルである。 Nemotron-Nano-9B-v2はNemotron-Hアーキテクチャをベースにしており、共通のTransformerアーキテクチャの自己保持層の大部分をMamba-2層に置き換えている。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 04:18:04 GMT)
  • nvidia/NVIDIA-Nemotron-Nano-9B-v2 · Hugging Face
  • Dream 7B: Diffusion Large Language Models [85.3]
    これまでで最も強力なオープン拡散大言語モデルであるDream 7Bを紹介します。 我々のモデルは、一般的な、数学的、コーディングタスクにおいて、既存の拡散言語モデルよりも一貫して優れています。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 12:09:58 GMT)
  • 「Dream 7B achieves competitive performance with Qwen 2.5 on standard benchmarks (general language understanding, mathematical reasoning, and code generation) while exhibiting superior planning abilities and novel inference flexibility features that naturally emerge from the diffusion modeling paradigm.」とのこと。
  • リポジトリはGitHub – DreamLM/Dream: Dream 7B, a large diffusion language model、モデルはDream 7B – a Dream-org Collection

FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction 

  • FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [84.4]
    FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。 リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。 推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
    論文  参考訳(メタデータ)   (Sat, 16 Aug 2025 08:54:08 GMT)
  • 未来予測のためのライブベンチマーク。「we introduce FutureX, a dynamic and live evaluation benchmark specifically designed for LLM agents performing future prediction tasks. FutureX is built upon a semi-automated pipeline that continuously collects future-oriented questions from 195 diverse websites, curated from a pool of 2,008 sites covering areas such as politics, economics, technology, sports, healthcare, and more.」とドメインも広い。
  • 結果として「LLM agents still lag behind humans」ではあるものの、レベル2は人を上回っているエージェントがいるのが興味深いところ。(あとレベル分けは若干違和感がある。。。)
    • The Basic tier (Level 1) contains single-choice events with options fewer than 4.
    • The Wide Search tier (Level 2) comprises multi-choice events with several correct answers.
    •  The Deep Search tier (Level 3) contains open-ended events whose underlying facts are relatively stable (with low volatility).
    • The Super Agent tier (Level4) covers high-volatility, open-ended events.

Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance 

  • Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.1]
    本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。 我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。 私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 09:42:56 GMT)
  • 「This paper offers a comprehensive overview of AI governance, addressing challenges across intrinsic security, derivative security, and social ethics.」とガバナンスについて概要がまとまった論文。リポジトリもあって良い感じ(だが、リポジトリの論文リストは更新中?)
  • リポジトリはGitHub – ZTianle/Awesome-AI-SG: Awesome papers and resources related to the AI Safety and Governance

Beyond “Not Novel Enough”: Enriching Scholarly Critique with LLM-Assisted Feedback 

  • Beyond “Not Novel Enough”: Enriching Scholarly Critique with LLM-Assisted Feedback [81.0]
    本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。 本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。 182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
    論文  参考訳(メタデータ)   (Thu, 14 Aug 2025 16:18:37 GMT)
  • 論文等の新規性を評価するフレームワークの提案、「document processing and content extraction, related work retrieval and ranking, and structured novelty assessment.」という3ステージ構成。
  • リポジトリはBeyond “Not Novel Enough”: Enriching Scholarly Critique with LLM-Assisted Feedback

Multimodal Referring Segmentation: A Survey 

  • Multimodal Referring Segmentation: A Survey [93.2]
    マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。 過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
    論文  参考訳(メタデータ)   (Fri, 01 Aug 2025 02:14:00 GMT)
  • Multimodal Referring Segmentationのサーベイ
  • リポジトリとしてhenghuiding/Awesome-Multimodal-Referring-Segmentation: Multimodal Referring Segmentationに論文等がまとまっている。

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale 

  • NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale [101.6]
    NextStep-1は、テキストから画像生成タスクにおける自動回帰モデルの最先端のパフォーマンスを実現する。 本手法は画像編集において高い性能を示し,統一的アプローチのパワーと汎用性を強調した。
    論文  参考訳(メタデータ)   (Thu, 14 Aug 2025 14:54:22 GMT)
  • StepFunによるAutoregressive Image Generation
  • リポジトリはGitHub – stepfun-ai/NextStep-1、Weightも公開されているNextStep-1 – a stepfun-ai Collection

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

  • UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding [16.9]
    トレーニングと推論の両方においてGUIエージェントを強化するUI-AGILEを導入する。 トレーニングのために,スーパービジョン・ファイン・チューニング(SFT)プロセスの一連の改善を提案する。 推測のために,高解像度ディスプレイのグラウンド化精度を劇的に向上させるために,選択による分解グラウンド化を提案する。
    論文  参考訳(メタデータ)   (Sat, 09 Aug 2025 17:51:27 GMT)
  • GUIエージェントの性能に大きく影響するグラウンディング能力を強化するフレームワークの提案。「UI-AGILE enhances GUI agents through improved training with a Continuous Reward function, Simple Thinking reward, and Cropping-based Resampling, and inference with Decomposed Grounding with Selection.」とのこと。
  • リポジトリはGitHub – KDEGroup/UI-AGILE

DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding

  • DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding [97.4]
    本稿では,新しいRLフレームワークであるEvidence Page-Guided GRPOで学習したMLLMであるDocR1を紹介する。 EviGRPOには、粗大な推論戦略を促進するエビデンス対応報酬機構が組み込まれている。 我々は,DocR1が複数ページのタスクに対して最先端のパフォーマンスを達成し,シングルページのベンチマークにおいて強い結果を維持していることを示す。
    論文  参考訳(メタデータ)   (Sun, 10 Aug 2025 12:03:45 GMT)
  • 多くのページがあるドキュメント読解のためのフレームワークの提案。
  • 「When engaging in multi-page reading comprehension, humans typically begin by identifying the pages likely to contain the answer, and then focus on locating the specific regions that correspond to the question and answer within those pages. Inspired by this “coarse-to-fine” reading strategy, EviGRPO mimics the human approach by first selecting a small set of potentially relevant pages at a coarse level, followed by fine-grained reasoning over the selected content.」とのことだが、このようなドメイン(タスク)特化のアプローチはいまだ有効なんだろうか。。

LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

  • LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.6]
    静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
    論文  参考訳(メタデータ)   (Thu, 07 Aug 2025 14:46:30 GMT)
  • 「LLMEval-3 is built on a proprietary bank of 220k graduate-level ques- tions, from which it dynamically samples unseen test sets for each evaluation run.」というベンチマーク。今までにも指摘されてきたことではあるが公開ベンチマークはleakの影響が大きく本論文にもそのような指摘がある。
  • リポジトリはllmeval/LLMEval-3: 中文大语言模型评测第三期

TiMoE: Time-Aware Mixture of Language Experts

  • TiMoE: Time-Aware Mixture of Language Experts [30.8]
    大規模言語モデル(LLM)は通常、Webの固定スナップショットに基づいてトレーニングされる。 我々は,2013-2024コーパスの2年スライスを分割し,TiMoEで組み合わせることで,GPTスタイルのエキスパートセットをスクラッチから事前学習することで,この問題に対処する。 推論時にTiMoEは、クエリタイムスタンプ後にトレーニングウィンドウが終了するすべての専門家をマスクし、残りのログ確率を共有スペースにマージする。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 10:36:36 GMT)
  • 「TiMoE demonstrates that partitioning pre-training data into strict time slices and blending the resulting GPT-2 experts through a causal, timestamp-aware router yields language models that stay chronologically grounded without a heavy accuracy penalty. By masking out any expert trained on data newer than the query year, TiMoE eliminates future-knowledge leakage while letting earlier specialists cooperate, cutting temporally inconsistent answers on the new 10 k-question TSQA benchmark by roughly 15%and delivering steadier accuracy across years.」というアプローチの時間情報の取り扱い。time-specific expertsを扱う面白いフレームワーク。とはいえパラメータ効率的にどうなんだろうと思わなくはない。
  • リポジトリはhttps://github.com/epfml/TiMoEとのこと。