MobileLLM-R1, APERTUS

先週はOpenAIによるICPCの成果(https://x.com/MostafaRohani/status/1968360976379703569)などが話題になった。クローズドモデルの性能向上は本当にすごい。とはいえ、Metaによる小型モデルMobileLLM-R1(facebook/MobileLLM-R1-950M · Hugging Face)やオープンかつ権利関係にも気を使い他のモデルと競合的な性能を達成しているAPERTUS など公開モデルの取り組みも興味深い状況が続く。本当に目が離せない。

  • Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.7]
    Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。 Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。 Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
    論文  参考訳(メタデータ)   (Wed, 17 Sep 2025 17:59:21 GMT)
  • オープンかつ多言語、さらに権利関係にもかなり配慮しているモデル「The models are trained on 15T tokens from 1811 languages with retroactive respect for robots.txt and related opt outs, and with a Goldfish-style objective to curb verbatim reproduction of training text.」。性能もかなり高く、非常に興味深い。
  • モデルはswiss-ai/Apertus-70B-Instruct-2509 · Hugging Face

A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models 

  • A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models [22.7]
    時系列推論は時間を第一級軸として扱い、中間証拠を直接答えに組み込む。 本調査では,一段階における直接推論,明示的な中間体による線形連鎖推論,分岐構造推論という3つのファミリーによるトポロジの推論によって,問題を定義し,文献を整理する。
    論文  参考訳(メタデータ)   (Mon, 15 Sep 2025 04:39:50 GMT)
  • 時系列推論に関するサーベイ。
    • Reasoning Topology — execution structures:
      • Direct reasoning (single step)
      • Linear chain reasoning (sequential intermediate steps)
      • Branch-structured reasoning (exploration, feedback, and aggregation)
    • Primary Objective — the main intent:
      • Traditional time series analysis (forecasting, classification, anomaly detection, segmentation)
      • Explanation and understanding (temporal QA, diagnostics, structure discovery)
      • Causal inference and decision making (counterfactuals, policy evaluation, decision support)
      • Time series generation (simulation, editing, synthesis)
  • リポジトリはGitHub – blacksnail789521/Time-Series-Reasoning-Survey: A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models

Self-Improving Embodied Foundation Models 

  • Self-Improving Embodied Foundation Models [21.8]
    ロボット工学における2段階のポストトレーニング手法を提案する。 第1段階であるSupervised Fine-Tuning (SFT) は、a) 行動クローニングとb) ステップ・トゥ・ゴーの予測目的の両方を用いたファインチューン事前訓練基礎モデルである。 第2段階では、ステップ・トゥ・ゴー予測により、良好な形状の報酬関数と堅牢な成功検出器の抽出が可能となる。
    論文  参考訳(メタデータ)   (Thu, 18 Sep 2025 17:00:08 GMT)
  • 「1) Supervised Fine-Tuning (SFT) wherein we fine-tune EFMs using behavioral cloning as well as “steps-to-go” prediction objectives, and 2) Self-Improvement (Online RL) wherein EFMs autonomously practice downstream tasks and rapidly improve via optimizing self-predicted rewards.」というアプローチの提案(EFM= Embodied Foundation Models)。「Finally, we demonstrated that this novel combination uniquely unlocks a capability not possible by current methods: autonomously aquiring new skills that generalize far beyond the tasks covered in the imitation learning datasets. These findings highlight the transformative potential of combining pretrained foundation models with online Self- Improvement to enable autonomous skill acquisition in robotics.」と効果があったとのこと。
  • プロジェクトサイトはAnonymous Supplementary Videos for “On the Magic of Online Self-Improvement for Embodied Multimodal Foundation Models” 

Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision 

  • Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision [26.9]
    我々は、コンピュータ・アズ・教師(CaT)による調査を監督に転換することを提案する。 CaTは平行ロールアウトのグループから単一の参照を合成し、それに向けて最適化する。 テストタイムの手順として、CaTはGemma 3 4B、Qwen 3 4B、Llama 3.1 8Bを改善している。
    論文  参考訳(メタデータ)   (Wed, 17 Sep 2025 17:59:42 GMT)
  • 「(i) verifiable tasks use programmatic equivalence on final answers; (ii) non-verifiable tasks use self-proposed rubrics—binary, auditable criteria scored by an independent LLM judge, with reward given by the fraction satisfied.」と検証困難なタスクにも効果があるのが興味深い。「CaT can be applied at test time for inference-time gains or inside RL (CaT-RL) to improve the policy.」とのこと。強化学習でも効果を確認している。

Steering MoE LLMs via Expert (De)Activation 

  • Steering MoE LLMs via Expert (De)Activation [118.2]
    LLM(Large Language Models)におけるMixture-of-Experts (MoE)は、各トークンを専用のFeed-Forward Networks (FFN)のサブセットを介してルーティングする。 我々は,行動関連の専門家を検知し,制御することで,MoEモデルをステアリングするフレームワークであるSteerMoEを提案する。
    論文  参考訳(メタデータ)   (Thu, 11 Sep 2025 17:55:09 GMT)
  • MoEを操作し望ましい(または望ましくない)動作に近づける手法の提案。ネガティブな方向性で「Critically, we are also exposing a novel dimension of “Alignment Faking” in LLMs (Greenblatt et al , 2024; Wang et al , 2024), where alignment is concentrated in a subset of experts, neglecting alternate routing paths that can catastrophically bypass alignment when triggered. We argue that, just as safety alignment must extend beyond the first few tokens (Qi et al , 2025), it must also go deeper than just a few expert pathways, ensuring robustness across the entire model routing topology.」はその通りだと思う。
  • リポジトリはGitHub – adobe-research/SteerMoE: A framework for steering MoE models by detecting and controlling behavior-linked experts.

A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models 

  • A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models [35.5]
    Long-CoT推論は、言語理解、複雑な問題解決、コード生成など、さまざまなタスクに進歩している。 信頼に値する推論の5つの中核的な側面 – 真理性、安全性、堅牢性、公正性、プライバシ – に重点を置いています。 全体として、推論技術は、幻覚の緩和、有害なコンテンツ検出、堅牢性の改善を通じてモデルの信頼性を高めることを約束する一方で、最先端の推論モデルは、安全性、堅牢性、プライバシにおける同等またはそれ以上の脆弱性に悩まされることが多い。
    論文  参考訳(メタデータ)   (Thu, 04 Sep 2025 04:12:31 GMT)
  • 信頼性に関するものだが、推論に軸足をおいたサーベイ。
  • リポジトリはGitHub – ybwang119/Awesome-reasoning-safety: This repo is for the safety topic, including attacks, defenses and studies related to reasoning and RL

An AI system to help scientists write expert-level empirical software

  • An AI system to help scientists write expert-level empirical software [25.0]
    品質基準を最大化するために,専門家レベルの科学ソフトウェアを作成するAIシステムを提案する。 このシステムは、外部ソースから複雑な研究アイデアを探求し、統合する際に、専門家レベルの結果を得る。 バイオインフォマティクスでは、公共のリーダーボード上で人間が開発した最上位の手法よりも優れた、40の新しい単一セルデータ解析法が発見された。 疫学では、新型コロナウイルス(COVID-19)の入院を予測するためのCDCアンサンブルやその他の全ての個人モデルを上回る14のモデルを作成した。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 10:08:36 GMT)
  • 科学ソフトウェアを作るシステムの提案、「Our method builds upon ideas from several distinct but related areas of research: Genetic Programming, Generative Programming, the application of LLMs to code, Automated Machine Learning (AutoML), and agents for scientific discovery. Genetic Programming — The idea of automatically evolving computer programs to solve a problem is not new.」と今までの知見を数多く取り入れている。
  • 「A key difference in our system is the use of an LLM to perform intelligent, semantic-aware “mutations” by rewriting the code, which can produce more complex and meaningful variations than the random changes typical in GP.」と書かれている。他分野でも効果を報告しているものがあり、GPとLLMは相性がよさそう。

Entropy2Vec: Crosslingual Language Modeling Entropy as End-to-End Learnable Language Representations

  • Entropy2Vec: Crosslingual Language Modeling Entropy as End-to-End Learnable Language Representations [33.5]
    単言語モデルのエントロピーを利用して言語間表現を導出するフレームワークであるEntropy2Vecを紹介する。 一つの言語で言語モデルを訓練することにより、その予測のエントロピーは他の言語と構造的類似性を反映していると仮定する。 このアプローチは、異なる時間枠に適応し、欠落した値のない、密集した非スパースな言語埋め込みをもたらす。
    論文  参考訳(メタデータ)   (Fri, 05 Sep 2025 12:40:31 GMT)
  • 「TROPY2VEC, a framework that derives language representations based on the entropy of monolingual language models (LMs). Entropy, a measure of uncertainty in information theory, reflects the predictability of a language’s structure.」という面白いアプローチ。

SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models 

  • SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models [48.3]
    本稿では,タンパク質基盤モデル用に設計された最初のレッドチームフレームワークであるSafeProteinを紹介する。 SafeProteinはマルチモーダルプロンプトエンジニアリングを組み合わせ、ビームサーチを生成して、レッドチーム方式を体系的に設計する。 また、手動で構築したレッドチームベンチマークデータセットと包括的な評価プロトコルを含むSafeProtein-Benchをキュレートした。
    論文  参考訳(メタデータ)   (Wed, 03 Sep 2025 17:13:56 GMT)
  • 「• SafeProtein: the first systematic red-teaming approach for protein foundation models, combining multimodal prompt engineering with heuristic beam search, achieving up to a 70% jailbreak success rate against the latest ESM3 model.」というフレームワークと、関連するベンチマークの紹介。
  • リポジトリはGitHub – jigang-fan/SafeProtein: Official Repository for SafeProtein and SafeProtein-Bench

SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

  • SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.3]
    本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。 我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 02:07:09 GMT)
  • 「we propose a compact synthetic-data reinforcement learning recipe that adapts reasoningoptimized LLMs into native Autonomous Single-Agent systems for Deep Research. Applied to open-source backbones, our best variant attains 28.7% on Humanity’s Last Exam.」と合成データを活用したDeep Researchエージェント構築フレームワークの提案。