CUBE: A Standard for Unifying Agent Benchmarks

  • CUBE: A Standard for Unifying Agent Benchmarks [139.0]
    MCPとGymをベースとしたユニバーサルプロトコル標準CUBE(Common Unified Benchmark Environments)を提案する。 CUBEは、任意の準拠プラットフォームがカスタム統合なしで、評価、RLトレーニング、データ生成のための準拠ベンチマークにアクセスできるようにする。
    論文  参考訳(メタデータ)   (Mon, 16 Mar 2026 18:31:37 GMT)
  • 「We propose CUBE (Common Unified Benchmark Envi- ronments), a protocol standard designed to unify the ML Community by establishing a universal interface between benchmarks and evaluation frameworks.1 The core insight is simple: if we define a consistent API contract, any CUBE- compliant benchmark becomes immediately usable by any CUBE-compliant platform.」と、ベンチマーク評価基盤を統合していこうという取り組み。「The importance of multi-benchmarking cannot be overstated. There are currently over 300 agentic benchmarks available, many of which are highly innovative but remain largely unknown because they are too difficult to set up.」はその通りで重要な取り組み(だが簡単ではない・・・)
  • リポジトリはGitHub – The-AI-Alliance/cube-standard: Standardize benchmark wrapping so the community can wrap various otherwise-incompatible benchmarks uniformly and use them everywhere. · GitHub

Omnilingual MT: Machine Translation for 1,600 Languages 

  • Omnilingual MT: Machine Translation for 1,600 Languages [58.7]
    我々は,1600以上の言語をサポートする最初の機械翻訳システムであるOmnilingual Machine Translation (OMT)を提案する。 このスケールは、大規模な公開多言語コーパスと新たに作成されたデータセットを統合する包括的なデータ戦略によって実現されている。 OMTモデルは言語間移動を改善し、1,600の評価において、MTのパズルの「理解」部分を解くのに近づいている。
    論文  参考訳(メタデータ)   (Wed, 18 Mar 2026 16:25:51 GMT)
  • NLLBを超える1600言語に対応した翻訳モデル。
  • 「BOUQuET dataset (a newly created, largest-to-date multilingual evaluation collection built from scratch and manually extended across a wide range of linguistic families)」によるリーダーボードが公開されている。Bouquet – a Hugging Face Space by facebook

AI Can Learn Scientific Taste 

Mamba-3: Improved Sequence Modeling using State Space Principles

  • Mamba-3: Improved Sequence Modeling using State Space Principles [74.4]
    線形モデルの状態空間モデル(SSM)の視点に触発された3つの中核的方法論的改善を紹介する。 アーキテクチャの改良とともに、Mamba-3モデルは、検索、状態追跡、下流言語モデリングタスク間で大きな進歩を遂げます。
    論文  参考訳(メタデータ)   (Mon, 16 Mar 2026 17:30:08 GMT)
  • 「We combine: (1) a more expressive recurrence derived from SSM discretization, (2) a complex-valued state update rule that enables richer state tracking, and (3) a multi-input, multi-output (MIMO) formulation for better model performance without increasing decode latency.」、「At 1.5B scale, Mamba-3 (MIMO) improves downstream language modeling accuracy by +2.2 over Transformers, +1.9 points over Mamba-2, and +1.8 over GDN, while Mamba-3 (SISO) improves over the next best model, GDN, by +0.6 points.」とMambaの最新版。フロンティアモデルではTransformerと状態空間モデルのハイブリッド構成が多く、期待大。

When AI Navigates the Fog of War

  • When AI Navigates the Fog of War [23.9]
    我々は、現在のフロンティアモデルのトレーニング遮断後に展開された2026年の中東紛争の初期段階について研究する。 我々は,11の臨界時間ノード,42のノード固有の検証可能な質問,および5つの一般探索質問を構築した。 この研究は、拡大する地政学的危機において、モデル推論のアーカイブスナップショットとして機能する。
    論文  参考訳(メタデータ)   (Tue, 17 Mar 2026 15:13:10 GMT)
  • 「Our analysis suggests three main takeaways. First, model responses often show strong strategic reasoning, going beyond surface rhetoric to attend to structural incentives, particularly in settings involving military posture, deterrence, and material constraints. Second, this capability is uneven across domains: models are generally more reliable in economically and logistically structured settings than in politically ambiguous multi-actor environments. Third, their narratives evolve over time, shifting from early expectations of rapid containment toward more systemic accounts of escalation, exhaustion, and fragile de-escalation.」との主張。
  • 進行中の事象であり振り返るのは必須なのだろうが、進行中の状況であるがゆえに残しておく報告でもあると思う。

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

  • EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery [18.3]
    EvoScientistは進化するマルチエージェントAI科学者フレームワークである。 永続記憶と自己進化を通じて研究戦略を継続的に改善する。 科学的なアイデア生成において、7つのオープンソースおよび商用の最先端システムを上回っている。
    論文  参考訳(メタデータ)   (Mon, 09 Mar 2026 09:07:19 GMT)
  • Huawei によるAI科学者の論文。「 a Researcher Agent (RA) that generates scientific ideas and research proposals, an Engineer Agent (EA) that executes experiments and produces code and analysis, and an Evolution Manager Agent (EMA) that distills interaction histories into persistent memories to guide future decision-making.」とマルチエージェント構成。

Beyond Explainable AI (XAI): An Overdue Paradigm Shift and Post-XAI Research Directions 

  • Beyond Explainable AI (XAI): An Overdue Paradigm Shift and Post-XAI Research Directions [95.6]
    本研究では、ディープニューラルネットワーク(DNN)と大規模言語モデル(LLM)に焦点をあてる、説明可能な人工知能(XAI)アプローチに焦点を当てる。 より深い根本原因に起因する致命的な症状(2つのパラドックス、2つの概念的混乱、5つの誤った仮定)について論じる。 XAIの限界を超えて、信頼性と認定されたAI開発に向けた4つのパラダイムシフトを提案する。
    論文  参考訳(メタデータ)   (Fri, 27 Feb 2026 16:58:27 GMT)
  • 「After nearly a decade, the legacy of the XAI program is increasingly questioned, with critics arguing that challenges have outweighed achievements. It is described as being “in trouble” [6], and some scholars suggest it should be “stopped” for high-stakes decisions [21] or has no role in the future of human-centric AI approaches [22]; others view it as myth [23] or consider it already “dead” [24].」と厳しい指摘を認識しつつのXAIの現状と今後に関するサーベイ。

Physical Simulator In-the-Loop Video Generation

  • Physical Simulator In-the-Loop Video Generation [96.9]
    Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。 PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
    論文  参考訳(メタデータ)   (Fri, 06 Mar 2026 15:48:25 GMT)
  • 「We propose PSIVG, a novel physical simulator in-the-loop video generation pipeline.」とのこと。発想はありそうだが、実装上はシミュレーターへのデータ設定や出力の利用にかなりの工夫を行っている。
  • プロジェクトサイトはPSIVG

Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework

  • Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework [18.5]
    長期記憶は、自律型大規模言語モデル(LLM)エージェントの基礎コンポーネントとして登場した。 メモリガバナンス、セマンティックドリフト、プライバシ脆弱性に関する重要な懸念が浮上しました。 本稿では,概念的ガバナンスアーキテクチャであるSSGM(Stable and Safety-Governed Memory)フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 12 Mar 2026 10:16:52 GMT)
  • 「We argue that for LLM agents to be reliable in high-stakes environments, memory evolution must be decoupled from mem- ory governance.」として、 Stability- and Safety-Governed Memory (SSGM) frameworkを提案。
  • アーキテクチャとしても興味深い。

Verifiable Reasoning for LLM-based Generative Recommendation

  • Verifiable Reasoning for LLM-based Generative Recommendation [106.8]
    大規模言語モデル(LLM)における推論は、最近、生成的レコメンデーションの強化に強い可能性を示している。 本稿では,信頼性の高いフィードバックを提供するために,検証と推論をインターリーブする新しいTextbftextitreason-verify-recommendパラダイムを提案する。 4つの実世界のデータセットの実験は、VRecが効率を損なうことなく、推奨の有効性とスケーラビリティを大幅に向上することを示した。
    論文  参考訳(メタデータ)   (Sun, 08 Mar 2026 16:55:45 GMT)
  • 「we propose a novel reason-verify-recommend paradigm, which interleaves reasoning with verification to provide reliable feedback, guiding the reasoning process toward more faithful user preference understanding.」とレコメンデーションタスクでの推論で効果的なフレームワークの提案。Qwen2.5-1.5Bをファインチューニングして実装、効果を確認とのこと。
  • リポジトリはLinxyhaha/Verifiable-Rec · GitHub