コンテンツへスキップ
- Modular Memory is the Key to Continual Learning Agents [100.1]
In-Weight Learning(IWL)の強みと、モジュラーメモリの設計を通じて新たに登場したIn-Context Learning(ICL)の機能を組み合わせることが、大規模に継続的適応するための欠片である、と我々は主張する。 我々は、ICLを高速適応と知識蓄積に活用するモジュール型メモリ中心アーキテクチャの概念的フレームワークと、モデル機能の安定した更新のためのIWLについて概説する。
論文 参考訳(メタデータ) (Mon, 02 Mar 2026 11:40:05 GMT)
- 「Here, we argue that the key to intelligent adaptation and knowledge accumulation lies in combining the strengths of the two learning mechanisms, ICL and IWL, under a modular memory architecture in which a pretrained core model is augmented with distinct memory modules: a working memory for active context and a long-term memory for rapid adaptation and knowledge accumulation. 」とIn Context Learning的なメモリ(作業用と長期メモリを含む)、とIn Weight Learning(低頻度、左記長期メモリのうち必要分を取り込む)の組み合わせが重要という主張で納得感がある。Memoryの現状も整理されている。
- CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.7]
カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。従来の方法に比べ、エージェントはスケーラブルなデータ合成パイプラインと自動検証環境を活用し、安定した訓練を実現した。KernelBenchの性能テストでは、torch.compileに対して最大40%の性能向上を達成。
論文 参考訳(メタデータ) (Fri, 27 Feb 2026 18:58:05 GMT)
- 「We introduced CUDA Agent, a large-scale agentic reinforcement learning system that endows large language models with the ability to generate and optimize CUDA kernels under realistic, execution-driven development workflows. By jointly scaling data synthesis, agent environments, and stability-oriented RL training, CUDA Agent moves LLMs beyond syntactic code generation toward hardware-aware performance optimization, achieving consistent gains over torch.compile and strong proprietary models on KernelBench.」とのこと。ベースモデルはSeed1.6、ここまでやらないと・・・という点、Skillsで結合するような構成も興味深い。
- プロジェクトサイトはCUDA Agent | Large-Scale Agentic RL for CUDA Kernel Generation
- Scaling Laws of Global Weather Models [57.3]
本稿では,モデル性能(検証損失)とモデルサイズ,データセットサイズ,計算予算の3つの主要な要因について検討する。 様々なモデルにおいて、Auroraは最も強力なデータスケーリングの挙動を示す。 我々の計算-最適分析は、固定された計算予算の下で、長いトレーニング期間にリソースを割り当てると、モデルサイズの増加よりもパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (Thu, 26 Feb 2026 12:57:38 GMT)
- 天気に関するScaling Laws、自然言語処理(transfomer)と似ている部分、異なる部分があるようで大変興味深い。
- SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.9]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。 SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。 キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。 自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (Fri, 13 Feb 2026 07:06:06 GMT)
- Skillsに関するベンチマーク。Findingsが「(1) curated Skills provide substantial but variable benefit (+16.2 percentage points average, with high variance across domains and configurations); (2) self-generated Skills provide negligible or negative benefit (–1.3pp average), demonstrating that effective Skills require human- curated domain expertise; (3) less is more—focused Skills with 2–3 modules outperform comprehensive documentation; and (4) Skills can partially substitute for model scale, enabling smaller models to match larger ones on procedural tasks.」が興味深く、(2)もそうだろうと思わなくはないが、今後の工夫でどうにかなるのかが気になるところ。
- What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else? [28.1]
身体化されたAIシステムは、制御された環境から安全クリティカルな現実世界へのデプロイへと急速に移行している。 非身体化AIとは異なり、インボディードインテリジェンスにおける失敗は、不可逆的な物理的結果をもたらす。 我々は,システムレベルのミスマッチから,重大な障害が生じることを論じる。
論文 参考訳(メタデータ) (Thu, 19 Feb 2026 13:29:00 GMT)
- Embodied AIに特徴的な安全性に関するサーベイ。「we identify four core insights that explain why embodied AI is fundamentally harder to secure: (i) semantic correctness does not imply physical safety, as language-level reasoning abstracts away geometry, dynamics, and contact constraints; (ii) identical actions can lead to drastically different outcomes across physical states due to nonlinear dynamics and state uncertainty; (iii) small errors propagate and amplify across tightly coupled perception–decision–action loops; and (iv) safety is not compositional across time or system layers, enabling locally safe decisions to accumulate into globally unsafe behavior. 」
- Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems [5.1]
年齢推定システムは、年齢制限のあるオンラインコンテンツのためのゲートキーパーとしてますます展開されている。 ヒゲを含むシンプルで家庭で利用できる化粧品の変化は、AI年齢推定者が未成年者を成人に分類する原因となるかどうかを考察する。 VLM画像エディターを用いて10歳から21歳までの人物の329枚の顔画像に対する身体的攻撃をシミュレートした。
論文 参考訳(メタデータ) (Mon, 23 Feb 2026 06:13:52 GMT)
- Cosmetic Attacks…、効果はありそうではある。
- Counterfactual Simulation Training for Chain-of-Thought Faithfulness [46.3]
我々は,CST(Counterfactual Simulation Training)と呼ばれるトレーニング手法を導入する。 CSTは、シミュレーターが偽の入力に対してモデルの出力を正確に予測できるCoTに報酬を与える。 最大235Bパラメータのモデルによる実験により、CSTはキューベースのカウンターファクトの精度を大幅に向上できることが示された。
論文 参考訳(メタデータ) (Tue, 24 Feb 2026 09:15:30 GMT)
- CoTの信頼性を向上させるため「we introduce a training method called Counterfactual Simulation Training (CST), which aims to improve CoT faithfulness by rewarding CoTs that enable a simulator to accurately predict a model’s outputs over counterfactual inputs. We apply CST in two settings: (1) CoT monitoring with cue-based counterfactuals, to detect when models rely on spurious features, reward hack, or are sycophantic, and (2) counterfactual simulation over generic model-based counterfactuals, to encourage models to produce more faithful, generalizable reasoning in the CoT.」というアプローチを提案。Reasoningの過程をコントロールするのも重要なのはそうだと思う。
- リポジトリはGitHub – peterbhase/counterfactual-simulation-training: Codebase for paper: “Counterfactual Simulation Training for Chain-of-Thought Faithfulness”
- DREAM: Deep Research Evaluation with Agentic Metrics [21.6]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。 DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。 制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (Sat, 21 Feb 2026 19:14:31 GMT)
- 「DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes.」とファクトチェックを思い出す評価アプローチ。「We demonstrate that current LLM-as-a-judge and reference-based benchmarks are often blinded by surface-level fluency and citation alignment, failing to detect deep-seated defects in factual correctness, temporal validity, and logical reasoning.」はそうだろうと思う。
- The Trinity of Consistency as a Defining Principle for General World Models [106.2]
一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。 本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。 我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
論文 参考訳(メタデータ) (Thu, 26 Feb 2026 16:15:55 GMT)
- 「This paper is organized to mirror the evolutionary path from specialized modules to unified world simulators. 」とサーベイ的な論文。「In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine.」と主張、ベンチマークを公開。
- プロジェクトサイトはThe Trinity of Consistency as a Defining Principle for General World Models