コンテンツへスキップ
- MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.7]
マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。 回転する小さな偏差は、多エージェントカップリングによって増幅される。 自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
論文 参考訳(メタデータ) (Mon, 09 Mar 2026 23:36:32 GMT)
- 「We therefore propose MEMO (Memory-augmented MOdel context optimization), a self- play framework that optimizes inference-time context without updating model weights. 」「The central finding is that exploration alone yields only modest gains; persistent memory is what transforms context optimization from a memoryless search into a cumulative learning process.」とゲームにおける記憶の有効性を主張。
- プロジェクトサイトはMEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games
- SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.4]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文 参考訳(メタデータ) (Mon, 02 Mar 2026 08:16:04 GMT)
- 「we propose SafeSci, a holistic framework designed to evaluate and enhance the safety of LLMs in scientific domains. SafeSci consists of two datasets: SafeSciBench, a multi-disciplinary safety evaluation benchmark, and SafeSciTrain, a large-scale instruction tuning dataset for safety enhancement.」とのこと。
- 余談だがフロンティアモデルはほぼ確実にトレーニングでPubChemや ChEMBLを使っているので・・・という説明にベンチマーク構築の難しさを感じる。
- リポジトリはGitHub – yangyangyang127/SafeSci · GitHub
- AI Knows What’s Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions [51.6]
大規模言語モデルは、その出力がチェックできる場合に信頼性を持って機能しますが医師が不完全なデータに基づいて治療を選択する場合や、投資家が不確実性の下で資本を投入する場合には、パフォーマンスが異なります。 ヘリコイド力学(Helicoid dynamics)は、その2番目のドメインの特定の障害状態に与えられる名前である。 システムは巧みに働き、エラーに陥り、何がうまくいかなかったかを正確に名付け、さらに高度な技術で同じパターンを再現する。 この先進的な事例シリーズは、7つの主要なシステムにまたがる体制を文書化する。
論文 参考訳(メタデータ) (Thu, 12 Mar 2026 05:25:49 GMT)
- 「LLMs reached a point where they could recognize their own cognitive degradation — and yet remained incapable of reliably changing the behavior that fueled their failure. Each session followed the same sequence: competent engagement, a failure mode, accurate meta-recognition of that failure, a proposed correction, and then recurrence of the same failure at higher abstraction, often through polished reflection or procedural deferral. The models recognized they were looping. They continued looping nonetheless.」とたまによく見る現象の分析。
- Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures [47.3]
本研究では,トランスフォーマーとステートスペースモデルを組み合わせたハイブリッドアーキテクチャが,2つの合成インコンテキスト検索タスクにおいて両世界の長所を達成できるかどうかを考察する。 ハイブリッドモデルはSSMを上回り、データ効率と情報深度コンテキスト検索のための外挿においてTransformerを上回ります。
論文 参考訳(メタデータ) (Tue, 03 Mar 2026 11:28:33 GMT)
- 公開モデルでも採用例の多いtransformer+state space modelの有効性を検証した論文、「Hybrid models outperform both pure Transformers and SSMs on n-gram retrieval in terms of data efficiency, length generalization, and robustness to duplicate queries.」とのこと。
- Model Editing for New Document Integration in Generative Information Retrieval [110.9]
生成検索(GR)は文書識別子(docID)の生成として情報検索(IR)タスクを再構成する 既存のGRモデルは、新たに追加されたドキュメントへの一般化が不十分で、しばしば正しいドキュメントIDを生成できない。 DOMEは,GRモデルを非表示文書に効果的かつ効率的に適応する新しい手法である。
論文 参考訳(メタデータ) (Tue, 03 Mar 2026 09:13:38 GMT)
- Generative retrievalのためのModel Editing、「In this work, we have identified that the decoder’s failure to learn precise docID mappings is the key obstacle in adapting generative retrieval models to new documents. To address this, we have introduced DOME, a GR-specific model-editing framework with a hybrid-label adaptive training strategy that produces discriminative and precise updates to critical decoder layers.」とのこと。考え方自体がとても興味深い。
- リポジトリはGitHub – zhangzhen-research/DOME · GitHub
- OmniGAIA: Towards Native Omni-Modal AI Agents [103.8]
我々は、深い推論とマルチターンツールの実行を必要とするタスクにおいて、オムニモーダルエージェントを評価するために設計されたベンチマークを導入する。 我々は,Omni-modal foundation agentであるOmniAtlasを提案する。
論文 参考訳(メタデータ) (Thu, 26 Feb 2026 11:35:04 GMT)
- 「OmniGAIA, a challenging benchmark for native omni-modal agents. OmniGAIA comprises 360 tasks across 9 real-world domains, covering both video-with-audio and image+audio settings, and explicitly requires multi-turn tool use (e g , web search/browsing and code) to produce verifiable open-form answers.」とマルチモーダルなベンチマーク。デモが分かりやすい。
- リポジトリはGitHub – RUC-NLPIR/OmniGAIA: OmniGAIA: Towards Native Omni-Modal AI Agents、リーダーボードはOmniGAIA Leaderboard – a Hugging Face Space by RUC-NLPIR、商用モデル(Gemini)の強さが目立つ
- MEM: Multi-Scale Embodied Memory for Vision Language Action Models [73.4]
本稿では,マルチスケール・エンボダイドメモリ(MEM)について紹介する。 MEMはビデオベースの短水平メモリをビデオエンコーダで圧縮し、テキストベースの長水平メモリと組み合わせている。 MEMは、キッチンを掃除したり、チーズサンドイッチを焼いたりして、最大15分間のタスクをロボットが実行できるようにする。
論文 参考訳(メタデータ) (Wed, 04 Mar 2026 00:03:02 GMT)
- 「MEM combines video-based short-horizon memory, compressed via a video encoder, with text-based long-horizon memory. 」とマルチモーダルなメモリフレームワークの提案。
- プロジェクトサイトはVLAs with Long and Short-Term Memory
- Interactive Benchmarks [45.7]
予算制約下でのインタラクティブなプロセスにおけるモデルの推論能力を評価する統一評価パラダイムであるInteractive Benchmarksを提案する。 このフレームワークを2つの設定でインスタンス化する: 対話的証明(Interactive Proofs) — モデルは判断者と相互作用し、論理と数学の客観的な真実や答えを推論する。
論文 参考訳(メタデータ) (Thu, 05 Mar 2026 02:18:26 GMT)
- 「By actively collecting information, the agent can update its beliefs and make better decisions under uncertainty. To evaluate a model’s ability to reason while actively acquiring information, we draw inspiration from the concept of Interactive Proofs in computational complexity theory (Goldwasser et al , 2019) and propose a unified evaluation paradigm, which we call Interactive Benchmarks.」という行動しながら答えを見出すタイプのベンチマーク。現実的に重要なタスク。(汎用モデルで)このような動作が可能になってきているのも感慨深いものがある。
- リポジトリはGitHub – interactivebench/InteractiveBench: Official Project Page for Interactive Benchmarks · GitHub