コンテンツへスキップ
- Verifiable Reasoning for LLM-based Generative Recommendation [106.8]
大規模言語モデル(LLM)における推論は、最近、生成的レコメンデーションの強化に強い可能性を示している。 本稿では,信頼性の高いフィードバックを提供するために,検証と推論をインターリーブする新しいTextbftextitreason-verify-recommendパラダイムを提案する。 4つの実世界のデータセットの実験は、VRecが効率を損なうことなく、推奨の有効性とスケーラビリティを大幅に向上することを示した。
論文 参考訳(メタデータ) (Sun, 08 Mar 2026 16:55:45 GMT)
- 「we propose a novel reason-verify-recommend paradigm, which interleaves reasoning with verification to provide reliable feedback, guiding the reasoning process toward more faithful user preference understanding.」とレコメンデーションタスクでの推論で効果的なフレームワークの提案。Qwen2.5-1.5Bをファインチューニングして実装、効果を確認とのこと。
- リポジトリはLinxyhaha/Verifiable-Rec · GitHub
- Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.7]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な “ルーラー” の提供を目指す。
論文 参考訳(メタデータ) (Sat, 28 Feb 2026 05:41:57 GMT)
- Few shotでの転移性を評価するベンチマークの提案。
- リポジトリはGitHub – Frankluox/FewTrans · GitHub
- Hybrid Self-evolving Structured Memory for GUI Agents [30.9]
ハイブリッド自己進化型構造化メモリ(HyMEM)を提案する。 HyMEMはグラフベースのメモリで、個別の高レベルなシンボルノードと連続的な埋め込みを結合する。 オープンソースGUIエージェントを継続的に改善し、7B/8Bバックボーンが強力なクローズドソースモデルにマッチしたり、超えたりすることができる。
論文 参考訳(メタデータ) (Wed, 11 Mar 2026 00:17:44 GMT)
- GUI Agentを強化するためのグラフ構造をつかったメモリの提案。
- プロジェクトサイトはHyMEM Project Page – a Hugging Face Space by Nick0907
- MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.7]
マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。 回転する小さな偏差は、多エージェントカップリングによって増幅される。 自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
論文 参考訳(メタデータ) (Mon, 09 Mar 2026 23:36:32 GMT)
- 「We therefore propose MEMO (Memory-augmented MOdel context optimization), a self- play framework that optimizes inference-time context without updating model weights. 」「The central finding is that exploration alone yields only modest gains; persistent memory is what transforms context optimization from a memoryless search into a cumulative learning process.」とゲームにおける記憶の有効性を主張。
- プロジェクトサイトはMEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games
- SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.4]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文 参考訳(メタデータ) (Mon, 02 Mar 2026 08:16:04 GMT)
- 「we propose SafeSci, a holistic framework designed to evaluate and enhance the safety of LLMs in scientific domains. SafeSci consists of two datasets: SafeSciBench, a multi-disciplinary safety evaluation benchmark, and SafeSciTrain, a large-scale instruction tuning dataset for safety enhancement.」とのこと。
- 余談だがフロンティアモデルはほぼ確実にトレーニングでPubChemや ChEMBLを使っているので・・・という説明にベンチマーク構築の難しさを感じる。
- リポジトリはGitHub – yangyangyang127/SafeSci · GitHub
- AI Knows What’s Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions [51.6]
大規模言語モデルは、その出力がチェックできる場合に信頼性を持って機能しますが医師が不完全なデータに基づいて治療を選択する場合や、投資家が不確実性の下で資本を投入する場合には、パフォーマンスが異なります。 ヘリコイド力学(Helicoid dynamics)は、その2番目のドメインの特定の障害状態に与えられる名前である。 システムは巧みに働き、エラーに陥り、何がうまくいかなかったかを正確に名付け、さらに高度な技術で同じパターンを再現する。 この先進的な事例シリーズは、7つの主要なシステムにまたがる体制を文書化する。
論文 参考訳(メタデータ) (Thu, 12 Mar 2026 05:25:49 GMT)
- 「LLMs reached a point where they could recognize their own cognitive degradation — and yet remained incapable of reliably changing the behavior that fueled their failure. Each session followed the same sequence: competent engagement, a failure mode, accurate meta-recognition of that failure, a proposed correction, and then recurrence of the same failure at higher abstraction, often through polished reflection or procedural deferral. The models recognized they were looping. They continued looping nonetheless.」とたまによく見る現象の分析。
- Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures [47.3]
本研究では,トランスフォーマーとステートスペースモデルを組み合わせたハイブリッドアーキテクチャが,2つの合成インコンテキスト検索タスクにおいて両世界の長所を達成できるかどうかを考察する。 ハイブリッドモデルはSSMを上回り、データ効率と情報深度コンテキスト検索のための外挿においてTransformerを上回ります。
論文 参考訳(メタデータ) (Tue, 03 Mar 2026 11:28:33 GMT)
- 公開モデルでも採用例の多いtransformer+state space modelの有効性を検証した論文、「Hybrid models outperform both pure Transformers and SSMs on n-gram retrieval in terms of data efficiency, length generalization, and robustness to duplicate queries.」とのこと。
- Model Editing for New Document Integration in Generative Information Retrieval [110.9]
生成検索(GR)は文書識別子(docID)の生成として情報検索(IR)タスクを再構成する 既存のGRモデルは、新たに追加されたドキュメントへの一般化が不十分で、しばしば正しいドキュメントIDを生成できない。 DOMEは,GRモデルを非表示文書に効果的かつ効率的に適応する新しい手法である。
論文 参考訳(メタデータ) (Tue, 03 Mar 2026 09:13:38 GMT)
- Generative retrievalのためのModel Editing、「In this work, we have identified that the decoder’s failure to learn precise docID mappings is the key obstacle in adapting generative retrieval models to new documents. To address this, we have introduced DOME, a GR-specific model-editing framework with a hybrid-label adaptive training strategy that produces discriminative and precise updates to critical decoder layers.」とのこと。考え方自体がとても興味深い。
- リポジトリはGitHub – zhangzhen-research/DOME · GitHub