コンテンツへスキップ
- OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows [10.3]
大規模言語モデル(LLM)は、複雑で長期の推論を必要とする現実世界のアプリケーションにますます多くデプロイされている。 OdysseyBenchは、様々なオフィスアプリケーションにわたる長期にわたってLLMエージェントを評価するための包括的なベンチマークである。 スケーラブルなベンチマーク作成を実現するために,長期ワークフローベンチマークの自動生成を行うマルチエージェントフレームワークであるHomerAgentsを提案する。
論文 参考訳(メタデータ) (Tue, 12 Aug 2025 17:53:03 GMT)
- 「We introduce OdysseyBench, a comprehensive benchmark for evaluating agents on long- horizon workflows across multiple office applications, consisting of OdysseyBench+ and OdysseyBench-Neo. 」、「• We propose HOMERAGENTS, a multi-agent framework that automates the generation of long-horizon tasks, enabling scalable and diverse benchmark creation.」とベンチマーク作成フレームワークを含むベンチマークの提案。
- リポジトリはhttps://github.com/microsoft/OdysseyBenchとのことだが現時点では404
- Provable In-Context Vector Arithmetic via Retrieving Task Concepts [53.7]
クロスエントロピー損失に対する勾配降下による非線形残差変圧器の訓練は,ベクトル演算による実-リコールICLタスクをいかに行うかを示す。 これらの結果は、静的埋め込み前駆体よりもトランスフォーマーの利点を解明する。
論文 参考訳(メタデータ) (Wed, 13 Aug 2025 13:54:44 GMT)
- 「We develop an optimization theory demonstrating that transformers with nonlinear softmax attention, MLP, layer normalization, and residual connections—trained via Gradient Descent (GD) with cross- entropy loss—can effectively perform factual-recall ICL in a vector arithmetic manner, grounded in empirically motivated data modeling. Our analysis shows that the transformer retrieves the high-level task/function concept through attention-MLP, which, when combined with any embedded query vector within the same high- level task concept, yields the correct corresponding answer vector.」とtask vectorを想定した理論的研究。
- 不明点はまだまだ多そうに思うが、理論的研究が進むことに期待。
- Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.6]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。 しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。 モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (Mon, 04 Aug 2025 06:54:31 GMT)
- Reasoningの効率化に関するサーベイだが、すでに様々なアプローチと多くの研究成果があるのに驚き
- リポジトリはyuelinan/Awesome-Efficient-R1-style-LRMs