コンテンツへスキップ
- PaperBench: Evaluating AI’s Ability to Replicate AI Research [3.5]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。 エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。 PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 15:55:24 GMT)
- OpenAIによる「PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research.」の提案。
- リポジトリはGitHub – openai/preparedness: Releases from OpenAI Preparedness
- Inducing Programmatic Skills for Agentic Tasks [54.0]
本研究では,エージェントがプログラムベースのスキルをその場で誘導し,検証し,活用することで,エージェントの適応を可能にするエージェントスキル誘導(ASI)を提案する。 ASIは静的ベースラインエージェントとテキストスキルを23.5%、成功率11.3%で上回っている。
論文 参考訳(メタデータ) (Wed, 09 Apr 2025 12:25:37 GMT)
- 「We present ASI, namely agent skill induction (§2), that induces and applies programmatic skills along the process of solving user web navigation queries. More concretely, given a natural language (NL) query, the agent first generates an action trajectory attempting to solve the task using built-in, primitive actions such as click and scroll.」という感じでスキルの表現にプログラムコードを用いる手法の提案と有効性の検証。
- 曖昧さを含め、表現力・抽象化の方法などかなり異なる自然言語と形式言語の使い分けが重要なのかなーと思わなくもない。
- リポジトリはGitHub – zorazrw/agent-skill-induction: Agent Skill Induction: “Inducing Programmatic Skills for Agentic Tasks”
- Measurement of LLM’s Philosophies of Human Nature [113.5]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。 現在のLSMは、人間に対する信頼の欠如を示す。 本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 03 Apr 2025 06:22:19 GMT)
- 「Machinebased Philosophies of Human Nature Scale (M-PHNS)」とLLMの人間性に対する評価を行うツールの提案。「Most models exhibit varying degrees of negative tendencies, such as perceiving humans as untrustworthy, selfish, and volatile. These tendencies intensify as the intelligence level of the model increases. This phenomenon is consistent regardless of the model’s developer or whether the model is open-source.」という結果が面白い。これらを修正するフレームワークも提案しているが、これが良いのかは若干謎。
- リポジトリはkodenii/M-PHNS · GitHub
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.9]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。 本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 17:40:47 GMT)
- 「In this work, we proposed IAD : an iterative decoding approach for AI agent alignment with black box access which highlights the effectiveness of iterative decoding (guided by a verifier) for these complex agentic tasks.」と(よくある)API利用を前提としたエージェントのパフォーマンス改善手法の提案。
- REALM: A Dataset of Real-World LLM Use Cases [69.6]
REALMはRedditやニュース記事から収集された94,000 LLMのユースケースのデータセットである。 RealmはLLMの多様な応用とユーザの人口統計の2つの重要な側面を捉えている。 LLMアプリケーションを分類し、ユーザの職業が使用するアプリケーションの種類とどのように関連しているかを調査する。
論文 参考訳(メタデータ) (Mon, 24 Mar 2025 15:39:25 GMT)
- 「REALM (Real-World Application of Large Language Model Dataset) Dataset」と珍しい視点のデータセット。
- プロジェクトサイトはREALM Dataset Dashboard
- Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.7]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。 SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。 近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (Tue, 01 Apr 2025 17:59:30 GMT)
- 「SR-RAG enables an LLM to dynamically decide between external retrieval and verbalizing its own parametric knowledge.」のため「SR-RAG proposes a two-stage multi-task learning framework that jointly optimizes knowledge source selection, knowledge verbalization, and response generation.」という学習フレームワークを提案。効率的な対応が可能に。
- リポジトリはGitHub – xiaowu0162/self-routing-rag
- Model Hemorrhage and the Robustness Limits of Large Language Models [119.5]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。 この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (Mon, 31 Mar 2025 10:16:03 GMT)
- 「Model Hemorrhage refers to the phenomenon where large language models (LLMs) and their extended frameworks (e g , multimodal models) experience performance degradation, robustness weakening, or adaptability failure during training, optimization, deployment, or task adaptation」と典型的にはモデルデプロイ時の量子化で生じる性能劣化などに関する研究