コンテンツへスキップ
- On Path to Multimodal Generalist: General-Level and General-Bench [154.0]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。 フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。 既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (Wed, 07 May 2025 17:59:32 GMT)
- 「This leads to a critical question: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI?」に対する評価フレームワーク。自動運転のような大きく5段階のレベル設定を行っている。現時点では「Our evaluation of over 100 existing top-performing LLM/MLLM systems has uncovered critical insights into their capabilities and rankings as multimodal generalists. The most notable finding is that most MLLMs lack the cross-task or cross-modal synergy ability required for higher-level classifications, with even advanced models like GPT-4V and GPT-4o not achieving top ranks.」とのことだが…
- プロジェクトサイトはPath to Multimodal Generalist、リーダーボードはPath to Multimodal Generalist
下記サーベイも注目
- A Survey of AI Agent Protocols [35.4]
大きな言語モデル(LLM)エージェントが外部ツールやデータソースと通信する標準的な方法はありません。 この標準化されたプロトコルの欠如は、エージェントが協力したり、効果的にスケールするのを難しくする。 LLMエージェントの統一通信プロトコルは、これを変更できる。
論文 参考訳(メタデータ) (Wed, 23 Apr 2025 14:07:26 GMT)
- 「In this paper, we provide a systematic overview of existing communication protocols for LLM agents.」とAgent間の通信プロトコルのサーベイ。
- 様々なモチベーションで設計も様々。
- WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents [55.6]
本研究では,大規模言語モデル(LLM)を補完する環境の記号的知識を学習する「世界アライメント」を提案する。 また、モデル予測制御フレームワークを用いて、RLフリーでモデルベースエージェント「WALL-E 2.0」を提案する。 WALL-E 2.0は、火星(Minecraftのような)とALFWorld(emboded indoor environment)のオープンワールド課題における既存の手法を著しく上回っている
論文 参考訳(メタデータ) (Tue, 22 Apr 2025 10:58:27 GMT)
- 「Can we build accurate world models out of large language models (LLMs)? How can world models benefit LLM agents?」から始まる論文。「We have demonstrated that LLMs can effectively serve as world models for agents when aligned with environment dynamics via neurosymbolic knowledge learning.」で既存ベンチマークで効果を確認とのこと。
- リポジトリはGitHub – elated-sawyer/WALL-E: Official code for the paper: WALL-E: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
- Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.1]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは、計画、分析、生成の3段階で動作する。 これは、最近リリースされたPaperBenchベンチマークで一貫して強みを示している。
論文 参考訳(メタデータ) (Thu, 24 Apr 2025 01:57:01 GMT)
- 「(1) Planning, where a high-level implementation plan is constructed based on the paper’s content, including overall plan, architectural design, logic design, and configuration files; (2) Analyzing, where the plan is translated into detailed file-level specifications; and (3) Coding, where the final codes are generated to implement the paper’s methods and experiments.」という三段階のフレームワークの提案。
- 「Results show that 77% of participants preferred PaperCoder’s implementation over alternatives, and 83% found the outputs practically useful for real-world usage.」と他の実装と比べてよいだけでなく一定有用そうなのも興味深い。
- Exploring Expert Failures Improves LLM Agent Tuning [76.3]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。 EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 17:53:54 GMT)
- 「In this paper, we present EEF, a novel framework that learns beneficial actions from negative expert data while remaining robust against noise from suboptimal actions.」、WebShopと SciWorldベンチマークでSoTAを主張
- Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [133.5]
大規模言語モデル(LLM)の出現は、人工知能の変革的シフトを触媒している。 これらのエージェントがAI研究と実践的応用をますます推進するにつれて、その設計、評価、継続的な改善は複雑で多面的な課題を呈している。 この調査は、モジュール化された脳にインスパイアされたアーキテクチャ内でインテリジェントエージェントをフレーミングする、包括的な概要を提供する。
論文 参考訳(メタデータ) (Mon, 31 Mar 2025 18:00:29 GMT)
- 「This survey provides a comprehensive overview, framing intelligent agents within a modular, brain-inspired architecture that integrates principles from cognitive science, neuroscience, and computational research.」という非常に包括的なサーベイ。
- リポジトリはGitHub – FoundationAgents/awesome-foundation-agents: About Awesome things towards foundation agents. Papers / Repos / Blogs / …
- PaperBench: Evaluating AI’s Ability to Replicate AI Research [3.5]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。 エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。 PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 15:55:24 GMT)
- OpenAIによる「PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research.」の提案。
- リポジトリはGitHub – openai/preparedness: Releases from OpenAI Preparedness
- Inducing Programmatic Skills for Agentic Tasks [54.0]
本研究では,エージェントがプログラムベースのスキルをその場で誘導し,検証し,活用することで,エージェントの適応を可能にするエージェントスキル誘導(ASI)を提案する。 ASIは静的ベースラインエージェントとテキストスキルを23.5%、成功率11.3%で上回っている。
論文 参考訳(メタデータ) (Wed, 09 Apr 2025 12:25:37 GMT)
- 「We present ASI, namely agent skill induction (§2), that induces and applies programmatic skills along the process of solving user web navigation queries. More concretely, given a natural language (NL) query, the agent first generates an action trajectory attempting to solve the task using built-in, primitive actions such as click and scroll.」という感じでスキルの表現にプログラムコードを用いる手法の提案と有効性の検証。
- 曖昧さを含め、表現力・抽象化の方法などかなり異なる自然言語と形式言語の使い分けが重要なのかなーと思わなくもない。
- リポジトリはGitHub – zorazrw/agent-skill-induction: Agent Skill Induction: “Inducing Programmatic Skills for Agentic Tasks”
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.9]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。 本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 17:40:47 GMT)
- 「In this work, we proposed IAD : an iterative decoding approach for AI agent alignment with black box access which highlights the effectiveness of iterative decoding (guided by a verifier) for these complex agentic tasks.」と(よくある)API利用を前提としたエージェントのパフォーマンス改善手法の提案。