- Measurement of LLM’s Philosophies of Human Nature [113.5]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。 現在のLSMは、人間に対する信頼の欠如を示す。 本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 03 Apr 2025 06:22:19 GMT) - 「Machinebased Philosophies of Human Nature Scale (M-PHNS)」とLLMの人間性に対する評価を行うツールの提案。「Most models exhibit varying degrees of negative tendencies, such as perceiving humans as untrustworthy, selfish, and volatile. These tendencies intensify as the intelligence level of the model increases. This phenomenon is consistent regardless of the model’s developer or whether the model is open-source.」という結果が面白い。これらを修正するフレームワークも提案しているが、これが良いのかは若干謎。
- リポジトリはkodenii/M-PHNS · GitHub
カテゴリー: arXiv
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.9]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。 本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 17:40:47 GMT) - 「In this work, we proposed IAD : an iterative decoding approach for AI agent alignment with black box access which highlights the effectiveness of iterative decoding (guided by a verifier) for these complex agentic tasks.」と(よくある)API利用を前提としたエージェントのパフォーマンス改善手法の提案。
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
- Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。 本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。 私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文 参考訳(メタデータ) (Thu, 27 Mar 2025 12:50:17 GMT) - LLMによって急速に広がるエージェントのサーベイ。「Despite remarkable progress, significant challenges remain, including scalability limitations, memory constraints, reliability concerns, and inadequate evaluation frameworks.」
- リポジトリはGitHub – luo-junyu/Awesome-Agent-Papers: Large Language Model Agent: A Survey on Methodology, Applications and Challenges
REALM: A Dataset of Real-World LLM Use Cases
- REALM: A Dataset of Real-World LLM Use Cases [69.6]
REALMはRedditやニュース記事から収集された94,000 LLMのユースケースのデータセットである。 RealmはLLMの多様な応用とユーザの人口統計の2つの重要な側面を捉えている。 LLMアプリケーションを分類し、ユーザの職業が使用するアプリケーションの種類とどのように関連しているかを調査する。
論文 参考訳(メタデータ) (Mon, 24 Mar 2025 15:39:25 GMT) - 「REALM (Real-World Application of Large Language Model Dataset) Dataset」と珍しい視点のデータセット。
- プロジェクトサイトはREALM Dataset Dashboard
Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization
- Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.7]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。 SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。 近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (Tue, 01 Apr 2025 17:59:30 GMT) - 「SR-RAG enables an LLM to dynamically decide between external retrieval and verbalizing its own parametric knowledge.」のため「SR-RAG proposes a two-stage multi-task learning framework that jointly optimizes knowledge source selection, knowledge verbalization, and response generation.」という学習フレームワークを提案。効率的な対応が可能に。
- リポジトリはGitHub – xiaowu0162/self-routing-rag
Model Hemorrhage and the Robustness Limits of Large Language Models
- Model Hemorrhage and the Robustness Limits of Large Language Models [119.5]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。 この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (Mon, 31 Mar 2025 10:16:03 GMT) - 「Model Hemorrhage refers to the phenomenon where large language models (LLMs) and their extended frameworks (e g , multimodal models) experience performance degradation, robustness weakening, or adaptability failure during training, optimization, deployment, or task adaptation」と典型的にはモデルデプロイ時の量子化で生じる性能劣化などに関する研究
Command A: An Enterprise-Ready Large Language Model
- Command A: An Enterprise-Ready Large Language Model [165.9]
コマンドAはエージェント最適化および多言語対応モデルである。 クラス内で最高のRetrieval Augmented Generation機能を提供する。
論文 参考訳(メタデータ) (Tue, 01 Apr 2025 12:08:07 GMT) - Gemma3, Command A, OLMo 2 32B, ERNIE 4.5 & X1 – arXiv最新論文の紹介のCommand Aの論文。多言語処理に強いモデルだが、言語によって性能に濃淡がある。
Agent S2, Devin 2, Amazon Nova Act, An Illusion of Progress? Assessing the Current State of Web Agents
以前取り上げたAgent Sのバージョン2が出ていた。半年でOS Worldのスコアが20.5から27.0(15Step)に上がっており、ベースモデル(LLM)の性能向上もあるだろうが着実な進化を感じる。Introducing Amazon Nova Act | Amazon AGI Labs、Cognition | Devin 2.0など発表が相次ぎGUI Agent的なLLM based Agentは流行している。
個人のサイトでもfugumt.comはFugu-MT:AgentでAgent化を行っている(OpenManusを使ったサイトへのエージェント組み込み | ぷるーふおぶこんせぷと)。容易にサイトの機能を拡張できることから、今後このようなサイトが増えてくるのではないかと思う(*1)。
そのような中「An Illusion of Progress? Assessing the Current State of Web Agents 」では「Surprisingly, many recent agents, except for Operator, do not outperform the simple SeeAct agent (Zheng et al , 2024) released in early 2024.」とも指摘されている。同論文にもある通り、正しい評価データセットやフレームワークが求められている。
- Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.3]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。 本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。 Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (Tue, 01 Apr 2025 15:40:27 GMT) - Agent S: An Open Agentic Framework that Uses Computers Like a Human – arXiv最新論文の紹介のバージョン2、全般的に性能が上がり様々なベンチマークでSoTAを主張。
- リポジトリはGitHub – simular-ai/Agent-S: Agent S: an open agentic framework that uses computers like a human
- An Illusion of Progress? Assessing the Current State of Web Agents [49.8]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。 結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。 オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 05:51:29 GMT) - WEBエージェントのためのベンチマーク。「Many recent agents, except for Operator (OpenAI, 2025), underperform the simple SeeAct agent (Zheng et al , 2024) released in early 2024. Even Operator only achieves a success rate of 61%, showing substantial room for improvement.」とのこと。
- リポジトリはGitHub – OSU-NLP-Group/Online-Mind2Web
(*1) 動きが面白いのでOpenManusをつかって無理やり対応している。今のところ実用性は疑問だが、近いうちにバージョンアップ予定。
An Approach to Technical AGI Safety and Security
- An Approach to Technical AGI Safety and Security [72.8]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。 私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。 これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 15:59:31 GMT) - Google DeepmindによるAGI Safetyに関する論文。非常に興味深い内容であり、また、「Timelines: We are highly uncertain about the timelines until powerful AI systems are developed, but crucially, we find it plausible that they will be developed by 2030.」、「Importantly, AI progress does not usually involve large discontinuous jumps in capability assuming continuous increases in inputs (Section 3.5), though the overall pace of progress may accelerate (Section 3.4).」など所々に刺激的な記載がある。
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
- Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving [26.0]
Java、TypeScript、JavaScript、Go、Rust、C、C++をカバーするマルチ言語問題解決ベンチマークであるMulti-SWE-benchを紹介します。 これには合計1,632の高品質なインスタンスが含まれており、68のエキスパートアノテータによって2,456の候補から慎重にアノテートされた。 3つの代表的手法を用いて,Multi-SWE-benchに基づく一連の最先端モデルの評価を行った。 大規模強化学習(RL)トレーニングデータセットの構築を目的とした,オープンソースコミュニティのMulti-SWE-RLを立ち上げた。
論文 参考訳(メタデータ) (Thu, 03 Apr 2025 14:06:17 GMT) - 「we introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench, covering Java, TypeScript, JavaScript, Go, Rust, C, and C++.」というある意味多言語なベンチマーク。基本的にOpenHandsの改修版であるMopenHandsが有力に見えるが、言語間で差があるのが興味深い。
- GitHub – All-Hands-AI/OpenHands: 🙌 OpenHands: Code Less, Make More、OpenHandsはIntroducing OpenHands LM 32B — A Strong, Open Coding Agent Modelとコード生成にチューニングしたLLMを作っているのも面白い。
- リポジトリはGitHub – multi-swe-bench/multi-swe-bench: Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving、リーダーボードはMulti-SWE-bench
- 「Multi-SWE-RL is an open-source community aimed at developing high-quality RL training datasets for complex software engineering tasks. Its purpose is to serve as the foundational infrastructure for training fully autonomous agents capable of addressing real-world software engineering challenges, paving the way toward achieving AGI.」とAGIに言及があるのと「In light of these advancements, we are firmly convinced that “scaling RL in real-world environments is the path toward human-like intelligence”.」は熱い。