2024年11月12日 – arXiv最新論文の紹介

GUI Agents with Foundation Models: A Comprehensive Survey

GUI Agents with Foundation Models: A Comprehensive Survey [53.0]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文参考訳（メタデータ） (Thu, 07 Nov 2024 17:28:10 GMT)
MLLMベースのGUIエージェントのサーベイ
研究が進んでいると思ったらサーベイが発表されるスピード感がこの分野の現状を表していると思う。

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark [44.7]
MMAUは、人間の注釈付き自然言語の質問と回答とを合わせた、注意深く編集された10kのオーディオクリップで構成されている。これには、情報抽出と推論の質問が含まれており、モデルは、ユニークで困難なタスクにまたがる27の異なるスキルを実証する必要がある。我々は18のオープンソースおよびプロプライエタリなAudio-Language Modelを評価し、MMAUがもたらす重大な課題を実証した。
論文参考訳（メタデータ） (Thu, 24 Oct 2024 21:20:10 GMT)
音声（speech, sounds, music）を軸とした理解・推論のベンチマーク。GPT-4o、Gemini Pro 1.5の性能が高めだが、「Our evaluations of 18 open-source and proprietary LALMs reveal that even the overall best model achieves only 59% accuracy on MMAU, highlighting the significant challenges it poses.」とのこと。人間のスコア（約80%）との差も大きい。
リポジトリはMMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

DynaSaur: Large Language Agents Beyond Predefined Actions [108.8]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。動作の動的生成と構成をオンラインで実現するLLMエージェントフレームワークを提案する。 GAIAベンチマーク実験により, このフレームワークは柔軟性が向上し, 従来の手法よりも優れていたことが確認された。
論文参考訳（メタデータ） (Mon, 04 Nov 2024 02:08:59 GMT)
Agenticな動きの各ステージをPythonコードとしコード生成を使うことによって柔軟性を増したフレームワークの提案。「We have explored an LLM agent framework that implements its own actions as Python functions to interact with the world and accumulate its generated actions over time, thus growing a toolset of actions for problem-solving in future tasks.」GAIA Leaderboard – a Hugging Face Space by gaia-benchmarkで高い性能を達成。
リポジトリはGitHub – adobe-research/dynasaur: Official repository for “DynaSaur: Large Language Agents Beyond Predefined Actions”　（現時点ではコードがアップロードされていないよう）