Autonomous Agent – ページ 11 – arXiv最新論文の紹介

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents [46.8]
大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。 Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 06:10:01 GMT)
モバイルエージェント向けベンチマーク
リポジトリはhttps://github.com/XiaoMi/MobileBenchとのこと（arXivへの公開時点では404）

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.6]
BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。私たちはまず『Understanding Literature』を2つの原子能力に分解した。次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。 2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
論文参考訳（メタデータ） (Sat, 29 Jun 2024 15:23:28 GMT)
biomedical分野向けのAIエージェントベンチマーク。「Knowledge Graph Question Answering」、「Scientific Claim Verification」を基礎的能力としてKGCheckという総合的なタスクを提案
リポジトリはGitHub – westlake-autolab/Agent4S-BioKG: Agent4S-BioKG: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

MMedAgent

MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [26.3]
本報告では,医療分野向けに設計された最初のエージェントである Multi-modal Medical Agent (MMedAgent) を紹介する。本研究では,7つのタスクを解く6つの医療ツールからなる指導訓練データセットをキュレートし,与えられたタスクに最適なツールをエージェントが選択できるようにする。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (Tue, 2 Jul 2024 17:58:23 GMT)
マルチモーダルな医療用エージェントの提案、様々なツール（各タスクのSOTAな手法）を使いながら問題を解き優れた性能とのこと

MIRAI: Evaluating LLM Agents for Event Forecasting

MIRAI: Evaluating LLM Agents for Event Forecasting [22.5]
我々は,国際イベントの文脈において,LLMエージェントを時間予測器として評価するための新しいベンチマークであるMIRAIを紹介する。本ベンチマークでは,歴史的,構造化されたイベントやテキストニュース記事の広範なデータベースにアクセスするためのツールを備えたエージェント環境を特徴とする。まとめると、MIRAIはエージェントの能力を3つの次元で総合的に評価する。1) 大規模グローバルデータベースから重要な情報を自律的にソースし統合すること、2) ドメイン固有のAPIとツール使用のためのライブラリを使ってコードを書くこと、3) 多様なフォーマットや時間から歴史的知識を共同で引き継ぎ、将来的な事象を正確に予測すること。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 12:22:46 GMT)
AIエージェントが未来を予測できるかを測るためのベンチマーク。「We finalized a collection of 991,759 GDELT event records, corresponding to 59,161 unique events and 296,630 unique news articles. Our test set contains 705 query and answer pairs on forecasting an event of given timestamp between two countries, with a 100 balanced test subset.」（GDELT=The GDELT Project）と大規模。
リポジトリはMIRAI: Evaluating LLM Agents for Event Forecasting (mirai-llm.github.io)

LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing

LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.5]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (Mon, 24 Jun 2024 01:30:22 GMT)
LLMが研究者を支援できるかどうか、レビュワー・メタレビュワーの観点で試行した論文
結論として「Our analysis reveals that while LLMs can generate reviews, they often produce Deficient and paper-unspecific segments, lacking the diversity and constructive feedbacks.Additionally, even state-of-the-art LLMs struggle to assess review deficiencies effectively.」

SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation

SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation [45.4]
本稿では,Self-Aware Knowledge Retrieval (SeaKR)を紹介する。 SeaKRは, LLMの自己認識不確かさを内部状態から抽出する適応RAGモデルである。複雑で単純な問合せ解答データセットを用いた実験により,SeaKRが既存の適応RAG法より優れていることが示された。
論文参考訳（メタデータ） (Thu, 27 Jun 2024 14:38:33 GMT)
「SEAKR activates retrieval when the LLMs present high self-aware uncertainty for generation.」という戦略のRAG。Agenticで複雑な動作でFLARE（Fugu-MT 論文翻訳(概要): Active Retrieval Augmented Generation (fugumt.com)）やDRAGIN（Fugu-MT 論文翻訳(概要): DRAGIN: Dynamic Retrieval Augmented Generation based on the Real-time Information Needs of Large Language Models (fugumt.com)）を上回る。
リポジトリはGitHub – THU-KEG/SeaKR

AgileCoder

AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology [5.2]
アジャイル方法論をフレームワークに統合するマルチエージェントシステムであるAgileCoderを提案する。このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。また、動的コードグラフ生成(Dynamic Code Graph Generator)も導入しています。
論文参考訳（メタデータ） (Sun, 16 Jun 2024 17:57:48 GMT)
コード生成においてAgentをAgile的に動かすことが効果的だったという報告。ほんまかいなと思う一方でソフトウエア開発プロセスの評価を定量的にできる可能性があり興味深い。
プロジェクトサイトはGitHub – FSoft-AI4Code/AgileCoder: Dynamic Collaborative Agents for Software Development

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector [114.9]
幻覚検出は大規模言語モデル(LLM)にとって難しい課題である本稿では,HluAgentと呼ばれる自律型LLMエージェントフレームワークを提案する。 HaluAgentでは、LLM、多機能ツールボックスを統合し、きめ細かい3段階検出フレームワークを設計する。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 07:30:05 GMT)
7B, 13Bと小型のLLMをfine tuneし優れた性能をもつハルシネーション検知エージェントの提案。複数のツール(検索エンジンやコード実行環境など)を使い分けるアプローチでfine tuning用データはGPT-4から得ている。
（GPT-4だとライセンス上の問題があるが）Nemotronなどこのアプローチをとっても問題ないLLMが出てきており本手法は有望そうに思える。
リポジトリはGitHub – RUCAIBox/HaluAgent

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools [119.3]
本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 GLM-4モデルは、主に中国語と英語で10兆のトークンと、24言語からの小さなコーパスで事前訓練されている。高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。
論文参考訳（メタデータ） (Tue, 18 Jun 2024 16:58:21 GMT)
「GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)」にも関連する論文、最近は論文公開前にWEBで情報が出ることが多い気がする。基礎能力として「1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval,2) gets close to GPT-4-Turbo in instruction following as measured by IFEval,3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and4) outperforms GPT-4 in Chinese alignments as measured by AlignBench.」と強力であり、「Built on the GLM-4’s all-tools capabilities, we also developed the GLMs application platform that allows users to create and customize their own agents for specific tasks.」とエージェント的動作のプラットフォームも存在するよう。
リポジトリはTHUDM · GitHub　サイトは智谱清言 (chatglm.cn)

Mixture-of-Agents Enhances Large Language Model Capabilities

Mixture-of-Agents Enhances Large Language Model Capabilities [34.7]
我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。 MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
論文参考訳（メタデータ） (Fri, 07 Jun 2024 07:04:10 GMT)
名前からしても強力そうなMixture-of-Agents、階層型で複数のLLMの結果を踏まえて解を求めていく動作のよう。オープンソースモデル（Qwen1.5 110B-Chat、Qwen1.5 72B-Chat、WizardLM-8x22B、 LLaMA-3-70B-Instruct 、 Mixtral-8x22B-v0.1、dbrx-instruct）の複合でGPT-4oを上回ったのは凄い。
リポジトリはGitHub – togethercomputer/MoA

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31