コンテンツへスキップ
- Agent-as-a-Judge: Evaluate Agents with Agents [61.3]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。 これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (Mon, 14 Oct 2024 17:57:02 GMT)
- LLM-as-a-Judgeならぬ、Agent-as-a-Judge。確かに有効なのだろうと思う。「We benchmark three of the popular agentic systems using Agent-as-a-Judge and find it dramatically outperforms LLM-as-a-Judge and is as reliable as our human evaluation baseline.」とのこと。
- データセットがDEVAI-benchmark (DEVAI-benchmark)で公開されている。
- Underwater Object Detection in the Era of Artificial Intelligence: Current, Challenge, and Future [119.9]
水中物体検出(UOD)は、水中の画像やビデオ中の物体を識別し、ローカライズすることを目的としている。 近年、人工知能(AI)に基づく手法、特に深層学習法は、UODにおいて有望な性能を示している。
論文 参考訳(メタデータ) (Tue, 08 Oct 2024 00:25:33 GMT)
- 水中の物体認識に関するサーベイ。
- リポジトリはGitHub – LongChenCV/UODReview
- Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.6]
Agent Security Bench (ASB) は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するためのフレームワークである。 我々は, インジェクション攻撃10件, メモリ中毒攻撃, 新規のPlan-of-Thoughtバックドア攻撃, 混合攻撃10件, 対応するバックボーン13件についてベンチマークを行った。 ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 16:30:47 GMT)
- エージェントに対する攻撃と防御のベンチマーク。基礎性能が高くないとそもそもASRが低いが、性能が高いと攻撃を拒否することも可能になるように見える。結果が興味深い。
- リポジトリはGitHub – agiresearch/ASB: Agent Security Bench (ASB)
- GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs [38.3]
GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。 パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。 我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
論文 参考訳(メタデータ) (Fri, 04 Oct 2024 17:51:33 GMT)
- (1) task proposal, (2) solver creation, (3) multi-task training, and (4) generalization evaluation and sim-to-real transfer.からなるフレームワークの提案。各所にLLM、MLLMを活用しながらデータ合成を行っていくアプローチ。(NLPのライブラリ gensimではない)
- プロジェクトサイトはGenSim2: Scaling Robotic Data Generation with Multi-modal and Reasoning LLMs
- GenSim: A General Social Simulation Platform with Large Language Model based Agents [110.4]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。 我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。 我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (Sun, 06 Oct 2024 05:02:23 GMT)
- 大規模なLLM based Agentのシミュレーションプラットフォーム(これもNLPのgemsimではない)
- リポジトリはGitHub – TangJiakai/GenSim
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.9]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (Tue, 01 Oct 2024 15:11:24 GMT)
- マルチモーダル、かつ、マルチストラクチャなデータを取り扱うタスクに対するベンチマークの提案。GPT-4oでもスコアは相当低いが、OpenAI o1に向くタスクな気もしていてo1を含むシステムで試してみたいところ。
- リポジトリはGitHub – FFD8FFE/babelbench
- DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life [46.1]
日常生活で遭遇した1,360の道徳的ジレンマのデータセットであるDailyDilemmasを提示する。 それぞれのジレンマは2つの可能なアクションを含み、それぞれのアクションでは、影響を受ける当事者と人間の価値が呼び出される。 我々は、社会学、心理学、哲学に触発された5つの一般的な理論のレンズを通して、これらの価値を分析した。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:08:52 GMT)
- 道徳的ジレンマのデータセット
- リポジトリはhttps://github.com/kellycyy/daily_dilemmas
- LLMs Are In-Context Reinforcement Learners [30.2]
大規模言語モデル(LLM)は、コンテキスト内教師あり学習(ICL)を通じて新しいタスクを学習することができる。 この研究は、この能力が文脈内強化学習(ICRL)にまで拡張されるかどうかを研究する。 本稿では、テスト時間計算の増加と計算バウンド近似により、この欠陥に対処するアルゴリズムを提案する。
論文 参考訳(メタデータ) (Mon, 07 Oct 2024 17:45:00 GMT)
- 「ICRL is a natural combination of ICL and reinforcement learning (RL).Instead of constructing the LLM context from supervised input-output pairs, the LLM context is constructed using triplets consisting of input, model output prediction, and the corresponding rewards.」というスタイルのインコンテキスト強化学習の提案。ナイーブな実装がうまくいかないのが興味深い。「Its poor performance is due to its incapacity to explore the output space.」とのこと。
- プロジェクトサイトはLLMs Are In-Context Reinforcement Learners (lil-lab.github.io)
- A Survey on In-context Learning [77.8]
In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。 まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。 次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
論文 参考訳(メタデータ) (Fri, 27 Sep 2024 02:55:06 GMT)
- In-context learningのサーベイ