Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents 

  • Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.6]
    Agent Security Bench (ASB) は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するためのフレームワークである。 我々は, インジェクション攻撃10件, メモリ中毒攻撃, 新規のPlan-of-Thoughtバックドア攻撃, 混合攻撃10件, 対応するバックボーン13件についてベンチマークを行った。 ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 16:30:47 GMT)
  • エージェントに対する攻撃と防御のベンチマーク。基礎性能が高くないとそもそもASRが低いが、性能が高いと攻撃を拒否することも可能になるように見える。結果が興味深い。
  • リポジトリはGitHub – agiresearch/ASB: Agent Security Bench (ASB)

GenSim2

  • GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs [38.3]
    GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。 パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。 我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
    論文  参考訳(メタデータ)   (Fri, 04 Oct 2024 17:51:33 GMT)
  •  (1) task proposal, (2) solver creation, (3) multi-task training, and (4) generalization evaluation and sim-to-real transfer.からなるフレームワークの提案。各所にLLM、MLLMを活用しながらデータ合成を行っていくアプローチ。(NLPのライブラリ gensimではない)
  • プロジェクトサイトはGenSim2: Scaling Robotic Data Generation with Multi-modal and Reasoning LLMs
  • GenSim: A General Social Simulation Platform with Large Language Model based Agents [110.4]
    我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。 我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。 我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
    論文  参考訳(メタデータ)   (Sun, 06 Oct 2024 05:02:23 GMT)
  • 大規模なLLM based Agentのシミュレーションプラットフォーム(これもNLPのgemsimではない)
  • リポジトリはGitHub – TangJiakai/GenSim

MatMamba: A Matryoshka State Space Model

  • MatMamba: A Matryoshka State Space Model [24.9]
    MatMambaはMatryoshkaスタイルの学習とMamba2を組み合わせた状態空間モデルである。 MatMambaは、様々なモデルサイズにまたがる効率的で適応的なデプロイメントを可能にする。 言語モデルと画像モデルは,35Mから1.4Bまでのパラメータサイズで訓練する。
    論文  参考訳(メタデータ)   (Wed, 09 Oct 2024 09:41:34 GMT)
  • マトリョーシカ構造のMamba、「We train a single large MatMamba model and are able to get a number of smaller nested models for free – while maintaining or improving upon the performance of a baseline smaller model trained from scratch.」という利点がある。加えて(Mambaだから)高解像度ではViTより優れているとのこと。
  • リポジトリはGitHub – ScaledFoundations/MatMamba: Code and pretrained models for the paper: “MatMamba: A Matryoshka State Space Model”

BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data

  • BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.9]
    大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
    論文  参考訳(メタデータ)   (Tue, 01 Oct 2024 15:11:24 GMT)
  • マルチモーダル、かつ、マルチストラクチャなデータを取り扱うタスクに対するベンチマークの提案。GPT-4oでもスコアは相当低いが、OpenAI o1に向くタスクな気もしていてo1を含むシステムで試してみたいところ。
  • リポジトリはGitHub – FFD8FFE/babelbench

DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life

  • DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life [46.1]
    日常生活で遭遇した1,360の道徳的ジレンマのデータセットであるDailyDilemmasを提示する。 それぞれのジレンマは2つの可能なアクションを含み、それぞれのアクションでは、影響を受ける当事者と人間の価値が呼び出される。 我々は、社会学、心理学、哲学に触発された5つの一般的な理論のレンズを通して、これらの価値を分析した。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 17:08:52 GMT)
  • 道徳的ジレンマのデータセット
  • リポジトリはhttps://github.com/kellycyy/daily_dilemmas

LLMs Are In-Context Reinforcement Learners

  • LLMs Are In-Context Reinforcement Learners [30.2]
    大規模言語モデル(LLM)は、コンテキスト内教師あり学習(ICL)を通じて新しいタスクを学習することができる。 この研究は、この能力が文脈内強化学習(ICRL)にまで拡張されるかどうかを研究する。 本稿では、テスト時間計算の増加と計算バウンド近似により、この欠陥に対処するアルゴリズムを提案する。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 17:45:00 GMT)
  • 「ICRL is a natural combination of ICL and reinforcement learning (RL).Instead of constructing the LLM context from supervised input-output pairs, the LLM context is constructed using triplets consisting of input, model output prediction, and the corresponding rewards.」というスタイルのインコンテキスト強化学習の提案。ナイーブな実装がうまくいかないのが興味深い。「Its poor performance is due to its incapacity to explore the output space.」とのこと。
  • プロジェクトサイトはLLMs Are In-Context Reinforcement Learners (lil-lab.github.io)

A Survey on In-context Learning 

  • A Survey on In-context Learning [77.8]
    In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。 まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。 次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 02:55:06 GMT)
  • In-context learningのサーベイ

Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement

  • Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.9]
    G”odel AgentはG”odelマシンにインスパイアされた自己進化型フレームワークである。 G”odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
    論文  参考訳(メタデータ)   (Sun, 06 Oct 2024 10:49:40 GMT)
  • 「we introduce G¨odel Agent, a self-evolving framework inspired by the G¨odel machine, enabling agents to recursively improve themselves without relying on predefined routines or fixed optimization algorithms.」と自己改善していけるエージェントを提案、効果を確認とのこと。エージェント的改善を行っていくフレームワークでLLM自体を改善するような実装ではなさそう。
  • 「Currently, G¨odel Agent is not sufficiently stable and may be prone to error accumulation, hindering its ability to continue self-optimization.」とのことではあるが、この手の研究が進んでいくのは未来を感じる。
  • リポジトリはGitHub – Arvid-pku/Godel_Agent: Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement

DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory

Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models

  • Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [105.0]
    我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。 我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。 実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 11:23:18 GMT)
  • 「Our key idea is to decompose and extract language-agnostic ability-related weights from LLMs, and transfer them across different languages by simple addition and subtraction operations without training.」という多言語能力の抽出とそのモデルマージ手法、MEAT: Multi-lingual Ability Extraction and Transfer approachを提案。「Our approach MAET achieves better performance than the competitive baseline methods (e g , continual pre-training and model merging with task vector) in multi-lingual complex reasoning tasks, including mathematical reasoning tasks and scientific reasoning tasks.」とのこと。
  • リポジトリはhttps://github.com/RUCAIBox/MAET