2024年7月26日 – arXiv最新論文の紹介

GTA: A Benchmark for General Tool Agents

GTA: A Benchmark for General Tool Agents [32.4]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。 GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文参考訳（メタデータ） (Thu, 11 Jul 2024 17:50:09 GMT)
リアルなシナリオでツールを利用して問題を解くエージェントの能力を評価するベンチマーク。想定されているツールはOCRやDrawBox、Calculator、TextToImageなど14種類。「Our findings show that realworld user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%.」とのこと。
リポジトリはGitHub – open-compass/GTA: Official repository for paper “GTA: A Benchmark for General Tool Agents”

sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting [27.1]
本稿では,多言語合成指導調律データセット sPhinX を作成するための新しいレシピを提案する。 SPhinXは、命令応答対を英語から50言語に選択的に翻訳することで作成される。 Phi-3-Small と Mistral-7B の2つの最先端モデルを微調整するために sPhinX の有効性を検証した。
論文参考訳（メタデータ） (Sat, 13 Jul 2024 13:03:45 GMT)
「To mitigate this issue, we prompt GPT-4 to selectively translate the instructions, so that the tasks are translated into the appropriate language without changing the semantic meaning.」とLLMを用いた機械翻訳を有効に使った多言語fine tuning。
「We devise LAnguage-Specific N-shot Guided Instruction fine-tuning (LANG) strategy for enhancing the multilingual capabilities of LLMs」を含め有効だとは思うのだが現時点ではライセンス上使いにくい・・・（ライセンス的にOKなNemotronだと現実的なのか気になるところ）

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文参考訳（メタデータ） (Sun, 14 Jul 2024 03:05:53 GMT)
Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer（個人名に対する質問への回答拒否）とContrastive Data Augmentation（個人に対する質問を拡張しデータ不足を解消）を用いたNAUF: Name-Aware Unlearning Framework で優れた性能を達成と報告。
リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”