2023年7月31日 – arXiv最新論文の紹介

WebArena

WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (Tue, 25 Jul 2023 22:59:32 GMT)
Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル（そもそも達成不可能なタスクも含まれる）で難しいタスクを扱うベンチマークとして有用そう。
プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents

PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.5]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文参考訳（メタデータ） (Thu, 27 Jul 2023 15:28:29 GMT)
大規模言語モデルをコード生成用にチューニングするRRTF (Rank Responses to align Test & Teacher Feedback)の提案、HumanEvalで優れた性能、同規模のWizardCoder以上

FacTool: Factuality Detection in Generative AI — A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.1]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文参考訳（メタデータ） (Tue, 25 Jul 2023 14:20:51 GMT)
生成AIが生成したデータに対するFact Checkツールの提案。knowledge-based QA, code generation, mathematical reasoning, scientific literature reviewで有効性を確認とのこと。
LLMを用いてクレーム検出→クエリ作成（検索エンジン等の利用）→クエリー＆エビデンス収集→検証する流れで人が行う検証と同じ手順。FACTOOL powered by GPT-4は性能が高くself check系のベースラインを大きく上回っている。
（今までであればそれぞれのステップ1つ1つが簡単ではないタスクとして扱われていたはずだが、LLMの登場で1モデルで実施可能になっている点も感慨深い。）
リポジトリはGitHub – GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI