2024年12月26日 – arXiv最新論文の紹介

VISA: Retrieval Augmented Generation with Visual Source Attribution

VISA: Retrieval Augmented Generation with Visual Source Attribution [100.8]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文参考訳（メタデータ） (Thu, 19 Dec 2024 02:17:35 GMT)
回答の根拠として文書内にバウンディングボックスを提示するRetrieval-Augmented Generation with Visual Source Attribution (VISA)の提案
現実的で重要なタスク。コードやデータセットなど公開予定とのこと。

LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods [21.6]
「LLMs-as-judges」は自然言語応答に基づく評価器である。本稿では,5つの重要な視点から’LLMs-as-judges’パラダイムを包括的に調査する。我々は,研究と実践の両方において,’LLMs-as-judges’の開発と適用に関する洞察を提供することを目的としている。
論文参考訳（メタデータ） (Sat, 07 Dec 2024 08:07:24 GMT)
最近多い、LLMs-as-Judgesのサーベイ。複数束ねるアプローチが多くなってきている印象もある
リポジトリGitHub – CSHaitao/Awesome-LLMs-as-Judges: The official repo for paper, LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods.も参考になる

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.5]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文参考訳（メタデータ） (Wed, 18 Dec 2024 18:55:40 GMT)
「TheAgentCompany measures the progress of these LLM agents’ performance on performing real-world professional tasks, by providing an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers.」というベンチマーク。現状、Claude 3.5 Sonnetの性能が高い結果になっているが、o1やo3での結果が気になるところ。
プロジェクトサイトはTheAgentCompany、リーダーボードはTheAgentCompany