VISA: Retrieval Augmented Generation with Visual Source Attribution

  • VISA: Retrieval Augmented Generation with Visual Source Attribution [100.8]
    RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。 本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。 本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 02:17:35 GMT)
  • 回答の根拠として文書内にバウンディングボックスを提示するRetrieval-Augmented Generation with Visual Source Attribution (VISA)の提案
  • 現実的で重要なタスク。コードやデータセットなど公開予定とのこと。

LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

  • TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.5]
    私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。 最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。 これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:55:40 GMT)
  • 「TheAgentCompany measures the progress of these LLM agents’ performance on performing real-world professional tasks, by providing an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers.」というベンチマーク。現状、Claude 3.5 Sonnetの性能が高い結果になっているが、o1やo3での結果が気になるところ。
  • プロジェクトサイトはTheAgentCompany、リーダーボードはTheAgentCompany