- VISA: Retrieval Augmented Generation with Visual Source Attribution [100.8]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。 本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。 本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文 参考訳(メタデータ) (Thu, 19 Dec 2024 02:17:35 GMT) - 回答の根拠として文書内にバウンディングボックスを提示するRetrieval-Augmented Generation with Visual Source Attribution (VISA)の提案
- 現実的で重要なタスク。コードやデータセットなど公開予定とのこと。