2024年8月13日 – arXiv最新論文の紹介

RAGEval

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.5]
既存のRAGベンチマークは主に、大言語モデルが一般的な知識に正しく答えられるかどうかを評価することに焦点を当てている。本稿では,評価データセットを自動生成するフレームワークであるRAGEvalを紹介する。 LLMが生み出す応答を慎重に評価するために, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
論文参考訳（メタデータ） (Fri, 02 Aug 2024 13:35:11 GMT)
RAGを評価するベンチマークの自動生成フレームワーク。DRAGONBall dataset（Diverse RAG Omni-Benchmark for All domains）って・・・。
分析結果から見えるGenerate、Retrieverそれぞれのモデルの性能が興味深い。結論には「Notably, while GPT-4o showed superior performance overall, the gap with top-performing open-source models was relatively small.」という指摘も。

CARE: A Clue-guided Assistant for CSRs to Read User Manuals [21.9]
ユーザマニュアル、特に情報豊富なものを読む際に、顧客サービス表現(CSR)のための読書アシスタントを構築するのに時間がかかります。本稿では,CSRのための時間節約かつ注意深い読解支援システムであるCAREを提案する。これにより、CSRは明示的な手がかりチェーンを通じて、ユーザマニュアルから適切なレスポンスを素早く見つけることができる。
論文参考訳（メタデータ） (Wed, 07 Aug 2024 08:44:44 GMT)
CARE: Clue-guided Assistant for CSRs to REad user manuals の提案。現実的なユースケース
「To overcome the shortage of supervised data, we adopt the self-supervised strategy for model learning.」など近年のLLMのみのアプローチとは異なる点が興味深い。

Self-Taught Evaluators [77.9]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (Mon, 05 Aug 2024 17:57:02 GMT)
基本的に簡単ではない評価を行うモデルを合成データ経由で作る研究。
「Our Self-Taught evaluator with iterative training over these synthetic preferences greatly boosts the accuracy of a strong seed LLM (Llama3-70B-Instruct) as an evaluator, from 75.4 to 88.7 on RewardBench, a new state-ofthe-art for generative LLM-as-a-Judge methods.」とのこと。通常のモデル構築における合成データの有効性を鑑みると驚きではないものの、（これ以外でも最近のself-なんとかな報告を見ると）この方向性を突き詰めるとAGIに・・・という気がしないでもない。

Self taughtだとSTaR（Self-Taught Reasoner）関連も面白い。

Lean-STaR: Learning to Interleave Thinking and Proving [53.9]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (Sun, 14 Jul 2024 01:43:07 GMT)

Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.6]
自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
論文参考訳（メタデータ） (Thu, 14 Mar 2024 17:58:16 GMT)

STaR: Bootstrapping Reasoning With Reasoning [39.5]
自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 03:12:15 GMT)