CoverBench: A Challenging Benchmark for Complex Claim Verification 

  • CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
    複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。 低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
    論文  参考訳(メタデータ)   (Tue, 6 Aug 2024 17:58:53 GMT)
  • LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
  • リポジトリはgoogle/coverbench · Datasets at Hugging Face

Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers

  • Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.2]
    本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。 DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
    論文  参考訳(メタデータ)   (Sat, 03 Aug 2024 08:07:03 GMT)
  • 下流タスクをターゲットとした攻撃手法の提案。downstream transfer attacks (DTAs)は有効とのこと。また、「We also found that emerging PETL methods like LoRA are more susceptible to transfer attacks crafted on the pre-trained model.」という指摘はそうだろうと思いつつ、有用な方法なので頭が痛い。

EfficientRAG: Efficient Retriever for Multi-Hop Question Answering 

  • EfficientRAG: Efficient Retriever for Multi-Hop Question Answering [52.6]
    マルチホップ質問応答のための効率的な検索器であるEfficientRAGを紹介する。 実験の結果、EfficientRAGは3つのオープンドメインのマルチホップ質問応答データセット上で既存のRAG手法を超越していることがわかった。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 06:57:49 GMT)
  • LLM callを抑えるためLabeler & Tagger、FIlterのモデルを使うタイプのRAG、合成データをうまく使ってトレーニングするアプローチ

VideoQA in the Era of LLMs: An Empirical Study

  • VideoQA in the Era of LLMs: An Empirical Study [108.4]
    Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。 本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。 分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。 しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 05:14:07 GMT)
  • MLLM時代のVideo QAに関する検証。VQAというとVisualを思い浮かべるがVideoなQAも非常に多くのモデルが発表されている。。。
  • https://github.com/doc-doc/VideoQA-LLMs がリポジトリとのことだが、現時点では404

RAG Foundry

  • RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation [8.4]
    我々は、RAGのユースケースのための大規模言語モデルを拡張するためのオープンソースのフレームワークであるRAG Foundryを紹介します。 RAG Foundryはデータ生成、トレーニング、推論、評価を単一のワークフローに統合する。 多様なRAG構成を持つLlama-3およびPhi-3モデルを拡張し,微調整することで,フレームワークの有効性を示す。
    論文  参考訳(メタデータ)   (Mon, 05 Aug 2024 15:16:24 GMT)
  • 「an open-source library dedicated to the task of RAG-augmentation of LLMs, namely fine-tuning LLMs to become better at RAG settings.」のためのフレームワーク。
  • リポジトリはGitHub – IntelLabs/RAGFoundry: Framework for specializing LLMs for retrieval-augmented-generation tasks using fine-tuning.

MoExtend: Tuning New Experts for Modality and Task Extension

Better Alignment with Instruction Back-and-Forth Translation 

  • Better Alignment with Instruction Back-and-Forth Translation [120.2]
    本稿では,世界知識を基盤とした高品質な合成データを構築するために,バック・アンド・フォース・トランスフォーメーション(back-and-forth translation)という新たな手法を提案する。 ウェブコーパスから文書が与えられた場合、Liらによって提案されたバックトランスレーション手法を用いて合成命令を生成し、キュレートする。 我々は,Web上の情報多様性と量を活用しながら,効果的なアライメントに必要な応答の品質を確保しながら,両世界の長所を組み合わさっていることを発見した。
    論文  参考訳(メタデータ)   (Thu, 08 Aug 2024 17:42:32 GMT)
  • アライメントを対象とした合成データ構築
  • backtranslation modelの構築、Filtering、Rewritingという流れ。「Overall we find that step (3) Rewriting is more effective compared to (2) Filtering, though using both offers complementary performance benefits.」というのも興味深い記述。

RAGEval

  • RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.5]
    既存のRAGベンチマークは主に、大言語モデルが一般的な知識に正しく答えられるかどうかを評価することに焦点を当てている。 本稿では,評価データセットを自動生成するフレームワークであるRAGEvalを紹介する。 LLMが生み出す応答を慎重に評価するために, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
    論文  参考訳(メタデータ)   (Fri, 02 Aug 2024 13:35:11 GMT)
  • RAGを評価するベンチマークの自動生成フレームワーク。DRAGONBall dataset(Diverse RAG Omni-Benchmark for All domains)って・・・。
  • 分析結果から見えるGenerate、Retrieverそれぞれのモデルの性能が興味深い。結論には「Notably, while GPT-4o showed superior performance overall, the gap with top-performing open-source models was relatively small.」という指摘も。

CARE: A Clue-guided Assistant for CSRs to Read User Manuals

  • CARE: A Clue-guided Assistant for CSRs to Read User Manuals [21.9]
    ユーザマニュアル、特に情報豊富なものを読む際に、顧客サービス表現(CSR)のための読書アシスタントを構築するのに時間がかかります。 本稿では,CSRのための時間節約かつ注意深い読解支援システムであるCAREを提案する。 これにより、CSRは明示的な手がかりチェーンを通じて、ユーザマニュアルから適切なレスポンスを素早く見つけることができる。
    論文  参考訳(メタデータ)   (Wed, 07 Aug 2024 08:44:44 GMT)
  • CARE: Clue-guided Assistant for CSRs to REad user manuals の提案。現実的なユースケース
  • 「To overcome the shortage of supervised data, we adopt the self-supervised strategy for model learning.」など近年のLLMのみのアプローチとは異なる点が興味深い。

Self-Taught Evaluators 

  • Self-Taught Evaluators [77.9]
    本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。 我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
    論文  参考訳(メタデータ)   (Mon, 05 Aug 2024 17:57:02 GMT)
  • 基本的に簡単ではない評価を行うモデルを合成データ経由で作る研究。
  • 「Our Self-Taught evaluator with iterative training over these synthetic preferences greatly boosts the accuracy of a strong seed LLM (Llama3-70B-Instruct) as an evaluator, from 75.4 to 88.7 on RewardBench, a new state-ofthe-art for generative LLM-as-a-Judge methods.」とのこと。通常のモデル構築における合成データの有効性を鑑みると驚きではないものの、(これ以外でも最近のself-なんとかな報告を見ると)この方向性を突き詰めるとAGIに・・・という気がしないでもない。

Self taughtだとSTaR(Self-Taught Reasoner)関連も面白い。

  • Lean-STaR: Learning to Interleave Thinking and Proving [53.9]
    証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
    論文  参考訳(メタデータ)   (Sun, 14 Jul 2024 01:43:07 GMT)
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.6]
    自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 17:58:16 GMT)
  • STaR: Bootstrapping Reasoning With Reasoning [39.5]
    自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。 結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 03:12:15 GMT)