A Survey on LLM-as-a-Judge / From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

LLM as a judgeの必要性は至る所で指摘されていて、論文もとても多い。先週2つのサーベイがでていた。いずれも複数研究機関の研究者による共著でリポジトリを公開する形式となっている。1研究機関のチームで調査するのはしんどい時代になっているのだろうか。。。(後者のリポジトリ公開は非常にありがたい)

  • A Survey on LLM-as-a-Judge [10.3]
    大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。 LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。 LLM-as-a-Judgeシステムはどうやって構築できるのか?
    論文  参考訳(メタデータ)   (Sat, 23 Nov 2024 16:03:35 GMT)
  • リポジトリはGitHub – IDEA-FinAI/LLM-as-a-Judge
  • From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.6]
    人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。 大規模言語モデル(LLM)の最近の進歩は”LLM-as-a-judge”パラダイムを刺激している。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 17:28:44 GMT)
  • プロジェクトサイトはLLM-as-a-judge、リポジトリ(論文リストなど)はGitHub – llm-as-a-judge/Awesome-LLM-as-a-judge

Self-Generated Critiques Boost Reward Modeling for Language Models

  • Self-Generated Critiques Boost Reward Modeling for Language Models [57.6]
    Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。 実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 18:28:26 GMT)
  • 「By harnessing LLMs’ ability to generate and refine critiques, Critic-RM implements a novel self-improvement approach that improves both critique quality and reward prediction accuracy.」という結論。
  • 自己評価、自己批判を取り入れるアプローチが流行っている感がある。解釈は難しいが、生成と評価・批判は能力として異なりうまく使うことで相互の性能を上げられるということなんだろうか。(WEBには批判・批評データがとても多いからとかだとやや悲しいが、一方でそれで性能が上がるのであれば…という微妙な気持ち)

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning 

  • Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning [46.4]
    Critic-Vはアクター・クライブのパラダイムにインスパイアされたフレームワークで、視覚言語モデルの推論能力を高める。 リアソナーは視覚的およびテキスト的入力に基づいて推論パスを生成し、批判はこれらのパスを洗練するための建設的批評を提供する。 評価の結果,Critic-V フレームワークは GPT-4V を含む既存手法を8つのベンチマークのうち5つで大幅に上回っていることがわかった。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 10:28:57 GMT)

RedPajama: an Open Dataset for Training Large Language Models

  • RedPajama: an Open Dataset for Training Large Language Models [80.7]
    我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。 例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
    論文  参考訳(メタデータ)   (Tue, 19 Nov 2024 09:35:28 GMT)
  • RedPajamaの論文
  • リポジトリはGitHub – togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models.