The Generative AI Paradox on Evaluation 

  • The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate [17.8]
    本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。 質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 06:16:08 GMT)
  • 問題解決と評価能力は別なのでは?という問いへの検証。「Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks」とのこと
  • TriviaQA での検証だが、おそらくタスクやデータセットによって異なるんだろうとは思う。評価用に生成AIを使うことは多いがそろそろGPT-4が他を圧倒というわけでもなくなっているので興味深い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です