AUTOCALIBRATE / 人間の好みに合わせたLLM利用の評価器

  • Calibrating LLM-Based Evaluator [92.2]
    マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。 人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。 複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
    論文  参考訳(メタデータ)   (Sat, 23 Sep 2023 08:46:11 GMT)
  • LLMを活用した評価器を人間の評価に寄せる手法を提案。人が評価したデータをもとに評価基準をLLMに書かせて、良い基準を選択&ICLというプロセス。
  • LLMを人っぽく使っている点が非常に興味深い。

LMSYS-Chat-1M

  • LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [76.0]
    LMSYS-Chat-1Mは,25の最先端の大規模言語モデルと100万の現実世界の会話を含む大規模データセットである。 このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
    論文  参考訳(メタデータ)   (Thu, 21 Sep 2023 12:13:55 GMT)
  • LMSYSによる大規模対話データセット。lmsys/lmsys-chat-1m · Datasets at Hugging Faceからアクセス可能。
  • 「Although most conversations are with Vicuna, we think the prompts alone are already highly valuable and one can use other models to regenerate answers if needed.」とのこと。言語は英語が圧倒的に多く、ポルトガル語、ロシア語、中国語、スペイン語と続く。unknownを除き日本語は9位?