MINT: Multi-turn INTeraction ベンチマーク

  • MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.6]
    我々はMINTベンチマークを導入し、大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価する。 LLMは一般的に、ツールインタラクションと言語フィードバックの恩恵を受けます。
    論文  参考訳(メタデータ)   (Tue, 19 Sep 2023 15:25:42 GMT)
  • マルチターンインタラクションを前提としたベンチマークの提案。「Better single-turn performance does not guarantee better multi-turn performance.」「Surprisingly, on LLMs we evaluated, we found supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities.」という結果が興味深い。SIFTやRLHFが悪影響を与えるのは本当なんだろうか。。(フィードバックにGPT-4を用いている影響があるのかは知りたいところ。text-bisonでフィードバックをした場合に同傾向なのかなどが気になる)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です