コンテンツへスキップ
- MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.6]
我々はMINTベンチマークを導入し、大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価する。 LLMは一般的に、ツールインタラクションと言語フィードバックの恩恵を受けます。
論文 参考訳(メタデータ) (Tue, 19 Sep 2023 15:25:42 GMT)
- マルチターンインタラクションを前提としたベンチマークの提案。「Better single-turn performance does not guarantee better multi-turn performance.」「Surprisingly, on LLMs we evaluated, we found supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities.」という結果が興味深い。SIFTやRLHFが悪影響を与えるのは本当なんだろうか。。(フィードバックにGPT-4を用いている影響があるのかは知りたいところ。text-bisonでフィードバックをした場合に同傾向なのかなどが気になる)