Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena
Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.7] AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。 Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。 ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。 論文参考訳(メタデータ) (Mon, 15 Jul 2024 11:26:07 GMT)
ChatBot Arenaの評価を再現する環境をAIで実現、「This paper introduces Arena Learning, a simulated offline chatbot arena that utilizes AI LLMs to bypass the manual and time-intensive cost typically associated with preparing the arena battle data, while preserving the core advantages of the arena-based evaluation and training.」、「Furthermore, the model trained iteratively on synthetic data generated by Arena Learning exhibits significant performance improvements using various training strategies.」とのこと。