- How is ChatGPT’s behavior changing over time? [36.9]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (Tue, 18 Jul 2023 06:56:08 GMT) - 6月バージョンのGPT-4の性能が3月バージョンより落ちているのでは?としてバズった論文。
- APIの挙動は変化するわけで総合的なタスクで評価しないと何とも言えないが、英文和訳タスクでも性能が落ちていそうだった OpenAI APIのアップデート(gpt-3.5-turbo-16k, gpt-4-0613)と機械翻訳 | ぷるーふおぶこんせぷと (staka.jp)
- OpenAIはtwitterで「Based on developer feedback, we are extending support for gpt-3.5-turbo-0301 and gpt-4-0314 models in the OpenAI API until at least June 13, 2024.(https://twitter.com/OpenAI/status/1682059830499082240?s=20)」としており、過去バージョンのサポートが伸びるのはありがたい。評価フレームワークもあるとのことGitHub – openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.。