A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [59.5] GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。 実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。 論文参考訳(メタデータ) (Sat, 18 Mar 2023 14:02:04 GMT)
MEGA: Multilingual Evaluation of Generative AI [6.3] 生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。 これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。 論文参考訳(メタデータ) (Wed, 22 Mar 2023 13:03:10 GMT)
データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大