Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [645.0] 言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。 ビッグベンチは204のタスクで構成され、132の機関で442人の著者が貢献している。 我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。 論文参考訳(メタデータ) (Thu, 9 Jun 2022 17:05:34 GMT)
204タスクからなる大規模ベンチマークと大規模言語モデルを用いた評価の報告。
著者が極めて多く、スコア=645はfugumt.com内で最高。
大規模言語モデルを用いたAIでも総合的には人間は及ばない、開発者(OpenAI or Google)が異なっていてもAIは似た挙動を示すなど非常に興味深い。
「During the writing of this work, results for the Pathways Language Model (PaLM) on BIG-bench were published (Chowdhery et al., 2022) and we included them in Figure 1. Most of the analysis in the paper is focused on results from models we evaluated BIG-bench on.」とのことで、この分野は進展が速すぎるという印象