Beyond the Imitation Game benchmark (BIG-bench)

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [645.0]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。ビッグベンチは204のタスクで構成され、132の機関で442人の著者が貢献している。我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文参考訳（メタデータ） (Thu, 9 Jun 2022 17:05:34 GMT)
- 204タスクからなる大規模ベンチマークと大規模言語モデルを用いた評価の報告。
  - 著者が極めて多く、スコア=645はfugumt.com内で最高。
- 大規模言語モデルを用いたAIでも総合的には人間は及ばない、開発者（OpenAI or Google）が異なっていてもAIは似た挙動を示すなど非常に興味深い。
  - 最近の「パラメータ数の増加（大規模化）によりAIの性能は人間に並べる」という雰囲気との整合性は謎で、5ページのPaLMの結果によって解釈が変わるレベルの影響がありそう。PaLMが無ければ総合的に人間のレベルに到達する道のりは長そうだが、PaLMの結果があると行けそうに思える。
  - 「During the writing of this work, results for the Pathways Language Model (PaLM) on BIG-bench were published (Chowdhery et al., 2022) and we included them in Figure 1. Most of the analysis in the paper is focused on results from models we evaluated BIG-bench on.」とのことで、この分野は進展が速すぎるという印象
- リポジトリはGitHub – google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models

コメントを残す

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル