2023年6月19日 – arXiv最新論文の紹介

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.7]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19のタスクをカバーしている。データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文参考訳（メタデータ） (Thu, 15 Jun 2023 17:20:46 GMT)
Knowledge Memorization (KM), Knowledge Understanding (KU) ,Knowledge Applying (KA) , Knowledge Creating (KC)の軸、19のタスクでLLMを評価する総合ベンチマークの提案。総合的にGPT-4の優秀さが目立つが評価軸やベンチマークによって性能が様々であることもわかる。
プロジェクトサイトはhttps://kola.xlore.cn、リポジトリはGitHub – THU-KEG/KoLA: The open-source repo of THU-KEG’s KoLA benchmark.

CMMLU: Measuring massive multitask language understanding in Chinese [121.8]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (Thu, 15 Jun 2023 15:49:51 GMT)
中国語の総合ベンチマーク、中国語固有の回答などが含まれるデータセットであるとのこと。正答率はChatGPTでも55.51%と難しいタスク（ランダム回答だと25%）、OSSなモデルのベストはFalcon-40Bの41.45%、LLaMA 65Bは39.80%とChatGPTからの性能差は大きい。ChatGLM-6Bの37.48%、BLOOMZ-7Bの37.04%を見るに中国語に対応させに行く方向性は有効そうではある。
リポジトリはGitHub – haonan-li/CMMLU

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [648.4]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文参考訳（メタデータ） (Mon, 12 Jun 2023 17:51:15 GMT)
BIG-Benchの論文がアップデートされている。GPT-4やPaLM2の結果を期待していたがそのような大規模アップデートではなさそう。。
元々の紹介はBeyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)

Simple and Controllable Music Generation [82.2]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 15:31:05 GMT)
制御可能な音楽生成、テキストまたはメロディーを条件に与える事が可能。
リポジトリはGitHub – facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable music generation LM with textual and melodic conditioning.