Amazon Nova, OpenAI o-1 pro, Gemini-Exp-1206, Llama 3.3

先週はLLM関連の話題が特に多い週だった。Amazon、OpenAI、Google、Metaが大きめのリリースを出しており、OpenAIはこれから発表を続けていくとのことでとても楽しみである。

各社の競争が非常に激しい。

Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier 

  • Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier [72.6]
    8Bおよび32Bパラメータ多言語モデルの新世代であるAya Expanseモデルファミリを導入する。 Cohere For AIとCohereでの数年間の研究を活用することで、Aya Expanseは多言語パフォーマンスにおける新たな最先端技術を確立している。 Aya Expanse 8B と 32B が主要なオープンウェイトモデルより優れていることを示すために,23言語に翻訳された Arena-Hard-Auto データセットの評価を行った。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 15:41:06 GMT)
  • Cohereによる多言語LLM、公開モデルの論文。他の公開モデルより高性能を主張。
  • リポジトリはCohereForAI/aya-expanse-8b · Hugging FaceCohereForAI/aya-expanse-32b · Hugging Face

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

  • Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.4]
    多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。 改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 13:27:09 GMT)
  • GlobalなMMLU、元のデータセットの文化的バイアス、単純な翻訳では解消しきれない問題に関する言及が興味深い
  • データセットはCohereForAI/Global-MMLU · Datasets at Hugging Face

Self-Improvement in Language Models: The Sharpening Mechanism 

  • Self-Improvement in Language Models: The Sharpening Mechanism [70.9]
    言語モデリングにおける最近の研究は、言語モデルが外部からのフィードバックなしにより高いパフォーマンスを達成するために、言語世代を評価し、洗練する自己改善の可能性を高めている。 我々は、レンズを通して自己改善の能力について、新たな視点を提供する。 言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
    論文  参考訳(メタデータ)   (Mon, 02 Dec 2024 20:24:17 GMT)
  • 「Motivated by the observation that language models are often better at verifying response quality than they are at generating correct responses, we formalize self-improvement as using the model itself as a verifier during post-training in order to “sharpen” the model to one placing large mass on high-quality sequences, thereby amortizing the expensive inference-time computation of generating good sequences.」という研究
  • 最近よく見るキーワードcritic – arXiv最新論文の紹介にも関連する面白い研究