2024年10月28日 – arXiv最新論文の紹介

Claude 3.5 Sonnet, Haiku, Computer use, Aya Expanse

先週の話題で大きかったのはAnthropicによる Claude 3.5 Sonnetの強化とPC（GUI）を操作するエージェントの発表だった。

前者はOpusを名乗らなかったのが注目で、さらなる高精度なモデルが用意されているとすると期待が大きい。後者はAgent S: An Open Agentic Framework that Uses Computers Like a Human – arXiv最新論文の紹介などのようにGUIを使うアプローチが良いのか、OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO（UI-Focused） – arXiv最新論文の紹介のAPI（コード）を介するアプローチが良いのかは議論が分かれるところだが、この手の進化には要注目である。

Cohereから出ている多言語モデルAyaにも要注目。Aya Expanse: Connecting Our World

GemmaやLlama、Mistral以上を主張するモデルでCC-BY NCで公開されている。CohereForAI/aya-expanse-8b · Hugging Face、CohereForAI/aya-expanse-32b · Hugging Face

Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.7]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文参考訳（メタデータ） (Wed, 23 Oct 2024 14:04:22 GMT)
「Building on existing DLMs, we present a recipe for scaling DLMs by continuing training on off-the shelf autoregressive LLMs.」、Diffusion Language Modelが有望かは議論が分かれるところだとは思うが面白い手法。DiffuLLaMAはautoregressive modelと競合するとのこと。
リポジトリはGitHub – HKUNLP/DiffuLLaMA: DiffuGPT and DiffuLLaMA: Scaling Diffusion Language Models via Adaptation from Autoregressive Models

A Survey on Data Synthesis and Augmentation for Large Language Models [35.6]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文参考訳（メタデータ） (Wed, 16 Oct 2024 16:12:39 GMT)
重要性が増すLLMに関するデータ合成のサーベイ