Claude 3.5 Sonnet, Haiku, Computer use, Aya Expanse

先週の話題で大きかったのはAnthropicによる Claude 3.5 Sonnetの強化とPC(GUI)を操作するエージェントの発表だった。

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic

前者はOpusを名乗らなかったのが注目で、さらなる高精度なモデルが用意されているとすると期待が大きい。後者はAgent S: An Open Agentic Framework that Uses Computers Like a Human  – arXiv最新論文の紹介などのようにGUIを使うアプローチが良いのか、OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused) – arXiv最新論文の紹介のAPI(コード)を介するアプローチが良いのかは議論が分かれるところだが、この手の進化には要注目である。

Cohereから出ている多言語モデルAyaにも要注目。Aya Expanse: Connecting Our World

GemmaやLlama、Mistral以上を主張するモデルでCC-BY NCで公開されている。CohereForAI/aya-expanse-8b · Hugging FaceCohereForAI/aya-expanse-32b · Hugging Face

Scaling Diffusion Language Models via Adaptation from Autoregressive Models 

  • Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.7]
    拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。 実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 14:04:22 GMT)
  • 「Building on existing DLMs, we present a recipe for scaling DLMs by continuing training on off-the shelf autoregressive LLMs.」、Diffusion Language Modelが有望かは議論が分かれるところだとは思うが面白い手法。DiffuLLaMAはautoregressive modelと競合するとのこと。
  • リポジトリはGitHub – HKUNLP/DiffuLLaMA: DiffuGPT and DiffuLLaMA: Scaling Diffusion Language Models via Adaptation from Autoregressive Models

Llama-3.1-Nemotron-70B, Ministral, Baichuan-Omni 

NVidiaから「This model reaches Arena Hard of 85.0, AlpacaEval 2 LC of 57.6 and GPT-4-Turbo MT-Bench of 8.98, which are known to be predictive of LMSys Chatbot Arena Elo As of 1 Oct 2024, this model is #1 on all three automatic alignment benchmarks (verified tab for AlpacaEval 2 LC), edging out strong frontier models such as GPT-4o and Claude 3.5 Sonnet.」を主張するnvidia/Llama-3.1-Nemotron-70B-Instruct-HF · Hugging Face、Mistralからは小規模だが高性能なMinistralが発表されている(Un Ministral, des Ministraux | Mistral AI | Frontier AI in your hands)。Baichuan-Omni はテキスト、画像、動画、音声に対応したマルチモーダルモデルでOSSで公開するとのこと。商用非公開モデルの大きなニュースリリースが予定されているようでそれも楽しみだが、weightが公開されるモデルが増えるのはありがたい。

1つ目はLlama-3.1-Nemotron-70B-Reward と HelpSteer2-Preference prompts を用いてLlama-3.1-70B-Instruct modelをチューニングしたものとのこと。NVIDIAは高効率なアーキテクチャの研究も進めているなど要注目。

2つ目、3つ目のような小規模高性能モデルも様々出ており、性能も検証してみたいところ。

  • HelpSteer2-Preference: Complementing Ratings with Preferences [45.0]
    リワードモデルは、指示に従うためにモデルを整列させるのに不可欠である。 データに適切にマッチする場合、どちらのアプローチも他方よりも優れているという証拠が不足している。 そこで我々はBradley-Terry styleとRegression reward Modelingを組み合わせた新しい手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 06:05:52 GMT)
  • nGPT: Normalized Transformer with Representation Learning on the Hypersphere [23.7]
    我々は新しいニューラルネットワークアーキテクチャ、正規化トランスフォーマー(nGPT)を提案する。 nGPTはより高速に学習し、同じ精度を達成するために必要なトレーニングステップの数を4から20に削減する。
    論文  参考訳(メタデータ)   (Tue, 01 Oct 2024 23:50:09 GMT)

Biased AI can Influence Political Decision-Making 

  • Biased AI can Influence Political Decision-Making [64.9]
    本稿では、AI言語モデルにおけるパルチザンバイアスが政治的意思決定に及ぼす影響について検討する。 政治的に偏見のあるモデルに晒された参加者は、意見を採用し、AIの偏見と一致した決定を下す可能性が著しく高いことがわかった。
    論文  参考訳(メタデータ)   (Tue, 08 Oct 2024 22:56:00 GMT)
  • 「We found that participants exposed to politically biased models were significantly more likely to adopt opinions and make decisions aligning with the AI’s bias, regardless of their personal political partisanship.」、「However, we also discovered that prior knowledge about AI could lessen the impact of the bias, highlighting the possible importance of AI education for robust bias mitigation.」という指摘。教育の効果はあるようだが、今後問題は大きくなっていくんじゃないかと思う。。

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models 

  • GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models [24.3]
    GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。 GSM-Symbolicは、シンボリックテンプレートから生成された改良されたベンチマークである。 以上の結果から,LLMは同一質問の異なるインスタンス化に応答する際,顕著なばらつきを示すことが明らかとなった。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 17:36:37 GMT)
  • 「We introduce GSM-Symbolic, an enhanced benchmark that generates diverse variants of GSM8K questions using symbolic templates」というベンチマークの紹介であるが、「We show that LLMs exhibit more robustness to changes in superficial elements like proper names but are very sensitive to changes in numerical values」というのはなかなか衝撃的な結果。
  • 「To create the templates, we add seemingly relevant but ultimately inconsequential statements to GSM-Symbolic templates.」という無意味な情報を加えたGSM-NoOpでは結果がさらに悪くなるようで、単純なLeakでもない難しさがある。

Small Language Models: Survey, Measurements, and Insights 

  • Small Language Models: Survey, Measurements, and Insights [21.2]
    小型言語モデル (SLM) は大規模言語モデル (LLM) に比べて学術的関心が著しく少ない。 59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムという3つの軸にわたる技術革新を分析します。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 06:36:56 GMT)
  • 「The weight range of SLMs in this work is defined between 100M to 5B.」という定義のもとのSLMに関するサーベイ。
  • リポジトリはGitHub – UbiquitousLearning/SLM_Survey

A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms

Law of the Weakest Link: Cross Capabilities of Large Language Models

  • Law of the Weakest Link: Cross Capabilities of Large Language Models [102.9]
    我々は,Large Language Models (LLMs) が “Law of the Weakest Link” を示すことを示した。 これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
    論文  参考訳(メタデータ)   (Mon, 30 Sep 2024 05:12:01 GMT)
  • 問題を解こうとする場合、様々な能力が要求されるが、今のLLMは一面の評価にとどまっており総合的な能力(様々なタスクをクロスして問題を解く能力)の評価ができていない。そのような評価を行いFindingsをまとめた論文。「we demonstrated that LLMs consistently conform to the “Law of the Weakest Link,” where cross-capability performance is constrained by the weakest ability.」と直観に反しない結果。
  • リポジトリはGitHub – facebookresearch/llm-cross-capabilities: Official implementation for “Law of the Weakest Link: Cross capabilities of Large Language Models”

日本語版Gemma 2 2B, Liquid Foundation Models (LFMs), Meta Movie Gen, CulturalBench

先週の発表で気になったのはGoogleによる日本語版 Gemma 2の公開(Google Developers Japan: 日本語版 Gemma 2 2B を公開 (googleblog.com))とLiquid AIによるLiquid Foundation Models (LFMs)の発表(Liquid Foundation Models: Our First Series of Generative AI Models)、Metaによる動画生成AI、Meta Movie Genの発表(Meta Movie Gen)だった。

1つ目は言語特化モデルの可能性を感じる小規模・高性能モデルである。「東京科学大学 情報理工学院 情報工学系の岡崎直観教授らの研究チームと協力し、日本におけるオープンモデルの開発支援、および、新しい技術の開拓への取り組みも進めます。」との記載もあり、日本語という言語だけでなく文化理解のような部分にも注目。先週でていたCultualBenchのようなベンチマーク構築の動きもさかん。

2つ目はGPT系アーキテクチャではないLLMとのこと。論文やテクニカルレポートが出ていないので何とも言えない部分があるが、状態空間モデルではなくAttentionを効率化するアプローチのように見える。長文における処理が大幅に効率化されているとのことで期待大。

最後はMetaによるテキストからの動画生成AIで単純な生成だけでなく、編集も可能、元の静止画も指定可能。「On text-to-video generation, we outperform prior state-of-the-art, including commercial systems such as Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) on overall video quality」と他モデルよりも良い性能であるとのこと。
(10/19追記) arXivに論文が出ていたので追加。

  • CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.8]
    文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。 同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。 人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 17:04:31 GMT)
  • 45か国をカバーする文化的ベンチマーク
  • リポジトリはCulturalBench – a Hugging Face Space by kellycyy
  • Movie Gen: A Cast of Media Foundation Models [133.4]
    高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。 ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 16:22:46 GMT)

Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis

  • Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis [19.4]
    大規模言語モデル(LLM)の探索技術は主に英語に焦点を合わせており、世界の言語の大部分を見下ろしている。 複数のオープンソースのLCMモデルで実験を行い、探索精度、層間の傾向、および複数の言語に対する探索ベクトル間の類似性を解析した。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 14:14:05 GMT)
  • 多言語での動作解析、「(1) a consistent performance gap between high-resource and lowresource languages, with high-resource languages achieving significantly higher probing accuracy; (2) divergent layer-wise accuracy trends, where high-resource languages show substantial improvement in deeper layers similar to English; and (3) higher representational similarities among high-resource languages, with low-resource languages demonstrating lower similarities both among themselves and with high-resource languages.」とのこと
  • Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?  – arXiv最新論文の紹介 (devneko.jp)でも思ったが、この手の動作解析はとても面白い。