MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

  • MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.9]
    MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。 開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。 この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
    論文  参考訳(メタデータ)   (Fri, 22 Nov 2024 18:59:54 GMT)
  • MLLMの評価に関するサーベイで、リポジトリ GitHub – BradyFU/Awesome-Multimodal-Large-Language-Models at Benchmarks が非常に充実。

Liquid: Language Models are Scalable Multi-modal Generators

  • Liquid: Language Models are Scalable Multi-modal Generators [112.7]
    Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。 従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。 初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 16:48:16 GMT)
  • 既存のLLMに対して「The only modification is the addition of 8192 new learnable embeddings for discrete image tokens. Correspondingly, we extend the original LM head by 8192 dimensions to enable the model to predict both text and image tokens within the same embedding space.」という変更を加え画像を扱うという研究
  • 「For image generation, Liquid outperforms other auto-regressive based models, as well as some diffusion models like SD-XL and achieve FID of 5.47 on MJHQ-30K, demonstrating that LLMs can acquire excellent imagery capabilities efficiently with a limited amount of data.」という結果に驚きだが、さらには「For visual understanding, Liquid surpasses Chameleon and achieved results comparable to those of well-established MLLMs. In text-only tasks, Liquid achieves comparable performance with Chameleon, which used mix pre-training on a very large scale, and surpasses the performance of LLAMA2, demonstrating undegraded linguistic capabilities.」とのこと。

Amazon Nova, OpenAI o-1 pro, Gemini-Exp-1206, Llama 3.3

先週はLLM関連の話題が特に多い週だった。Amazon、OpenAI、Google、Metaが大きめのリリースを出しており、OpenAIはこれから発表を続けていくとのことでとても楽しみである。

各社の競争が非常に激しい。

Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier 

  • Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier [72.6]
    8Bおよび32Bパラメータ多言語モデルの新世代であるAya Expanseモデルファミリを導入する。 Cohere For AIとCohereでの数年間の研究を活用することで、Aya Expanseは多言語パフォーマンスにおける新たな最先端技術を確立している。 Aya Expanse 8B と 32B が主要なオープンウェイトモデルより優れていることを示すために,23言語に翻訳された Arena-Hard-Auto データセットの評価を行った。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 15:41:06 GMT)
  • Cohereによる多言語LLM、公開モデルの論文。他の公開モデルより高性能を主張。
  • リポジトリはCohereForAI/aya-expanse-8b · Hugging FaceCohereForAI/aya-expanse-32b · Hugging Face

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

  • Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.4]
    多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。 改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 13:27:09 GMT)
  • GlobalなMMLU、元のデータセットの文化的バイアス、単純な翻訳では解消しきれない問題に関する言及が興味深い
  • データセットはCohereForAI/Global-MMLU · Datasets at Hugging Face

Self-Improvement in Language Models: The Sharpening Mechanism 

  • Self-Improvement in Language Models: The Sharpening Mechanism [70.9]
    言語モデリングにおける最近の研究は、言語モデルが外部からのフィードバックなしにより高いパフォーマンスを達成するために、言語世代を評価し、洗練する自己改善の可能性を高めている。 我々は、レンズを通して自己改善の能力について、新たな視点を提供する。 言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
    論文  参考訳(メタデータ)   (Mon, 02 Dec 2024 20:24:17 GMT)
  • 「Motivated by the observation that language models are often better at verifying response quality than they are at generating correct responses, we formalize self-improvement as using the model itself as a verifier during post-training in order to “sharpen” the model to one placing large mass on high-quality sequences, thereby amortizing the expensive inference-time computation of generating good sequences.」という研究
  • 最近よく見るキーワードcritic – arXiv最新論文の紹介にも関連する面白い研究

Predicting Emergent Capabilities by Finetuning

  • Predicting Emergent Capabilities by Finetuning [99.0]
    微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。 提案手法は4つの標準NLPベンチマークを用いて検証する。 いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 01:48:09 GMT)
  • 「we found that our specific emergence prediction approach (e g , emergence law) can accurately predict the point of emergence up to 4x the FLOPS in advance, representing meaningful progress on the challenging unsolved problem of emergence prediction.」とのこと。
  • fine tuningでどこまでいけるか?を知りたい状況は多いので有用な研究(だが、現時点で実用的かはやや疑問)

MH-MoE:Multi-Head Mixture-of-Experts 

  • MH-MoE:Multi-Head Mixture-of-Experts [119.5]
    MH-MoE(Multi-Head Mixture-of-Experts)は,マルチヘッド機構を用いて, 異なる専門家内の様々な表現空間からの情報を集約し, 優れた性能を示す。 FLOPとパラメータパリティの両方をスパースミキサーモデルで維持するMH-MoEの新たな実装を提案する。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 09:05:36 GMT)
  • Fugu-MT 論文翻訳(概要): Multi-Head Mixture-of-Experts の実装の改善
  • 「In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models.」

A Survey on LLM-as-a-Judge / From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

LLM as a judgeの必要性は至る所で指摘されていて、論文もとても多い。先週2つのサーベイがでていた。いずれも複数研究機関の研究者による共著でリポジトリを公開する形式となっている。1研究機関のチームで調査するのはしんどい時代になっているのだろうか。。。(後者のリポジトリ公開は非常にありがたい)

  • A Survey on LLM-as-a-Judge [10.3]
    大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。 LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。 LLM-as-a-Judgeシステムはどうやって構築できるのか?
    論文  参考訳(メタデータ)   (Sat, 23 Nov 2024 16:03:35 GMT)
  • リポジトリはGitHub – IDEA-FinAI/LLM-as-a-Judge
  • From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.6]
    人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。 大規模言語モデル(LLM)の最近の進歩は”LLM-as-a-judge”パラダイムを刺激している。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 17:28:44 GMT)
  • プロジェクトサイトはLLM-as-a-judge、リポジトリ(論文リストなど)はGitHub – llm-as-a-judge/Awesome-LLM-as-a-judge

Self-Generated Critiques Boost Reward Modeling for Language Models

  • Self-Generated Critiques Boost Reward Modeling for Language Models [57.6]
    Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。 実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 18:28:26 GMT)
  • 「By harnessing LLMs’ ability to generate and refine critiques, Critic-RM implements a novel self-improvement approach that improves both critique quality and reward prediction accuracy.」という結論。
  • 自己評価、自己批判を取り入れるアプローチが流行っている感がある。解釈は難しいが、生成と評価・批判は能力として異なりうまく使うことで相互の性能を上げられるということなんだろうか。(WEBには批判・批評データがとても多いからとかだとやや悲しいが、一方でそれで性能が上がるのであれば…という微妙な気持ち)