B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners 

  • B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners [19.0]
    自己改善は、パフォーマンスを向上させる主要な方法として現れています。 本稿では,この反復的プロセスにおいて2つの重要な要因をモニタする手法を提案し,提案する。 B-STaRは、反復的な構成を調整し、探索とエクスプロイトのバランスをとる自己学習推論フレームワークである。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 03:58:34 GMT)
  • 「In this work, we identify and propose methods to monitor two pivotal factors in this iterative process: (1) the model’s ability to generate sufficiently diverse responses (exploration); and (2) the effectiveness of external rewards in distinguishing high-quality candidates from lower-quality ones (exploitation).」、についてこれらを監視しバランスをとる手法を提案。
  • リポジトリはGitHub – hkust-nlp/B-STaR

Language Models as Continuous Self-Evolving Data Engineers

  • Language Models as Continuous Self-Evolving Data Engineers [31.9]
    大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。 本稿では, LLM がデータの自動生成, クリーニング, レビュー, 注釈付けにより, 自己学習を可能にする新しいパラダイムを提案する。 我々のアプローチは、LLMが継続的自己進化型データエンジニアとして機能することを示し、トレーニング後のデータ構築プロセスの時間とコストを大幅に削減する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 18:28:41 GMT)
  • LLMがデータの生成、自己学習を行っていくLanguage Models as Continuous Self-Evolving Data Engineers (LANCE)の提案。「This training paradigm with autonomous data construction not only reduces the reliance on human experts or external models but also ensures that the data aligns with human values and preferences, paving the way for the development of future superintelligent systems that can exceed human capabilities.」と強い主張がされている。
  • 近しい研究は過去にもあるのでこの方針が有効であるのはそうであろうと思うが、限界はあるはずでsuperintelligent systemにつながるかというとかなり疑問ではある。

Self-Improvement in Language Models: The Sharpening Mechanism 

  • Self-Improvement in Language Models: The Sharpening Mechanism [70.9]
    言語モデリングにおける最近の研究は、言語モデルが外部からのフィードバックなしにより高いパフォーマンスを達成するために、言語世代を評価し、洗練する自己改善の可能性を高めている。 我々は、レンズを通して自己改善の能力について、新たな視点を提供する。 言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
    論文  参考訳(メタデータ)   (Mon, 02 Dec 2024 20:24:17 GMT)
  • 「Motivated by the observation that language models are often better at verifying response quality than they are at generating correct responses, we formalize self-improvement as using the model itself as a verifier during post-training in order to “sharpen” the model to one placing large mass on high-quality sequences, thereby amortizing the expensive inference-time computation of generating good sequences.」という研究
  • 最近よく見るキーワードcritic – arXiv最新論文の紹介にも関連する面白い研究

Self-Generated Critiques Boost Reward Modeling for Language Models

  • Self-Generated Critiques Boost Reward Modeling for Language Models [57.6]
    Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。 実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 18:28:26 GMT)
  • 「By harnessing LLMs’ ability to generate and refine critiques, Critic-RM implements a novel self-improvement approach that improves both critique quality and reward prediction accuracy.」という結論。
  • 自己評価、自己批判を取り入れるアプローチが流行っている感がある。解釈は難しいが、生成と評価・批判は能力として異なりうまく使うことで相互の性能を上げられるということなんだろうか。(WEBには批判・批評データがとても多いからとかだとやや悲しいが、一方でそれで性能が上がるのであれば…という微妙な気持ち)

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning 

  • Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning [46.4]
    Critic-Vはアクター・クライブのパラダイムにインスパイアされたフレームワークで、視覚言語モデルの推論能力を高める。 リアソナーは視覚的およびテキスト的入力に基づいて推論パスを生成し、批判はこれらのパスを洗練するための建設的批評を提供する。 評価の結果,Critic-V フレームワークは GPT-4V を含む既存手法を8つのベンチマークのうち5つで大幅に上回っていることがわかった。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 10:28:57 GMT)

Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision 

  • Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.4]
    本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。 まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。 テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 17:11:54 GMT)
  • 「flawed reasoning path construction, critique generation, and data filtering」の3ステージからなるフレームワークAutoMathCritiqueでデータを構築、fine tuningするとともに、「Motivated by the insights of test-time, we introduce the critique model into the actor model’s exploration and learning process, introducing a critique-in-the-loop self-improvement method」を適用して効果を確認。 critique modelの有効性が分かる結果に見える(が、この構築は容易ではないかもしれない)
  • リポジトリはAutoMathCritique

Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement

  • Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.9]
    G”odel AgentはG”odelマシンにインスパイアされた自己進化型フレームワークである。 G”odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
    論文  参考訳(メタデータ)   (Sun, 06 Oct 2024 10:49:40 GMT)
  • 「we introduce G¨odel Agent, a self-evolving framework inspired by the G¨odel machine, enabling agents to recursively improve themselves without relying on predefined routines or fixed optimization algorithms.」と自己改善していけるエージェントを提案、効果を確認とのこと。エージェント的改善を行っていくフレームワークでLLM自体を改善するような実装ではなさそう。
  • 「Currently, G¨odel Agent is not sufficiently stable and may be prone to error accumulation, hindering its ability to continue self-optimization.」とのことではあるが、この手の研究が進んでいくのは未来を感じる。
  • リポジトリはGitHub – Arvid-pku/Godel_Agent: Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement

SELU: Self-Learning Embodied MLLMs in Unknown Environments

  • SELU: Self-Learning Embodied MLLMs in Unknown Environments [35.6]
    マルチモーダルな大言語モデル(MLLM)は、強力な視覚的理解と意思決定能力を示している。 本稿では,強化学習におけるアクター批判的自己学習パラダイムに触発された,SELUと呼ばれる新しいアクター批判的自己学習パラダイムを提案する。
    論文  参考訳(メタデータ)   (Fri, 04 Oct 2024 10:40:11 GMT)
  • 「We propose a self-learning paradigm for embodied MLLMs, SELU, inspired by the actorcritic paradigm in reinforcement learning, which enables MLLMs to self-adapt to unknown environments.」というSelf-XでEmbodiedというとても未来を感じる研究。
  • 環境に対するActorに対してMLLM Criticが評価するという、最近流行りのフレームワークだが、Actor MLLMとClitic MLLMをそれぞれfine tuningしていくことに特徴がある(同じMLLMを使うSELU Oneより優れているとのこと)

Qwen 2.5, Qwen 2 VL, GRIN-MoE, Pixtral

様々な研究機関がLLMを構築している。先週のニュースとしては高性能なLLM Qwen 2.5、MoE構成で高効率なGRIN-MoE、マルチモーダル拡張のQwen 2 VL、Pixtralに注目。

ライセンスは様々であることに注意が必要だが、モデル自体は公開されている。商用API以外に選択肢が広がっている。また、それぞれ様々な狙いを持ったモデルとなっていて正直評価を行うことも簡単ではない。自分がやりたいことにフィットするベースモデル、活用方法をサジェストするAIが欲しい今日この頃。

モデル構築、fine tuningの観点でも多くの情報が公開されておりとても興味深い。

  • Qwen2.5-Coder Technical Report [100.7]
    先代のCodeQwen1.5から大幅にアップグレードされたQwen2.5-Coderシリーズを紹介します。 コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 17:57:57 GMT)
  • 「To ensure the quality of the pre-training data, we have curated a dataset by collecting public code data and extracting high-quality code-related content from web texts, while filtering out low-quality data using advanced classifiers.
    」とフィルタリングの重要性を強調。データ合成にも触れられているがMATHと異なりリアルデータが豊富にあるから?
  • Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.5]
    Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。 Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 16:45:37 GMT)
  • 「In this report, we introduce Qwen2.5-Math, which features several key technical highlights: (1) extensive use of synthesized mathematical data from Qwen2-Math during the pre-training phase, (2) iterative generation of fine-tuning data and reinforcement training guided by the reward model during the post-training and inference phase and (3) support for bilingual (English and Chinese) queries, along with chain-of-thought and tool-integrated reasoning capabilities.」と合成データとself improvement的な動きの効果が興味深い
  • Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution [82.4]
    本稿では,従来のQwen-VLモデルのアップグレードであるQwen2-VLシリーズを紹介する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに処理可能にする、Naive Dynamic Resolutionメカニズムが導入されている。 また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 17:59:32 GMT)
  • 「Qwen2-VL series introduces naive dynamic resolution and multimodal rotary position embedding (M-RoPE) to fuse information across modals effectively and be capable of understanding videos over 20 minutes in length.」、「Furthermore, Qwen2-VL now supports understanding multilingual texts within images, including most European languages, Japanese, Korean, Arabic, Vietnamese, and others.」と動画対応、日本語対応と強力なマルチモーダルモデル。
  • GRIN: GRadient-INformed MoE [132.9]
    Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。 エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。 我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 17:00:20 GMT)
  • 「We propose SparseMixer-v2 to estimate the gradient related to expert routing, while the conventional MoE training treats expert gating as a proxy for the gradient estimation.」、「We scale MoE training with neither expert parallelism nor token dropping, while the conventional MoE training employs expert parallelism and deploys token dropping.」を特徴とするMoEの改善
  • MoE構成でも意外とExpertにならないという報告を読んだ記憶があるが「Our study seems to verify our hypothesis that expert networks in GRIN MoE have developed highly-specialized and heterogeneous expertise.」という記載が興味深い。

Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources 

  • Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources [38.3]
    我々は、コストのかかる人的アノテーションに頼ることなく、LLMに新しいスキルを教えるために使用できる新しい方法、Source2 Synthを提案する。 Source2 Synthはカスタムデータソースを入力として、実世界のソースをベースとした中間的推論ステップを備えた合成データポイントを生成する。 マルチホップ質問応答(MHQA)とツール質問応答(TQA)の推論能力をテストする。
    論文  参考訳(メタデータ)   (Thu, 12 Sep 2024 17:39:08 GMT)
  • 「we propose Source2Synth, a general approach to generate synthetic data grounded in external real-world sources.」でDataset generation → Dataset Curation → Fine tuningに進むながれ。
  • キュレーションフェーズで「This is achieved by slicing the dataset in two and using one slice to fine-tune the LLM (LLMSynth).」、「Data filtering During filtering, LLMSynth is used to predict the output of the given synthetic example using k tries. If the output cannot be predicted at least once, it is assumed the example is low quality and is not included in the final curated dataset.」とのこと。極端なデータだけフィルタするような意図なのだろうか。(at least oneだと問題ないかもだが、閾値によってモデル崩壊を招くのかどうかなど気になるところ)