コンテンツへスキップ
- Reinforcement Learning for Reasoning in Large Language Models with One Training Example [129.1]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。 1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (Tue, 29 Apr 2025 09:24:30 GMT)
- 「We find that selecting one specific example as the training dataset can achieve similar downstream performance to that of the 1.2k DeepScaleR subset (DSR-sub) containing that example. Specifically, this improves the Qwen2.5-Math-1.5B model from 36.0% to 73.6% on MATH500, and from 17.6% to 35.7% on average across 6 mathematical reasoning benchmarks (Fig. 1, 2).」という興味深い報告。「These findings suggest that the reasoning capability of the model is already buried in the base model, and encouraging exploration on a very small amount of data is capable of generating useful RL training signals for igniting LLM’s reasoning capability.」はそうなのだろうと思う。LLMの中には何が入っていてチューニングって何をしているんだろう。。。
- リポジトリはGitHub – ypwang61/One-Shot-RLVR: official repository for “Reinforcement Learning for Reasoning in Large Language Models with One Training Example”
- The Leaderboard Illusion [30.2]
アリーナは最も有能なAIシステムランキングのリーダーボードとして登場した。 我々は,ゆがんだ競技場に生じた体系的な問題を同定する。
論文 参考訳(メタデータ) (Tue, 29 Apr 2025 15:48:49 GMT)
- Chatbot Arena に対する問題点の指摘と改善提案
- 「We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired.」、「At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release.」は確かに問題
- リーダーボードの設計、運用はとても難しいが、できるところは改善を期待したい
- From Human Memory to AI Memory: A Survey on Memory Mechanisms in the Era of LLMs [34.4]
メモリは情報をエンコードし、保存し、検索するプロセスである。 大規模言語モデル(LLM)の時代において、メモリとは、AIシステムが過去のインタラクションからの情報を保持し、リコールし、使用し、将来の応答とインタラクションを改善する能力である。
論文 参考訳(メタデータ) (Tue, 22 Apr 2025 15:05:04 GMT)
- 取り扱いが難しいLLMの記憶に関するサーベイ。
- 様々な手法が提案されているものの解決すべき課題が多い。Open Problems and Future Directionsがとても参考になる。
- Learning Adaptive Parallel Reasoning with Language Models [70.2]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。 APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。 鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (Mon, 21 Apr 2025 22:29:02 GMT)
- 「We presented Adaptive Parallel Reasoning, which enables language models to adaptively distribute computation across serial and parallel reasoning paths using a parent-child threading mechanism.」と自然言語処理というよりも探索に近いなーと思わなくもない手法の提案。有効なのは確かだと思う。
- リポジトリはGitHub – Parallel-Reasoning/APR: Code for Paper: Learning Adaptive Parallel Reasoning with Language Models
- On The Landscape of Spoken Language Models: A Comprehensive Survey [144.1]
音声言語モデル(SLM)は、普遍的な音声処理システムとして機能する。 この領域での作業は非常に多様であり、様々な用語と評価設定がある。
論文 参考訳(メタデータ) (Fri, 11 Apr 2025 13:40:53 GMT)
- 「In the last few years, the field of natural language processing (NLP) has evolved from (1) training many task-specific models from scratch, to (2) combining pre-trained multi-purpose contextual representation models (such as BERT (Devlin et al , 2019)) with a small number of task-specific parameters, to (3) training generative universal, large language models (LLMs (Brown et al , 2020; OpenAI et al , 2024)1) that perform arbitrary text tasks given natural language instructions (prompts) and can generalize to unseen domains and tasks (Wei et al , 2022a; Liu et al , 2023), and finally to (4) dialogue / chatbot systems that function as assistants and perform tasks while directly interacting with the user.」、「The field of speech processing has been undergoing a similar evolution, although with some lag, and has mainly focussed on stages (1) and (2).」から始まるspoken language models (SLMs) のサーベイ。
- WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents [55.6]
本研究では,大規模言語モデル(LLM)を補完する環境の記号的知識を学習する「世界アライメント」を提案する。 また、モデル予測制御フレームワークを用いて、RLフリーでモデルベースエージェント「WALL-E 2.0」を提案する。 WALL-E 2.0は、火星(Minecraftのような)とALFWorld(emboded indoor environment)のオープンワールド課題における既存の手法を著しく上回っている
論文 参考訳(メタデータ) (Tue, 22 Apr 2025 10:58:27 GMT)
- 「Can we build accurate world models out of large language models (LLMs)? How can world models benefit LLM agents?」から始まる論文。「We have demonstrated that LLMs can effectively serve as world models for agents when aligned with environment dynamics via neurosymbolic knowledge learning.」で既存ベンチマークで効果を確認とのこと。
- リポジトリはGitHub – elated-sawyer/WALL-E: Official code for the paper: WALL-E: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
- Knowledge Distillation and Dataset Distillation of Large Language Models: Emerging Trends, Challenges, and Future Directions [35.8]
LLM(Large Language Models)の指数関数的成長は、絶え間なく拡大する計算およびデータ要求を満たすための効率的な戦略の必要性を強調し続けている。 本調査は、知識蒸留(KD)とデータセット蒸留(DD)の2つの相補的パラダイムを包括的に分析する。
論文 参考訳(メタデータ) (Sun, 20 Apr 2025 23:50:23 GMT)
- 蒸留に関するサーベイ
- 「Crucially, the success of KD in LLMs hinges on DD techniques, which enable the creation of compact, informationrich synthetic datasets that encapsulate the diverse and complex knowledge of the teacher LLMs.」とKnowledge distillationとDataset distillationを対としてサーベイするものは珍しいかもしれない