RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems
RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems [99.0] 問題が発生したら、複数の抽象化を提案できるモデルをトレーニングし、続いてソリューション構築のインセンティブを与えるRLを作ります。 この結果、RLトレーニングパラダイムはRLADと呼ばれ、抽象化ジェネレータとソリューションジェネレータを共同で訓練する。 我々は、大規模なテスト予算で多くのソリューションを生成するよりも、より多くのテスト時間計算を抽象化の生成に割り当てることが、パフォーマンスに有益であることを示しています。 論文参考訳(メタデータ) (Thu, 02 Oct 2025 17:44:23 GMT)
「We introduce reasoning abstractions: concise representations of procedural and factual knowledge that are expressed in natural language, as a means to broaden the reasoning strategies used by LLMs」という抽象化モデルとこの処理を通すことでパフォーマンスが上がることを確認。結果も面白いが「We tried training a single model to do both abstraction generation and solution generation, after a lightweight SFT on traces showing questions paired with abstractions and corresponding solutions, but we found this approach to very quickly lose the ability of proposing abstractions over the course of RL training.」というのも興味深い。なんでなんだろう。。。