- Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.4]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。 近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。 OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (Tue, 18 Feb 2025 04:11:29 GMT) - 流行りのInference-time computationについての検証。「Language models rely on retrieval rather than true understanding. Despite advancements in reasoning abilities with LRMs such as O1 and O1-Mini, they still appear to be pattern matching rather than genuine reasoning.」というのが興味深かった。
- リポジトリはGitHub – divelab/Sys2Bench: Sys2Bench is a benchmarking suite designed to evaluate reasoning and planning capabilities of large language models across algorithmic, logical, arithmetic, and common-sense reasoning tasks.