Test-time Computing: from System-1 Thinking to System-2 Thinking / Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Test-time Computing: from System-1 Thinking to System-2 Thinking [28.1]
テストタイムコンピューティングの概念をSystem-1モデルに遡る。システム1モデルからシステム2モデルへの移行において,テストタイムコンピューティングが果たす重要な役割を強調した。
論文参考訳（メタデータ） (Sun, 05 Jan 2025 10:24:20 GMT)
test time computing、o1的動作、slow-thinkingといったもののサーベイ。
凄く参考になる内容ではあるのだが、カンファレンスすらも待っていられないスピード感に驚きというのが正直な感想。
リポジトリはGitHub – Dereck0602/Awesome_Test_Time_LLMs

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though [44.2]
我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
論文参考訳（メタデータ） (Wed, 08 Jan 2025 18:42:48 GMT)
上記にも関連する内容でMetaCoTの提案。検討過程が詳細で参考になる。

下記でも思ったがキャッチアップしよう、さらに超えていこうという動きが本当に速い。

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文参考訳（メタデータ） (Wed, 18 Dec 2024 18:24:47 GMT)

コメントを残すコメントをキャンセル