2025年1月16日 – arXiv最新論文の紹介

Test-time Computing: from System-1 Thinking to System-2 Thinking / Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Test-time Computing: from System-1 Thinking to System-2 Thinking [28.1]
テストタイムコンピューティングの概念をSystem-1モデルに遡る。システム1モデルからシステム2モデルへの移行において,テストタイムコンピューティングが果たす重要な役割を強調した。
論文参考訳（メタデータ） (Sun, 05 Jan 2025 10:24:20 GMT)
test time computing、o1的動作、slow-thinkingといったもののサーベイ。
凄く参考になる内容ではあるのだが、カンファレンスすらも待っていられないスピード感に驚きというのが正直な感想。
リポジトリはGitHub – Dereck0602/Awesome_Test_Time_LLMs

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though [44.2]
我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
論文参考訳（メタデータ） (Wed, 08 Jan 2025 18:42:48 GMT)
上記にも関連する内容でMetaCoTの提案。検討過程が詳細で参考になる。

下記でも思ったがキャッチアップしよう、さらに超えていこうという動きが本当に速い。

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文参考訳（メタデータ） (Wed, 18 Dec 2024 18:24:47 GMT)

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文参考訳（メタデータ） (Tue, 07 Jan 2025 18:58:54 GMT)
「By leveraging the knowledge from both LLaVA and SAM-2, our model has strong capabilities in both mask and language generation.」とのこと。なるほど、という感じ。
リポジトリはSa2VA