LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs 

  • LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0]
    大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。 マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。 第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。 第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 18:59:51 GMT)
  • マルチステップなVisual reasoningタスクのベンチマークVisual Reasoning-Chain (VRCBench)の提案とcurriculum learningを通してLlama-3.2-11B-Vision-Instruct を強化したモデルの構築。omkarthawakar/LlamaV-o1 · Hugging Face
  • 商用モデルに近い性能を発揮。
  • プロジェクトサイトはLlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Enabling Scalable Oversight via Self-Evolving Critic

  • Enabling Scalable Oversight via Self-Evolving Critic [59.9]
    SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。 コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。 最大で10.3%の改善が達成されている。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 05:51:52 GMT)
  • SCRIT (Selfevolving CRITic)「Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based selfcritic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes.」の提案
  • Qwen2.5-72B-Instructをベースモデルとして改善を確認とのこと

MiniMax-01: Scaling Foundation Models with Lightning Attention 

  • MiniMax-01: Scaling Foundation Models with Lightning Attention [59.4]
    MiniMax-Text-01とMiniMax-VL-01は、より長いコンテキストを処理するのに優れた機能を提供する。 MiniMax-Text-01は、トレーニング中に最大100万のトークンに到達でき、推論時に400万のトークンを安価な価格で外挿できる。 私たちのビジョン言語モデルであるMiniMax-VL-01は、512億のビジョン言語トークンによる継続的なトレーニングによって構築されます。
    論文  参考訳(メタデータ)   (Tue, 14 Jan 2025 18:50:05 GMT)
  • 456B(32エキスパート、アクティブパラメータ 45.9B)のMoE構成の大規模な公開LLM。性能はGPT-4oなど商用モデルに匹敵するうえ、扱えるコンテキスト長が4Mトークンととても長い。「We demonstrate the first successful large-scale implementation of linear attention.」と主張(「After extensive experimentation, we settled on a hybrid architecture mainly using lightning attention (Qin et al , 2024b), an I/O-aware implementation of a linear attention variant (Qin et al , 2022a).」ともある通りハイブリッド構成)。
  • リポジトリはGitHub – MiniMax-AI/MiniMax-01

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

  • Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.8]
    大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。 本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 04:35:46 GMT)
  • 「Instead of fine-tuning a single model, our method finetunes a multiagent set of language models from the same base model and then independently specializes each model to capture parts of a task of interest.」という自己改善アプローチの提案。Generation ModelとCritic Modelを同時にチューニングしていき、マルチエージェントなディベートを通して統合という動き。Critic modelの重要性も高そう。
  • リポジトリはMultiagent Finetuning: Self Improvement with Diverse Reasoning Chains

WebWalker: Benchmarking LLMs in Web Traversal 

  • WebWalker: Benchmarking LLMs in Web Traversal [55.4]
    WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。 本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
    論文  参考訳(メタデータ)   (Mon, 13 Jan 2025 18:58:07 GMT)
  • 「It evaluates the capacity of LLMs to traverse a website’s subpages to extract high-quality data systematically.」というWEBサイトをめぐりながら必要な情報をとれるか否かのベンチマークWebWalkerQAとそれを解くためのマルチエージェントフレームワークWebWalkerの提案。Agenticな動作を行い、かつ、GPT-4oなど先端モデルを使っても解くのが難しいデータセットになっている。(やや意外)
  • プロジェクトサイトはWebWalker、リポジトリはGitHub – Alibaba-NLP/WebWalker: 🌐 WebWaker: Benchmarking LLMs in Web TraversalWebWalkerQALeaderboard – a Hugging Face Space by callanwuもある

What Limits LLM-based Human Simulation: LLMs or Our Design?

  • What Limits LLM-based Human Simulation: LLMs or Our Design? [43.5]
    我々は, LLMに基づく人間シミュレーションの進展には, LLM固有の制約とシミュレーションフレームワークの設計課題の両方に対処する必要があると論じている。 この分野でのさらなる研究を支援するため、我々はLLMに基づく人体シミュレーションリソースのキュレートされたコレクションを提供する。
    論文  参考訳(メタデータ)   (Wed, 15 Jan 2025 04:59:49 GMT)
  • 「LLM-based human simulation」の課題分析、整理。「Compared to tasks in NLP or CV, LLM-based human simulations present a much greater complexity」はそうだろうと思う。
  • リポジトリはGitHub – Persdre/llm-human-simulation: Collection of papers related to llm human simulation

The Tabular Foundation Model TabPFN Outperforms Specialized Time Series Forecasting Models Based on Simple Features

  • The Tabular Foundation Model TabPFN Outperforms Specialized Time Series Forecasting Models Based on Simple Features [40.2]
    本稿では,TabPFNと単純な特徴工学を組み合わせ,予測性能を高めるための簡単なアプローチであるTabPFN-TSを提案する。 その単純さとわずか1100万のパラメータにもかかわらず、TabPFN-TSは類似サイズのモデルであるChronos-Miniよりも優れており、65倍のパラメータを持つChronos-Largeよりもわずかに優れている。
    論文  参考訳(メタデータ)   (Mon, 06 Jan 2025 11:38:19 GMT)
  • なかなか難しい感のあるTabular Foundation Modelの提案。「By using a simple set of timestampderived features, our approach matches or slightly outperforms Chronos-T5 (Large), which, to our knowledge, is one of the strongest time series foundation models.」とのこと。時系列データの基礎的な動きを捉えられているのかもしれないが、使う場合はそのドメインでの検証はした方が良いのだろうなと思う。
  • リポジトリはGitHub – PriorLabs/tabpfn-client: ⚡ Easy API access to the tabular foundation model TabPFN ⚡

Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction

  • Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction [51.5]
    本稿では,製品属性値抽出タスクに対して,エラーベースのプロンプト書き換えと自己補正という2つの自己補正手法を適用した。 実験の結果、どちらの自己補充技術も、異なるシナリオでモデルの性能に限界的な影響しか与えず、処理コストは大幅に増加することがわかった。
    論文  参考訳(メタデータ)   (Thu, 02 Jan 2025 12:55:27 GMT)
  • 「information extraction tasks such as extracting product attribute values from product descriptions」タスクにおいてSelf-refinementやSelf-correctionの効果が薄く、「Overall, fine-tuning without self-refinement proves to be the most effective and cost-efficient approach for scenarios where attribute values need to be extracted from a large number of product descriptions.」との報告。有効なことも多いテクニックなので、タスクによりけりなのかな、という印象。
  • リポジトリはGitHub – wbsg-uni-mannheim/SelfRefinement4ExtractGPT: Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction

Test-time Computing: from System-1 Thinking to System-2 Thinking  / Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

  • Test-time Computing: from System-1 Thinking to System-2 Thinking [28.1]
    テストタイムコンピューティングの概念をSystem-1モデルに遡る。 システム1モデルからシステム2モデルへの移行において,テストタイムコンピューティングが果たす重要な役割を強調した。
    論文  参考訳(メタデータ)   (Sun, 05 Jan 2025 10:24:20 GMT)
  • test time computing、o1的動作、slow-thinkingといったもののサーベイ。
  • 凄く参考になる内容ではあるのだが、カンファレンスすらも待っていられないスピード感に驚きというのが正直な感想。
  • リポジトリはGitHub – Dereck0602/Awesome_Test_Time_LLMs
  • Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though [44.2]
    我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。 本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 18:42:48 GMT)
  • 上記にも関連する内容でMetaCoTの提案。検討過程が詳細で参考になる。

下記でも思ったがキャッチアップしよう、さらに超えていこうという動きが本当に速い。

  • Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
    OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:24:47 GMT)

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

  • Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3]
    Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。 セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。 本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
    論文  参考訳(メタデータ)   (Tue, 07 Jan 2025 18:58:54 GMT)
  • 「By leveraging the knowledge from both LLaVA and SAM-2, our model has strong capabilities in both mask and language generation.」とのこと。なるほど、という感じ。
  • リポジトリはSa2VA