Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

  • Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.9]
    CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。 実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
    論文  参考訳(メタデータ)   (Sun, 19 Jan 2025 16:53:26 GMT)
  • 「we introduce Chain-of-Reasoning (CoR), a novel unified framework that integrates multiple reasoning paradigms—Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)—to enable synergistic collaboration.」とのこと。LRMとして構築しているアプローチだが、Agenticに使った場合との性能差をしりたいところ。

PaSa: An LLM Agent for Comprehensive Academic Paper Search 

  • PaSa: An LLM Agent for Comprehensive Academic Paper Search [9.7]
    PaSaは大規模言語モデルを利用した高度な論文検索エージェントである。 合成データセットであるAutoScholarQueryを用いた強化学習を用いてPaSaを最適化する。 合成データでトレーニングされているにも関わらず、PaSaはRealScholarQueryの既存のベースラインを大幅に上回っている。
    論文  参考訳(メタデータ)   (Fri, 17 Jan 2025 11:12:28 GMT)
  • 「PaSa can autonomously make a series of decisions, including invoking search tools, reading papers, and selecting relevant references, to ultimately obtain comprehensive and accurate results for complex scholarly queries.」という論文情報を集めてくるエージェント。
  • ベンチマークとしてAutoScholarQueryを構築している点が特徴的なのと、「Although PaSa is trained solely on synthetic data, it achieves remarkable real-world performance.」は少し驚き。

Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking

  • Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking [124.7]
    HaluSearchは、ツリー検索ベースのアルゴリズムを組み込んだ新しいフレームワークである。 テキスト生成をステップバイステップの推論プロセスとしてフレーム化する。 認知科学における二重プロセス理論に着想を得た階層的思考システムスイッチ機構を導入する。
    論文  参考訳(メタデータ)   (Thu, 02 Jan 2025 15:36:50 GMT)
  • 「We propose HaluSearch, which integrates tree search-based algorithms (e g , MCTS) to explicitly implement a slow thinking process during the inference stage of LLMs, fully exploiting their own internal knowledge to mitigate hallucinations in generated text.」、各ステップの報酬を評価するスタイル。「To facilitate self-evaluation, we trained the reward model using data synthesized by the HaluSearch framework to assess the degree of hallucinations and provide reward signals.」とのこと。「Additionally, to improve efficiency, we introduced a dynamic system switch mechanism, which utilizes a trained switch model to enable LLMs to adaptively alternate between fast and slow thinking modes at both the instance and step levels.」という機構を有することが特徴的で、overthinking対策としても有望そうな感じがする。
  • 現時点での全部入り的なアプローチで面白い。

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

  • OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.4]
    グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。 事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。 次に、生成された軌道の品質を保証するために軌道報酬モデルを用いる。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 16:21:58 GMT)
  • 急速に研究が進むGUIエージェント開発のための合成データ構築手法の提案、「OS-Genesis begins by exploring the functionality of GUI environments through traversing interactive UI elements with actions (e g , CLICK). This forms the basis for reverse task synthesis, where observed states and actions are retroactively transformed into low-level instructions. These low-level instructions are then derived into high-level instructions, which can seed the collection of GUI trajectories.」と基礎データを構築、Trajectory Reward Modelで品質を保証。「Built upon GPT-4o, TRM aims to perform a graded evaluation with a reward score R ∈ [1, 5] to assist in sampling for training.」とのこと・・・。
  • リポジトリはOS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

AIGT: AI Generative Table Based on Prompt 

  • AIGT: AI Generative Table Based on Prompt [32.5]
    我々は,AI生成テーブル(AIGT)を導入し,高品質な合成データを生成する。 20のパブリックデータセットと2つの実業界データセットのうち14の面で、最先端のパフォーマンスを実現しています。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 02:51:06 GMT)
  • テーブルの合成に関する提案。
  • 良いモデルを得るためにはよい合成データを作る、とか、良いCriticモデルを作るとか、そういうアプローチが重要になっている気がする。

DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought 

  • DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought [89.5]
    DRT-o1は、長いチェーン・オブ・シークレットの成功をニューラルマシン翻訳(MT)にもたらす試みである。 まず、既存の文献から模範文や比喩文を含む文を抽出し、その後、長い思考を通してこれらの文を翻訳する多エージェントフレームワークを開発する。 文献翻訳実験の結果, DRT-o1の有効性が示された。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 11:55:33 GMT)
  • Chain of thoughtの機械翻訳への応用、データを収集・マルチエージェントフレームワークでのデータ合成、fine tuningというアプローチ。14Bで124 GPU hoursは思ったよりも少ない印象だが、性能は大きく向上している。
  • プロジェクトサイトはGitHub – krystalan/DRT-o1: DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

How to Synthesize Text Data without Model Collapse?

  • How to Synthesize Text Data without Model Collapse? [37.2]
    合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。 半合成データを得るために,人為的データに対するトークン編集を提案する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 09:43:39 GMT)
  • 合成データを用いたモデル構築で、モデル崩壊の分析とそれを抑える手法の提案。

TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action

  • TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.6]
    複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。 推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。 このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
    論文  参考訳(メタデータ)   (Sat, 07 Dec 2024 00:42:04 GMT)
  • 「Our TACO model is able to output a Chain-of Thought-and-Action (CoTA) and answer challenging questions based on the thoughts and action outputs」というモデルの提案。マルチモーダルなAction付きのモデル。GPT-4oなどを使って構築した合成データを活用とのこと。
  • プロジェクトサイトはTACO

Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models 

  • Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models [12.9]
    データ品質,多様性,複雑性の観点から,各アルゴリズムが生成した合成データの構成によるアルゴリズムの評価を行った。 合成データパイプラインにおける各種成分が各データ特性に与える影響について検討する。 これらのトレードオフのバランスは、将来の自己改善アルゴリズムの開発に不可欠である、と我々は主張する。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 02:47:45 GMT)
  • 合成データに関するQuality、Diversity、Complexityからのサーベイ。「Overall, we found that domain specific, attribute measures utilizing LLMs-as-a-judge provide the best measures in complex tasks and domains in terms of correlation with downstream metrics.」という記載が興味深いところ。

Phi4, InternVL 2.5, EXAONE 3.5

Gemini 2.0やOpenAIの12日間発表で盛り上がっているが、OSSや公開モデルについても様々なモデルが発表されている。

  • Phi-4 Technical Report [72.1]
    本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。 多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 03:37:41 GMT)
  • 小型、高性能モデルPhiの最新バージョン、「phi-4 strategically incorporates synthetic data throughout the training process.」とのことで合成データをうまく活用するアプローチ。Phi3を超え、GPT-4o miniに迫っている優秀なモデル。
  • 公式Blogでも発表がある Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning | Microsoft Community Hub
  • EXAONE 3.5: Series of Large Language Models for Real-world Use Cases [35.0]
    EXAONE 3.5言語モデルは32B、7.8B、2.4Bの3つの構成で提供されている。 商用利用については、LG AI Researchの公式コンタクトポイントを参照してください。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 09:31:10 GMT)
  • LGによる公開モデル、同サイズのQwen2.5と競合する性能
  • リポジトリはLGAI-EXAONE (LG AI Research)
  • Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [121.1]
    InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。 このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
    論文  参考訳(メタデータ)   (Fri, 06 Dec 2024 18:57:08 GMT)
  • OSSのMLLM、性能は商用モデルと競合的とのこと。「we integrate a newly incrementally pre-trained InternViT with various pre-trained LLMs, including InternLM 2.5 and Qwen 2.5, using a randomly initialized MLP projector.」というアーキテクチャでViTをProjectorでLLMとつなぐアプローチ
  • リポジトリはOpenGVLab/InternVL2_5-78B · Hugging FaceGitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型
  • Owl-1: Omni World Model for Consistent Long Video Generation [75.5]
    Omni World ModeL (Owl-1) を提案する。 Owl-1 は VBench-I2V と VBench-Long の SOTA メソッドと同等の性能を実現している。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 18:59:01 GMT)
  • 動画生成モデル、リポジトリはGitHub – huang-yh/Owl