コンテンツへスキップ
- Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.9]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。 実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (Sun, 19 Jan 2025 16:53:26 GMT)
- 「we introduce Chain-of-Reasoning (CoR), a novel unified framework that integrates multiple reasoning paradigms—Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)—to enable synergistic collaboration.」とのこと。LRMとして構築しているアプローチだが、Agenticに使った場合との性能差をしりたいところ。
- PaSa: An LLM Agent for Comprehensive Academic Paper Search [9.7]
PaSaは大規模言語モデルを利用した高度な論文検索エージェントである。 合成データセットであるAutoScholarQueryを用いた強化学習を用いてPaSaを最適化する。 合成データでトレーニングされているにも関わらず、PaSaはRealScholarQueryの既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (Fri, 17 Jan 2025 11:12:28 GMT)
- 「PaSa can autonomously make a series of decisions, including invoking search tools, reading papers, and selecting relevant references, to ultimately obtain comprehensive and accurate results for complex scholarly queries.」という論文情報を集めてくるエージェント。
- ベンチマークとしてAutoScholarQueryを構築している点が特徴的なのと、「Although PaSa is trained solely on synthetic data, it achieves remarkable real-world performance.」は少し驚き。
- Debate Helps Weak-to-Strong Generalization [68.7]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。 議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。 OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (Tue, 21 Jan 2025 05:36:13 GMT)
- 「Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision.」という話で興味深いが、「humans will only be able to weakly supervise superhuman models」という危機感が時期尚早でもなさそうなのが・・・。