コンテンツへスキップ
- Scaling Laws of Synthetic Data for Language Models [132.7]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。 提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (Tue, 25 Mar 2025 11:07:12 GMT)
- 合成データのScaling lawに関する報告。高品質なデータ生成フレームワークSYnathLLMを前提に「Key findings from our extensive mathematical experiments on SYNTHLLM include: (1) SYNTHLLM generates synthetic data that reliably adheres to the rectified scaling law across various model sizes; (2) Performance improvements plateau near 300B tokens; and (3) Larger models approach optimal performance with fewer training tokens.」と合成データの有効性を示唆する結論になっている。
- プロジェクトサイトはAdvancing AI for Humanity。
- Measuring Diversity in Synthetic Datasets [59.5]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクのための合成データセットを生成するために広く採用されている。 これらの合成データセットの多様性を正確に測定する – 堅牢なモデルのパフォーマンスに不可欠な側面は、大きな課題である。 分類の観点から,合成データセットの多様性を測定する新しい手法であるDCScoreを紹介する。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 15:46:34 GMT)
- 合成データの多様性を評価する手法の提案、「the difference between samples can be measured through a n-classification task, where evaluating n sample datasets involves n n-classification tasks, with each sample corresponding to a distinct category.」という分類モデルを用いるアプローチ。合成データ活用が広がり、DeepSeek V3/R1で加速しそうな中、結論にある「we hope our work encourages future research to pay more attention to the diversity of synthetic datasets」はその通りだと思う。
- リポジトリはGitHub – BlueWhaleLab/DCScore
- DeepThink: Aligning Language Models with Domain-Specific User Intents [25.5]
本研究では、高品質な命令を生成するためのDeepThinkと呼ばれる新しいフレームワークを提案する。 DeepThinkはまず、いくつかのシード質問を生成して、実際のユーザ質問を模倣し、会話をシミュレートして、隠されたユーザニーズを明らかにし、会話のコンテキストによって回答を洗練する。 実験により、DeepThinkは広告ドメイン内の実際のユーザテストセット上でのGPT-4-turbo+RAGベースのアシスタントと比較して平均パフォーマンスが7.92%向上していることが示された。
論文 参考訳(メタデータ) (Sat, 08 Feb 2025 09:04:16 GMT)
- 「: data synthesis based on conversations, data refinement based on conversations, and supervised fine-tuning (SFT) enhanced with retrieval, DeepThink addresses the critical challenge of adapting LLM to understand and meet hidden user needs in vertical domains.」というデータ合成フレームワーク+αの提案と有効性検証。
- ユーザの隠れたニーズに対応するためLLMの内部知識が有効という解釈だろうか。ありそうな気はするのと、大規模に行うAgentSocietyのようなことが現実的なら様々な分野で活用できそう。(悪用も怖い)
- Wizard of Shopping: Target-Oriented E-commerce Dialogue Generation with Decision Tree Branching [39.5]
会話型商品検索(CPS)の目的は、インテリジェントなチャットベースのショッピングアシスタントを開発することである。 本稿では,大規模言語モデル(LLM)を利用して,現実的で自然な会話を生成する新しい手法TRACERを提案する。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 00:27:13 GMT)
- 「We leverage decision tree to explore the vast product search space, and construct a dialogue plan that minimizes the number of search steps required to retrieve a relevant product.」という会話生成手法の提案
- 直接生成せずに木構造を介すというアプローチはCondor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement – arXiv最新論文の紹介に近いのだろうか。
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [70.0]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。 本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 17:13:03 GMT)
- LLM-as-a-jedgeを使用するときの潜在的なLeakの可能性について指摘した論文。同じモデル、派生モデル、同じファミリーのモデルでバイアスがどの程度か検証。「The results of our main experiment, measured using the proposed preference leakage score, reveal a clear bias in each judge toward its respective student model.」と今までも同じモデルの出力を好むような指摘はあったが、それを裏付ける結果となっている。「We also observe that this bias is more pronounced in comparable model pairs and larger student models.」の大きなモデルで問題が大きいというのも興味深い。
- リポジトリはGitHub – David-Li0406/Preference-Leakage
- Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.3]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。 自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。 提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 02:21:59 GMT)
- Thinking-LLM-as-a-Judgeモデルを構築するための新しい手法EvalPlannerの提案。合成データ構築+self-training loopな構成、ベンチマークでSelf taught evaluaterなど競合手法を超える性能とのこと。
- Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement [41.9]
本研究では,ワールドナレッジツリーと自己回帰リファインメントを組み込んだ2段階合成データ生成フレームワークであるCondorを導入し,高品質なSFTデータを大規模に生成する。 実験結果から,20Kコンドル生成サンプルのみを微調整したベースモデルでは,本モデルよりも優れた性能が得られた。
論文 参考訳(メタデータ) (Tue, 21 Jan 2025 16:44:12 GMT)
- SFTのための合成データ構築手法の提案、World Knowledge Treeを用いるアプローチ。圧縮された知識を解凍、わかりやすく言葉にして学習させている感があって面白い。
- リポジトリはGitHub – InternLM/Condor
- Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.9]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。 実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (Sun, 19 Jan 2025 16:53:26 GMT)
- 「we introduce Chain-of-Reasoning (CoR), a novel unified framework that integrates multiple reasoning paradigms—Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)—to enable synergistic collaboration.」とのこと。LRMとして構築しているアプローチだが、Agenticに使った場合との性能差をしりたいところ。
- PaSa: An LLM Agent for Comprehensive Academic Paper Search [9.7]
PaSaは大規模言語モデルを利用した高度な論文検索エージェントである。 合成データセットであるAutoScholarQueryを用いた強化学習を用いてPaSaを最適化する。 合成データでトレーニングされているにも関わらず、PaSaはRealScholarQueryの既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (Fri, 17 Jan 2025 11:12:28 GMT)
- 「PaSa can autonomously make a series of decisions, including invoking search tools, reading papers, and selecting relevant references, to ultimately obtain comprehensive and accurate results for complex scholarly queries.」という論文情報を集めてくるエージェント。
- ベンチマークとしてAutoScholarQueryを構築している点が特徴的なのと、「Although PaSa is trained solely on synthetic data, it achieves remarkable real-world performance.」は少し驚き。
- Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking [124.7]
HaluSearchは、ツリー検索ベースのアルゴリズムを組み込んだ新しいフレームワークである。 テキスト生成をステップバイステップの推論プロセスとしてフレーム化する。 認知科学における二重プロセス理論に着想を得た階層的思考システムスイッチ機構を導入する。
論文 参考訳(メタデータ) (Thu, 02 Jan 2025 15:36:50 GMT)
- 「We propose HaluSearch, which integrates tree search-based algorithms (e g , MCTS) to explicitly implement a slow thinking process during the inference stage of LLMs, fully exploiting their own internal knowledge to mitigate hallucinations in generated text.」、各ステップの報酬を評価するスタイル。「To facilitate self-evaluation, we trained the reward model using data synthesized by the HaluSearch framework to assess the degree of hallucinations and provide reward signals.」とのこと。「Additionally, to improve efficiency, we introduced a dynamic system switch mechanism, which utilizes a trained switch model to enable LLMs to adaptively alternate between fast and slow thinking modes at both the instance and step levels.」という機構を有することが特徴的で、overthinking対策としても有望そうな感じがする。
- 現時点での全部入り的なアプローチで面白い。