- DeepRAG: Thinking to Retrieval Step by Step for Large Language Models [92.9]
我々はマルコフ決定過程(MDP)として検索強化推論をモデル化するDeepRAGを提案する。 クエリを反復的に分解することで、DeepRAGは外部知識を取得するか、あるいは各ステップでパラメトリック推論に依存するかを動的に決定する。 実験の結果、DeepRAGは解答精度を21.99%向上させ、検索強化推論の最適化の有効性を示した。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 08:22:45 GMT) - 「(1) Binary Tree Search, (2) Imitation Learning, and (3) Chain of Calibration.」とかなり凝ったRAG。精度向上に効果があるのはそうだろうと思うが・・・。
日: 2025年2月11日
Large Language Model Critics for Execution-Free Evaluation of Code Changes
- Large Language Model Critics for Execution-Free Evaluation of Code Changes [5.2]
大規模言語モデル(LLM)は、ソフトウェアエンジニアリングタスクを自動化するための有望な方法を提供する。 ビルド状況や時折のログ分析などを評価するための既存のメトリクスは、変更の質を評価するのに必要な情報を提供するには不十分で制限されています。 本研究では,LLMをベースとした批判者に対して,コード変更の実行可能性に対する厳密で厳密な中間レベル/ステップレベルの,実行不要な評価プロキシを導出する設計を行った。
論文 参考訳(メタデータ) (Tue, 28 Jan 2025 02:38:56 GMT) - 「We introduce our test-centric framework utilizing isolated, test-aware LLM critics, which leverage a candidate patch against each associated test individually to predict whether the patch helps that test pass or not.」
- リポジトリはGitHub – amazon-science/code-agent-eval: Implemental for the paper “Large Language Model Critics for Execution-Free Evaluation of Code Changes”