2025年10月22日 – arXiv最新論文の紹介

ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning

ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.1]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文参考訳（メタデータ） (Thu, 09 Oct 2025 04:11:16 GMT)
LLMが使用するツールを整理するためのフレームワーク。ツールを自動作成しているアプローチもあるのでその整理は有用。
リポジトリはGitHub – SalesforceAIResearch/ToolLibGen

VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.8]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文参考訳（メタデータ） (Mon, 13 Oct 2025 13:38:54 GMT)
RAGにおける引用品質を高めるための「 initial answer generation, supporting evidence selection, and final answer refinement」からなるフレームワークの提案。
リポジトリはGitHub – QianHaosheng/VeriCite: Repo for VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models [30.3]
データ汚染は大規模言語モデル(LLM)の信頼性評価に重大な脅威をもたらすこの問題は、ベンチマークサンプルが必然的にトレーニングセットに現れ、報告されたパフォーマンスの有効性を損なうことになる。本稿では,RLポストトレーニングのための特殊汚染検出手法として,自己批判を提案する。
論文参考訳（メタデータ） (Fri, 10 Oct 2025 10:58:50 GMT)
コンタミネーション検知のためのSelf-Critique「. The method compares token-level entropy sequences between the initial response and the self-critique response. High similarity in entropy space indicates contamination (policy collapse), while low similarity indicates clean samples.」が興味深い。
リポジトリはGitHub – yongding-tao/RL-Data-Contamination

A Survey of Vibe Coding with Large Language Models [93.9]
視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
論文参考訳（メタデータ） (Tue, 14 Oct 2025 11:26:56 GMT)
「a novel development methodology termed “Vibe Coding” where developers validate AI-generated implementations through outcome observation rather than line-by- line code comprehension.」とVibe codingのサーベイ。。。
リポジトリはGitHub – YuyaoGe/Awesome-Vibe-Coding

通常の（？）ソフトウェアエンジニアリングのサーベイも出ていた。

A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [54.9]
本調査は, LLMを利用したソフトウェア工学の総合的解析を初めて行ったものである。我々は150以上の最近の論文を分析し、2つの主要な次元にまたがる包括的分類に分類する。我々の分析は、この分野が単純なプロンプトエンジニアリングから複雑なエージェントシステムへとどのように進化してきたかを明らかにする。
論文参考訳（メタデータ） (Fri, 10 Oct 2025 06:56:50 GMT)
software engineering + LLM based agentsのサーベイ