- Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain [11.9]
大きな言語モデル(LLM)は、人間のレベルや優れた言語能力を示している。 重要な疑問は、LLMの行動能力が人間の脳に類似したメカニズムに由来するかどうかである。 GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1, GLM-4などのモデルでは, ヒトの脳は異なるシナティクスレベルにおいて異なる皮質領域に依存している。
論文 参考訳(メタデータ) (Wed, 15 Oct 2025 08:04:49 GMT) - 「This study advances syntactic processing by introducing the Hierarchical Frequency Tagging Probe (HFTP), a unified framework for dissecting neuron-wise sentence and phrase representations in LLMs, population-level patterns in the human brain, and generalizing seamlessly to naturalistic text. The results reveal that while LLMs, such as GPT-2, Gemma, Llama 2, and others, exhibit hierarchical syntactic processing and alignment with left-hemisphere brain activity, the mechanisms underlying their representations diverge significantly from those in human cortical regions. Notably, newer models like Gemma 2 demonstrate improved alignment, whereas others, such as Llama 3.1, show weaker human-model correlations despite enhanced task performance.」とのこと。脳との類似性が本当にあるのか(それが判断可能なレベルで情報取得&分析できるのか)など疑問点はあるものの、面白い研究。
- リポジトリはGitHub – LilTiger/HFTP: Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain
カテゴリー: arXiv
UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.8]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。 実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 05:30:23 GMT) - マルチモーダルなRAGのためのベンチマーク。下記のように包括的で大規模(リポジトリの記載より引用)
- 70,000 real-world PDF pages across 8 diverse domains
- 1,600 multimodal QA pairs with 20% expert validation
- Four query types: factual retrieval, comparison, summarization, and logical reasoning
- Unified evaluation protocol with standardized candidate pools, prompts, and metrics
- リポジトリはGitHub – SalesforceAIResearch/UniDoc-Bench
Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
- Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks [23.2]
大規模言語モデルは、長期のエージェントタスクにおいて課題に直面します。 既存のワーキングメモリメソッドは、エージェントのコアポリシーから切り離された外部メカニズムに依存している。 本稿では,一貫したポリシーの一部として明示的な編集操作を実行することで,エージェントが作業メモリを積極的に管理する新しいフレームワーク,Memory-as-Actionを提案する。
論文 参考訳(メタデータ) (Tue, 14 Oct 2025 15:29:57 GMT) - 「This work introduces Memory-as-Action, a framework that treats working memory management as an integral part of an agent’s decision-making process, rather than as an external module. By formalizing memory operations as explicit actions, a single policy can learn to interleave task reasoning with context curation.」というフレームワークの提案、作業領域管理と推論を同時管理する手法の優位性を主張。
FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset
- FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset [55.7]
我々は,大規模なUMIスタイルのマルチモーダルデモデータセットであるFastUMI-100Kを提案する。 FastUMI-100Kは、現実世界のロボットデモデータの多様な要求を満たすために、よりスケーラブルで柔軟性があり、適応可能なソリューションを提供する。 我々のデータセットは、エンドエフェクタ状態、多視点手首装着魚眼画像、テキストアノテーションを含むマルチモーダルストリームを統合している。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 09:57:25 GMT) - 「Utilizing the FastUMI data collection system [21], we in- tegrated single-arm and dual-arm configurations with adapt- able universal finger sleeves to conduct large-scale data collection. In this paper, we introduce the large-scale UMI- style multimodal dataset—FastUMI-100K, which incorpo- rates the dataset of the pioneering work FastUMI and totally comprises over 100,000 demonstration trajectories, collected using both single-arm and dual-arm grippers on the FastUMI platform, equivalent to 600 hours of interactive data.」というデータセット。
- リポジトリはGitHub – MrKeee/FastUMI-100K
MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.7]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。 我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。 トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 17:53:58 GMT) - 「MM-HELIX contains 42 meticulously curated challeng- ing tasks from diverse online sources, categorized into four domains: Algorithm, Graph, Puzzle, and Game. Each task requires the model to perform careful visual observation, develop a deep understanding of complex rules, and generate an extended chain-of-thought that necessitates reflec- tion and backtracking.」という試行、失敗、修正のような長い思考を必要とするベンチマークの提案。GPT-5の性能が高くOSSモデルとの性能差が大きい。
- プロジェクトサイトはMM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization
ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning
- ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.1]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。 このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。 構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 04:11:16 GMT) - LLMが使用するツールを整理するためのフレームワーク。ツールを自動作成しているアプローチもあるのでその整理は有用。
- リポジトリはGitHub – SalesforceAIResearch/ToolLibGen
VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification
- VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.8]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。 我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (Mon, 13 Oct 2025 13:38:54 GMT) - RAGにおける引用品質を高めるための「 initial answer generation, supporting evidence selection, and final answer refinement」からなるフレームワークの提案。
- リポジトリはGitHub – QianHaosheng/VeriCite: Repo for VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
- Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models [30.3]
データ汚染は大規模言語モデル(LLM)の信頼性評価に重大な脅威をもたらす この問題は、ベンチマークサンプルが必然的にトレーニングセットに現れ、報告されたパフォーマンスの有効性を損なうことになる。 本稿では,RLポストトレーニングのための特殊汚染検出手法として,自己批判を提案する。
論文 参考訳(メタデータ) (Fri, 10 Oct 2025 10:58:50 GMT) - コンタミネーション検知のためのSelf-Critique「. The method compares token-level entropy sequences between the initial response and the self-critique response. High similarity in entropy space indicates contamination (policy collapse), while low similarity indicates clean samples.」が興味深い。
- リポジトリはGitHub – yongding-tao/RL-Data-Contamination
A Survey of Vibe Coding with Large Language Models
- A Survey of Vibe Coding with Large Language Models [93.9]
視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。 変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。 この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
論文 参考訳(メタデータ) (Tue, 14 Oct 2025 11:26:56 GMT) - 「a novel development methodology termed “Vibe Coding” where developers validate AI-generated implementations through outcome observation rather than line-by- line code comprehension.」とVibe codingのサーベイ。。。
- リポジトリはGitHub – YuyaoGe/Awesome-Vibe-Coding
通常の(?)ソフトウェアエンジニアリングのサーベイも出ていた。
- A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [54.9]
本調査は, LLMを利用したソフトウェア工学の総合的解析を初めて行ったものである。 我々は150以上の最近の論文を分析し、2つの主要な次元にまたがる包括的分類に分類する。 我々の分析は、この分野が単純なプロンプトエンジニアリングから複雑なエージェントシステムへとどのように進化してきたかを明らかにする。
論文 参考訳(メタデータ) (Fri, 10 Oct 2025 06:56:50 GMT) - software engineering + LLM based agentsのサーベイ
LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation
- LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation [110.6]
Retrieval-augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。 既存の研究はしばしばユーティリティをジェネリック属性として扱い、異なるLLMが同じ通路から異なる利益をもたらすという事実を無視している。
論文 参考訳(メタデータ) (Mon, 13 Oct 2025 12:57:45 GMT) - 「(1) We highlight the new perspective of utility for RAG, i.e., LLM-specific utility. (2) We introduce the LLM-specific utility judgment task, propose a benchmarking procedure, and provide a comprehensive empirical analysis of various LLMs and methods.(3) We identify the key direction in achieving more effective LLM-specific utility judgment: known queries should reject all passages, while unknown ones must identify useful ones, which need to be analyzed further.」とのこと。そうだよねという印象で、RAGの特性を整理するうえでも参考になる。
- リポジトリはAnonymized Repository – Anonymous GitHub