A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI 

  • A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI [54.3]
    大規模言語モデルがソフトウェアエンジニアリングタスクに統合されるにつれ、コードの幻覚の理解と緩和が不可欠になる。 コード指向LLMにおける幻覚現象を4つの重要な観点から体系的に検討する。
    論文  参考訳(メタデータ)   (Sun, 02 Nov 2025 02:58:41 GMT)
  • 「(1) NLP surveys that summarize hallucination research in natural language generation, and (2) software engineering papers that directly investigate hallucinations in code.」を中心としたサーベイ。

Adapting Web Agents with Synthetic Supervision 

  • Adapting Web Agents with Synthetic Supervision [80.9]
    Webエージェントは、環境固有のタスクやデモが不足しているため、新しいWebサイトへの適応に苦慮している。 最近の研究は、この課題に対処するために合成データ生成を探求している。 完全合成監視フレームワークであるSynthAgentを提案する。
    論文  参考訳(メタデータ)   (Sat, 08 Nov 2025 18:45:33 GMT)
  • WEBエージェントを新たなサイトへ対応させるための合成データを活用するアプローチ。「(1) Task Synthesis with Categorized Exploration, which synthesizes diverse, environment specific tasks through categorized exploration. (2) Task Refinement during Trajectory Collection, which collects trajectories while refining task descriptions based on new observations to mitigate potential hallucinations. (3) Trajectory Refinement, which further improves collected trajectories using global context to edit noisy actions. (4) Agent Fine-tuning, which adapts the web agent to new environments under fully synthetic supervision.」という4ステップ構成。
  • リポジトリはGitHub – aiming-lab/SynthAgent

Training Language Models to Explain Their Own Computations 

  • Training Language Models to Explain Their Own Computations [73.9]
    本研究では,LMの自己内部への特権的アクセスをどの程度活用できるかを考察し,その振る舞いを説明するための新しい手法を提案する。 既存の解釈可能性技術を用いて,(1)LM特徴によって符号化された情報,(2)LMの内部アクティベーションの因果構造,(3)特定の入力トークンがLM出力に与える影響の自然言語記述を生成する。
    論文  参考訳(メタデータ)   (Wed, 12 Nov 2025 02:05:44 GMT)
  • 「Taken together, these results suggest that even when language models cannot faithfully self-explain as a result of ordinary training, they can learn to do so through an objective that enforces consistency between their external explanations and their internal procedures. This reframes interpretation as not only an external analysis problem, but as a capability that can be trained into LMs themeselves; by leveraging privileged access to internal computations, “introspective interpretability” techniques offer an avenue towards scalable understanding of model behavior.」と非常に興味深い研究

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

  • IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction [107.5]
    IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。 6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。 これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 17:30:08 GMT)
  • 長い処理を必要とする問題に対して通常行われる「The mono-contextual approach linearly accumulates all information into a single, ever- expanding context, leading to context suffocation and noise contamination.」からの改善、「IterResearch models deep research as an extended MDP with workspace reconstruction. Each round begins with a reconstructed workspace st containing the question, an evolving report Mt, and immediate context. The agent generates structured decisions dt = (Think, Report, Action) and interacts with environment E. The transition function T reconstructs the workspace, maintaining the Markov property while preventing context bloat and enabling sustained reasoning and information-seeking.」という手法を提案。AIといえども(?)情報整理は重要。
  • 多くのベンチマークでスコアを改善。

A Survey on Deep Text Hashing: Efficient Semantic Text Retrieval with Binary Representation 

  • A Survey on Deep Text Hashing: Efficient Semantic Text Retrieval with Binary Representation [69.5]
    テキストハッシュはオリジナルのテキストをコンパクトなバイナリハッシュコードに投影する。 ディープテキストハッシュは、従来のデータに依存しないハッシュ技術よりも大きなアドバンテージを示している。 本調査では, コアコンポーネントに基づいて分類することで, 現在の深層テキストハッシュ法について検討する。
    論文  参考訳(メタデータ)   (Fri, 31 Oct 2025 06:51:37 GMT)
  • 「In this survey, we offer a comprehensive review of the literature on deep text hashing. We begin by systematically categorizing various approaches based on two key aspects emphasized by current deep text hashing models: semantic extraction and hash code quality. Subsequently, we present performance evaluation results on several widely used benchmark datasets and summarize the prevailing directions of application.」というサーベイ。
  • リポジトリはGitHub – hly1998/DeepTextHashing: The Python implementation of some deep text hashing (also called deep semantic hashing) Models

Can LLM Annotations Replace User Clicks for Learning to Rank? 

  • Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2]
    大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。 クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。 公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。 データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 02:26:14 GMT)
  • 「We find that models trained on click data can capture semantic matching and document-level signals, with performance advantages in high-frequency queries. Models trained on LLM annotations exhibit a stronger ability to capture semantic matching, with performance advantages in medium- and low-frequency queries, and are better at distinguishing between relevant and irrelevant content compared to those trained on clicks」とのこと。
  • リポジトリはGitHub – Trustworthy-Information-Access/LLMAnn_Click

A Step Toward World Models: A Survey on Robotic Manipulation

  • A Step Toward World Models: A Survey on Robotic Manipulation [58.7]
    本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。 我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、現実世界のモデルが持つべきコアコンポーネント、能力、機能を抽出する。
    論文  参考訳(メタデータ)   (Fri, 31 Oct 2025 00:57:24 GMT)
  • 「In this survey, rather than directly imposing a fixed definition and limiting our scope to methods explicitly labeled as world models, we examine approaches that exhibit the core capabilities of world models through a review of methods in robotic manipulation. We analyze their roles across perception, prediction, and control, identify key challenges and solutions, and distill the core components, capabilities, and functions that a real world model should possess.」とのこと。

Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era

  • Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era [110.8]
    Real-IAD Varietyは、160の異なる対象カテゴリにわたる198,960の高解像度画像からなる、最大かつ最も多様なIADベンチマークである。 その多様性は、28の産業、24の素材タイプ、22のカラーバリエーションを包括的にカバーすることで保証されている。 この重要な分野のイノベーションを促進するために、Real-IAD Varietyが公開される。
    論文  参考訳(メタデータ)   (Sat, 01 Nov 2025 12:58:02 GMT)
  • Industrial anomaly detectionのための大規模データセット。
  • プロジェクトサイトはhttps://realiad4ad.github.io/Real-IAD-Variety

MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns

  • MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.1]
    MonkeyOCR v1.5は、2段階の解析パイプラインを通じてレイアウト理解とコンテンツ認識の両方を強化する、統一されたビジョン言語フレームワークである。 複雑なテーブル構造に対処するために,レンダリング・アンド・コンペアアライメントによる認識品質の評価を行う視覚的一貫性に基づく強化学習手法を提案する。 組込み画像を含むテーブルの信頼性の高い解析と、ページや列を横断するテーブルの再構築を可能にするために、2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingが導入されている。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:48:44 GMT)
  • MonkeyOCRのアップデート、「Comprehensive experiments on OmniDocBench v1.5 demonstrate that MonkeyOCR v1.5 achieves state-of-the-art performance, outperforming PPOCR-VL and MinerU 2.5 while showing exceptional robustness in visually complex document scenarios.」とのこと。
  • リポジトリはGitHub – Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model

Music Flamingo: Scaling Music Understanding in Audio Language Models

  • Music Flamingo: Scaling Music Understanding in Audio Language Models [98.9]
    Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。 MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。 MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:43:47 GMT)
  • 「Unlike speech or environmental sounds, music is inherently layered, expressive, and structured, combining surface- level acoustic attributes (tempo, key, timbre) with mid-level organization (harmony, form, rhythm) and higher-level dimensions (lyrics, style, affect, cultural context). Capturing this multi-faceted nature of music requires models that can move beyond surface-level recognition toward reasoning and interpretation more akin to a trained musician.」と非常に難しいタスクである音楽理解のためのモデルの提案。
  • プロジェクトサイトはMusic Flamingo: Scaling Music Understanding in Audio Language Models – NVIDIA ADLR