IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

  • IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction [107.5]
    IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。 6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。 これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 17:30:08 GMT)
  • 長い処理を必要とする問題に対して通常行われる「The mono-contextual approach linearly accumulates all information into a single, ever- expanding context, leading to context suffocation and noise contamination.」からの改善、「IterResearch models deep research as an extended MDP with workspace reconstruction. Each round begins with a reconstructed workspace st containing the question, an evolving report Mt, and immediate context. The agent generates structured decisions dt = (Think, Report, Action) and interacts with environment E. The transition function T reconstructs the workspace, maintaining the Markov property while preventing context bloat and enabling sustained reasoning and information-seeking.」という手法を提案。AIといえども(?)情報整理は重要。
  • 多くのベンチマークでスコアを改善。

A Survey on Deep Text Hashing: Efficient Semantic Text Retrieval with Binary Representation 

  • A Survey on Deep Text Hashing: Efficient Semantic Text Retrieval with Binary Representation [69.5]
    テキストハッシュはオリジナルのテキストをコンパクトなバイナリハッシュコードに投影する。 ディープテキストハッシュは、従来のデータに依存しないハッシュ技術よりも大きなアドバンテージを示している。 本調査では, コアコンポーネントに基づいて分類することで, 現在の深層テキストハッシュ法について検討する。
    論文  参考訳(メタデータ)   (Fri, 31 Oct 2025 06:51:37 GMT)
  • 「In this survey, we offer a comprehensive review of the literature on deep text hashing. We begin by systematically categorizing various approaches based on two key aspects emphasized by current deep text hashing models: semantic extraction and hash code quality. Subsequently, we present performance evaluation results on several widely used benchmark datasets and summarize the prevailing directions of application.」というサーベイ。
  • リポジトリはGitHub – hly1998/DeepTextHashing: The Python implementation of some deep text hashing (also called deep semantic hashing) Models

Can LLM Annotations Replace User Clicks for Learning to Rank? 

  • Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2]
    大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。 クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。 公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。 データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 02:26:14 GMT)
  • 「We find that models trained on click data can capture semantic matching and document-level signals, with performance advantages in high-frequency queries. Models trained on LLM annotations exhibit a stronger ability to capture semantic matching, with performance advantages in medium- and low-frequency queries, and are better at distinguishing between relevant and irrelevant content compared to those trained on clicks」とのこと。
  • リポジトリはGitHub – Trustworthy-Information-Access/LLMAnn_Click

A Step Toward World Models: A Survey on Robotic Manipulation

  • A Step Toward World Models: A Survey on Robotic Manipulation [58.7]
    本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。 我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、現実世界のモデルが持つべきコアコンポーネント、能力、機能を抽出する。
    論文  参考訳(メタデータ)   (Fri, 31 Oct 2025 00:57:24 GMT)
  • 「In this survey, rather than directly imposing a fixed definition and limiting our scope to methods explicitly labeled as world models, we examine approaches that exhibit the core capabilities of world models through a review of methods in robotic manipulation. We analyze their roles across perception, prediction, and control, identify key challenges and solutions, and distill the core components, capabilities, and functions that a real world model should possess.」とのこと。

Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era

  • Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era [110.8]
    Real-IAD Varietyは、160の異なる対象カテゴリにわたる198,960の高解像度画像からなる、最大かつ最も多様なIADベンチマークである。 その多様性は、28の産業、24の素材タイプ、22のカラーバリエーションを包括的にカバーすることで保証されている。 この重要な分野のイノベーションを促進するために、Real-IAD Varietyが公開される。
    論文  参考訳(メタデータ)   (Sat, 01 Nov 2025 12:58:02 GMT)
  • Industrial anomaly detectionのための大規模データセット。
  • プロジェクトサイトはhttps://realiad4ad.github.io/Real-IAD-Variety

MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns

  • MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.1]
    MonkeyOCR v1.5は、2段階の解析パイプラインを通じてレイアウト理解とコンテンツ認識の両方を強化する、統一されたビジョン言語フレームワークである。 複雑なテーブル構造に対処するために,レンダリング・アンド・コンペアアライメントによる認識品質の評価を行う視覚的一貫性に基づく強化学習手法を提案する。 組込み画像を含むテーブルの信頼性の高い解析と、ページや列を横断するテーブルの再構築を可能にするために、2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingが導入されている。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:48:44 GMT)
  • MonkeyOCRのアップデート、「Comprehensive experiments on OmniDocBench v1.5 demonstrate that MonkeyOCR v1.5 achieves state-of-the-art performance, outperforming PPOCR-VL and MinerU 2.5 while showing exceptional robustness in visually complex document scenarios.」とのこと。
  • リポジトリはGitHub – Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model

Music Flamingo: Scaling Music Understanding in Audio Language Models

  • Music Flamingo: Scaling Music Understanding in Audio Language Models [98.9]
    Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。 MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。 MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:43:47 GMT)
  • 「Unlike speech or environmental sounds, music is inherently layered, expressive, and structured, combining surface- level acoustic attributes (tempo, key, timbre) with mid-level organization (harmony, form, rhythm) and higher-level dimensions (lyrics, style, affect, cultural context). Capturing this multi-faceted nature of music requires models that can move beyond surface-level recognition toward reasoning and interpretation more akin to a trained musician.」と非常に難しいタスクである音楽理解のためのモデルの提案。
  • プロジェクトサイトはMusic Flamingo: Scaling Music Understanding in Audio Language Models – NVIDIA ADLR

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

  • When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.7]
    MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。 546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
    論文  参考訳(メタデータ)   (Tue, 04 Nov 2025 18:00:51 GMT)
  • 「To bridge this gap, we introduce MIRA (Multimodal Imagination for Reasoning Assessment), a benchmark designed to evaluate reasoning scenarios where generating or leveraging intermediate visual representations is essential. Each instance is constructed according to three principles: (1) requiring intermediate visual cues to answer the question, (2) pairing each instance with annotated step-wise visual clues to enable evaluation under a Visual-CoT setup, and (3) enforcing strict human annotation and cross-validation to guarantee data quality.」と視覚的・画像的な中間表現を必要とする推論のためのベンチマークの提案。フロンティアモデルでも難しいタスクになっている(が、公開モデルも健闘しているように見える)
  • プロジェクトサイトはWhen Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

AlphaResearch: Accelerating New Algorithm Discovery with Language Models

  • AlphaResearch: Accelerating New Algorithm Discovery with Language Models [60.5]
    大規模言語モデルは複雑だが検証が容易な問題において大きな進歩を遂げてきたが、未知の発見に苦戦している。 オープンエンド問題に対する新しいアルゴリズムの発見を目的とした,自律型研究エージェントである AlphaResearch を提示する。
    論文  参考訳(メタデータ)   (Wed, 12 Nov 2025 02:03:05 GMT)
  • 「The novel algorithms discovered by AlphaResearch not only surpass best-of-human performance but also significantly outperform the state-of-the-art results achieved by AlphaEvolve.」と驚く結果を報告。「Our approach demonstrates the potential of employing LLM to discover unexplored research area, enabling language models to effectively tackle complex open-ended tasks. We construct AlphaResearchComp, including 8 open-ended algorithmic problems, where AlphaResearch outperforms human researchers in 2/8 algorithmic problems but lags behind in the remaining 6 problems.」とのこと。評価は難しいが、人間を上回っても驚かないようなすごい時代になっている。
  • リポジトリはGitHub – answers111/alpha-research: Repo for “AlphaResearch: Accelerating New Algorithm Discovery with Language Models”

GPT-5.1, ERNIE 5, Marble, SIMA2

先週もGPT-5.1の公開(GPT-5.1: A smarter, more conversational ChatGPT | OpenAI)、ERNIE 5の公開(XユーザーのBaidu Inc.さん: 「Here comes ERNIE 5.0 — our latest natively omni-modal foundational model. It excels in omni-modal understanding, creative writing, instruction following, and more. We will continue investing in and developing more cutting-edge models to push the boundaries of intelligence. https://t.co/S3L1Tlre2n」 / X)などニュースが続いた。評価はこれから、という感じではあるが大規模展開をすぐに行っていくのがすごい。

動画生成、3D生成など生成モデルをベースとしてWorld Model構築のトライが流行っており、Marble: A Multimodal World Model | World Labsも要注目である。同じく先週発表されたSIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds – Google DeepMindのなかでGenie3(Genie 3: A new frontier for world models – Google DeepMind)への言及がある通りAI Agentが学ぶ場としても有効に思える。AIの内心・想像の世界としても有効性が指摘されていてホットな領域。