- A Survey on Deep Text Hashing: Efficient Semantic Text Retrieval with Binary Representation [69.5]
テキストハッシュはオリジナルのテキストをコンパクトなバイナリハッシュコードに投影する。 ディープテキストハッシュは、従来のデータに依存しないハッシュ技術よりも大きなアドバンテージを示している。 本調査では, コアコンポーネントに基づいて分類することで, 現在の深層テキストハッシュ法について検討する。
論文 参考訳(メタデータ) (Fri, 31 Oct 2025 06:51:37 GMT) - 「In this survey, we offer a comprehensive review of the literature on deep text hashing. We begin by systematically categorizing various approaches based on two key aspects emphasized by current deep text hashing models: semantic extraction and hash code quality. Subsequently, we present performance evaluation results on several widely used benchmark datasets and summarize the prevailing directions of application.」というサーベイ。
- リポジトリはGitHub – hly1998/DeepTextHashing: The Python implementation of some deep text hashing (also called deep semantic hashing) Models
Can LLM Annotations Replace User Clicks for Learning to Rank?
- Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2]
大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。 クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。 公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。 データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
論文 参考訳(メタデータ) (Mon, 10 Nov 2025 02:26:14 GMT) - 「We find that models trained on click data can capture semantic matching and document-level signals, with performance advantages in high-frequency queries. Models trained on LLM annotations exhibit a stronger ability to capture semantic matching, with performance advantages in medium- and low-frequency queries, and are better at distinguishing between relevant and irrelevant content compared to those trained on clicks」とのこと。
- リポジトリはGitHub – Trustworthy-Information-Access/LLMAnn_Click
A Step Toward World Models: A Survey on Robotic Manipulation
- A Step Toward World Models: A Survey on Robotic Manipulation [58.7]
本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。 我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、現実世界のモデルが持つべきコアコンポーネント、能力、機能を抽出する。
論文 参考訳(メタデータ) (Fri, 31 Oct 2025 00:57:24 GMT) - 「In this survey, rather than directly imposing a fixed definition and limiting our scope to methods explicitly labeled as world models, we examine approaches that exhibit the core capabilities of world models through a review of methods in robotic manipulation. We analyze their roles across perception, prediction, and control, identify key challenges and solutions, and distill the core components, capabilities, and functions that a real world model should possess.」とのこと。
Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era
- Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era [110.8]
Real-IAD Varietyは、160の異なる対象カテゴリにわたる198,960の高解像度画像からなる、最大かつ最も多様なIADベンチマークである。 その多様性は、28の産業、24の素材タイプ、22のカラーバリエーションを包括的にカバーすることで保証されている。 この重要な分野のイノベーションを促進するために、Real-IAD Varietyが公開される。
論文 参考訳(メタデータ) (Sat, 01 Nov 2025 12:58:02 GMT) - Industrial anomaly detectionのための大規模データセット。
- プロジェクトサイトはhttps://realiad4ad.github.io/Real-IAD-Variety
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.1]
MonkeyOCR v1.5は、2段階の解析パイプラインを通じてレイアウト理解とコンテンツ認識の両方を強化する、統一されたビジョン言語フレームワークである。 複雑なテーブル構造に対処するために,レンダリング・アンド・コンペアアライメントによる認識品質の評価を行う視覚的一貫性に基づく強化学習手法を提案する。 組込み画像を含むテーブルの信頼性の高い解析と、ページや列を横断するテーブルの再構築を可能にするために、2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingが導入されている。
論文 参考訳(メタデータ) (Fri, 14 Nov 2025 01:48:44 GMT) - MonkeyOCRのアップデート、「Comprehensive experiments on OmniDocBench v1.5 demonstrate that MonkeyOCR v1.5 achieves state-of-the-art performance, outperforming PPOCR-VL and MinerU 2.5 while showing exceptional robustness in visually complex document scenarios.」とのこと。
- リポジトリはGitHub – Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model
Music Flamingo: Scaling Music Understanding in Audio Language Models
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.9]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。 MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。 MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (Fri, 14 Nov 2025 01:43:47 GMT) - 「Unlike speech or environmental sounds, music is inherently layered, expressive, and structured, combining surface- level acoustic attributes (tempo, key, timbre) with mid-level organization (harmony, form, rhythm) and higher-level dimensions (lyrics, style, affect, cultural context). Capturing this multi-faceted nature of music requires models that can move beyond surface-level recognition toward reasoning and interpretation more akin to a trained musician.」と非常に難しいタスクである音楽理解のためのモデルの提案。
- プロジェクトサイトはMusic Flamingo: Scaling Music Understanding in Audio Language Models – NVIDIA ADLR
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
- When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.7]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。 546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (Tue, 04 Nov 2025 18:00:51 GMT) - 「To bridge this gap, we introduce MIRA (Multimodal Imagination for Reasoning Assessment), a benchmark designed to evaluate reasoning scenarios where generating or leveraging intermediate visual representations is essential. Each instance is constructed according to three principles: (1) requiring intermediate visual cues to answer the question, (2) pairing each instance with annotated step-wise visual clues to enable evaluation under a Visual-CoT setup, and (3) enforcing strict human annotation and cross-validation to guarantee data quality.」と視覚的・画像的な中間表現を必要とする推論のためのベンチマークの提案。フロンティアモデルでも難しいタスクになっている(が、公開モデルも健闘しているように見える)
- プロジェクトサイトはWhen Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
AlphaResearch: Accelerating New Algorithm Discovery with Language Models
- AlphaResearch: Accelerating New Algorithm Discovery with Language Models [60.5]
大規模言語モデルは複雑だが検証が容易な問題において大きな進歩を遂げてきたが、未知の発見に苦戦している。 オープンエンド問題に対する新しいアルゴリズムの発見を目的とした,自律型研究エージェントである AlphaResearch を提示する。
論文 参考訳(メタデータ) (Wed, 12 Nov 2025 02:03:05 GMT) - 「The novel algorithms discovered by AlphaResearch not only surpass best-of-human performance but also significantly outperform the state-of-the-art results achieved by AlphaEvolve.」と驚く結果を報告。「Our approach demonstrates the potential of employing LLM to discover unexplored research area, enabling language models to effectively tackle complex open-ended tasks. We construct AlphaResearchComp, including 8 open-ended algorithmic problems, where AlphaResearch outperforms human researchers in 2/8 algorithmic problems but lags behind in the remaining 6 problems.」とのこと。評価は難しいが、人間を上回っても驚かないようなすごい時代になっている。
- リポジトリはGitHub – answers111/alpha-research: Repo for “AlphaResearch: Accelerating New Algorithm Discovery with Language Models”
GPT-5.1, ERNIE 5, Marble, SIMA2
先週もGPT-5.1の公開(GPT-5.1: A smarter, more conversational ChatGPT | OpenAI)、ERNIE 5の公開(XユーザーのBaidu Inc.さん: 「Here comes ERNIE 5.0 — our latest natively omni-modal foundational model. It excels in omni-modal understanding, creative writing, instruction following, and more. We will continue investing in and developing more cutting-edge models to push the boundaries of intelligence. https://t.co/S3L1Tlre2n」 / X)などニュースが続いた。評価はこれから、という感じではあるが大規模展開をすぐに行っていくのがすごい。
動画生成、3D生成など生成モデルをベースとしてWorld Model構築のトライが流行っており、Marble: A Multimodal World Model | World Labsも要注目である。同じく先週発表されたSIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds – Google DeepMindのなかでGenie3(Genie 3: A new frontier for world models – Google DeepMind)への言及がある通りAI Agentが学ぶ場としても有効に思える。AIの内心・想像の世界としても有効性が指摘されていてホットな領域。
TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models / Does TabPFN Understand Causal Structures? / TransactionGPT
- TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models [76.5]
TabPFN-2.5は5万のデータポイントと2,000の機能を持つデータセット用に構築されている。 チューニングされたツリーベースモデルとAutoGluon 1.4の精度を大幅に上回った。 生産用として,TabPFN-2.5を小型または木製アンサンブルに変換する新しい蒸留エンジンを導入する。
論文 参考訳(メタデータ) (Thu, 13 Nov 2025 01:01:46 GMT) - テーブルデータに対する基盤モデルの提案、TabArena – a Hugging Face Space by TabArenaで「TabPFN-2.5 is now the leading method for the industry standard benchmark TabArena (which contains datasets with up to 100,000 training data points), substantially outperforming tuned tree-based models and matching the accuracy of AutoGluon 1.4, a complex four-hour tuned ensemble that even includes the previous TabPFNv2. Remarkably, default TabPFN-2.5 has a 100% win rate against default XGBoost on small to medium-sized classification datasets (≤10,000 data points, 500 features) and a 87% win rate on larger datasets up to 100K samples and 2K features (85% for regression).」と高性能を主張
- Prior Labs
- Does TabPFN Understand Causal Structures? [40.2]
本研究では,TabPFNが内部表現に因果情報をエンコードするかどうかを検討する。 学習可能なデコーダと因果トークンを用いたアダプタフレームワークを開発した。 評価の結果,TabPFNの埋め込みには因果情報が含まれており,従来の因果発見アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (Mon, 10 Nov 2025 15:53:15 GMT) - 「We show that TabPFN’s embeddings contain causal information and that our adaptor framework outperforms traditional causal discovery algorithms when causal information is extracted from mid- range layers. This further promotes leveraging pre-trained tabular models for extracting causal structures, improving the interpretability of these models, and aiding in scientific discovery.」と興味深い性質を報告。
- TransactionGPT [41.9]
TransactionGPTは、世界最大の決済ネットワーク内のコンシューマトランザクションデータの基盤モデルである。 本稿では,支払いトランザクションデータの複雑なダイナミクスを捉えるために,新しい3D-Transformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (Thu, 13 Nov 2025 01:20:09 GMT) - Visa Researchによる基盤モデル。「TransactionGPT (TGPT), a foundation model that captures complex consumer shopping dynamics from Multi-Modal-Temporal-Tabular (MMTT) data.」、「Extensive experiments on large-scale, real-world payment data validate TGPT’s ability to learn meaningful transaction patterns, leading to significant performance improve- ments on critical downstream tasks. Furthermore, we quantify the benefits of several designs that enhance the TGPT’s efficiency and scalability.」とのこと。