Fluid Language Model Benchmarking 

  • Fluid Language Model Benchmarking [126.9]
    我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。 サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。 効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
    論文  参考訳(メタデータ)   (Sun, 14 Sep 2025 05:49:42 GMT)
  • 「we introduce FLUID BENCHMARKING, a new evaluation approach that advances LM benchmarking across multiple dimensions. Inspired by psychometrics, FLUID BENCHMARKING is based on the insight that the relative value of benchmark items depends on an LM’s capability level, suggesting that evaluation should adapt to each LM. Methodologically, FLUID BENCH- MARKING estimates an item response model based on existing LM evaluation results and uses the inferred quantities to select evaluation items dynamically, similar to computerized adaptive testing in education.」との評価方法の提案。
  • リポジトリはGitHub – allenai/fluid-benchmarking: Fluid Language Model Benchmarking

LIMI: Less is More for Agency 

  • LIMI: Less is More for Agency [49.6]
    LIMI(Less Is More for Intelligent Agency)は、機関が根本的に異なる開発原則に従うことを示す。 高度なエージェント・インテリジェンスは、最小でも戦略的にキュレートされた自律行動のデモンストレーションから生まれる可能性がある。 マシンの自律性はデータの豊富さではなく、高品質なエージェント実証の戦略的キュレーションから生まれる。
    論文  参考訳(メタデータ)   (Mon, 22 Sep 2025 10:59:32 GMT)
  • 「These findings establish the Agency Efficiency Principle: machine autonomy emerges not from data abundance but from strategic curation of high-quality agentic demonstrations. This discovery fundamentally reshapes how we develop autonomous AI systems, suggesting that mastering agency requires understanding its essence, not scaling training data.」という主張。「we refer to models fine-tuned with our curated dataset as LIMI (corresponding to fine-tuning GLM-4.5) and LIMI-Air (corresponding to fine-tuning GLM-4.5-Air).」とSFTのようなだが、パラメータの大きなGLM-4.5ベースの方が改善幅も大きく見える。
  • リポジトリはGitHub – GAIR-NLP/LIMI: LIMI: Less is More for Agency

Hunyuan3D-Omni, Qwen3-Omni, LongCat-Flash-Thinking, EmbeddingGemma, Logics-Parsing 

公開モデルの開発はとても盛んで、先週はQwen3 Omniが話題になることが多かったように思う。arXivではQwen3 Omini以外にも有望なモデルの発表が相次いでいる。

  • Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets [34.7]
    Hunyuan3D-Omniは、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統一されたフレームワークである。 我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。 実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、生産の堅牢性も向上することが示された。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 14:39:17 GMT)
  • 3Dにフォーカスした実装
  • リポジトリはGitHub – Tencent-Hunyuan/Hunyuan3D-Omni: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
  • LongCat-Flash-Thinking Technical Report [116.8]
    LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。 高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。 LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Tue, 23 Sep 2025 10:25:48 GMT)
  • MoEなLRM、OSSなモデルでのSoTAを主張
  • リポジトリはmeituan-longcat/LongCat-Flash-Thinking · Hugging Face
  • EmbeddingGemma: Powerful and Lightweight Text Representations [42.4]
    EmbeddingGemmaはGemma 3言語ファミリに基づいた、新しい軽量でオープンなテキスト埋め込みモデルである。 スプレッドアウト正規化器を用いてモデル頑健性と表現性を向上する。 さらなる研究を促進するため、コミュニティに EmbeddingGemma をリリースします。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 17:56:51 GMT)
  • 小規模、強力なEmbeddingモデル
  • リポジトリはEmbeddingGemma – a google Collection
  • Logics-Parsing Technical Report [9.0]
    我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。 本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。 LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 04:54:37 GMT)
  • Document Understandingに有効なLVLM
  • リポジトリはGitHub – alibaba/Logics-Parsing

Video models are zero-shot learners and reasoners

  • Video models are zero-shot learners and reasoners [33.7]
    Veo 3は、明示的にトレーニングされていないさまざまなタスクを解決できます。 Veoの創発的なゼロショット機能は、ビデオモデルが統一された一般的なビジョン基盤モデルへの道のりにあることを示している。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 17:17:27 GMT)
  • 「We demonstrate that Veo 3 can solve a broad variety of tasks it wasn’t explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. 」、「Veo 3 shows emergent zero-shot perceptual abilities well beyond the training task. Just like LLMs replaced task-specific NLP models, video models will likely replace most bespoke models in computer vision—once they become sufficiently cheap and reliable.」という指摘。とても未来を感じると同時に直観的のは理解しがたい面もある。
  • リポジトリはVideo models are zero-shot learners and reasoners

State Space Models over Directed Graphs

  • State Space Models over Directed Graphs [38.8]
    我々は、k-hop egoグラフを介して有向グラフを逐次化する革新的なアプローチを提案する。 これは、有向グラフ学習の分野への状態空間モデルの最初の体系的拡張である。 また,新しい有向グラフニューラルネットワークアーキテクチャであるDirGraphSSMを開発した。
    論文  参考訳(メタデータ)   (Wed, 17 Sep 2025 06:39:18 GMT)
  • 状態空間モデルのグラフ構造への応用、「In this paper, we first propose DirGraphSSM, a novel graph state space model designed for large-scale sparse di- rected graph learning. Through two innovative components, namely DirEgo2Token and Digraph SSM Scan.」

Causal Time Series Generation via Diffusion Models

  • Causal Time Series Generation via Diffusion Models [97.0]
    新しいTSGタスクファミリーとして因果時系列生成を導入し,Pearlの因果はしご内で定式化した。 これらのタスクをインスタンス化するために、統合拡散ベースのフレームワークであるCaTSGを開発した。 合成データセットと実世界のデータセットの両方の実験は、CaTSGが優れた忠実性を達成することを示している。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 07:34:46 GMT)
  • 「Causal Expansion of Conditional TSG Paradigm. We formalize causal time series generation as an extension of conditional TSG along Pearl’s ladder, introducing two tasks beyond association, i.e., interventional (Int-TSG) and counterfactual (CF-TSG), to open up richer generative capabilities aligned with real-world decision-making needs.」と因果性に基づいた時系列データの生成手法の提案

A Systematic Survey on Large Language Models for Evolutionary Optimization: From Modeling to Solving 

  • A Systematic Survey on Large Language Models for Evolutionary Optimization: From Modeling to Solving [26.5]
    大規模言語モデル(LLM)は、最適化問題に対処するためにますます研究されている。 急速な進歩にもかかわらず、この分野は依然として統一的な合成と体系的な分類を欠いている。 この調査は、最近の開発を包括的にレビューし、構造化されたフレームワーク内でそれらを整理することで、このギャップに対処する。
  • 論文  参考訳(メタデータ)   (Wed, 10 Sep 2025 04:05:54 GMT)
  • 最適化問題に対するLLM活用のサーベイ
  • リポジトリはGitHub – ishmael233/LLM4OPT: A collection of LLMs for optimization, including modeling and solving

InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering 

  • InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering [17.3]
    Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の重要な限界に対処する,有望なアプローチとして登場した。 本稿では,検索した文書のコントリビューションを定量化し,回答生成の精度を高めるために,文書情報ゲイン(Document Information Gain, DIG)を提案する。 本稿では,DIGスコアを利用した特殊リランカの学習フレームワークInfoGain-RAGを紹介する。
    論文  参考訳(メタデータ)   (Tue, 16 Sep 2025 07:28:07 GMT)
  • 「We introduce a novel metric called Document Information Gain (DIG), to quantify each retrieved document’s impact on the LLM’s generation confidence.」というメトリックの提案。rerankerとしての有効性を確認。

Text2Mem: A Unified Memory Operation Language for Memory Operating System 

  • Text2Mem: A Unified Memory Operation Language for Memory Operating System [33.0]
    モデルエージェントのための統一メモリ操作言語であるText2Memを紹介する。 Text2Memは、自然な正確性を保証するための標準化されたパスを提供する。
    論文  参考訳(メタデータ)   (Sun, 14 Sep 2025 07:30:09 GMT)
  • 「We propose Text2Mem, the first unified memory operation language for LLM-based agents. It defines a compact but expressive set of twelve operations, spanning encoding, storage, and retrieval, with clear semantic boundaries and support for higher-order controls.」とAgentic処理を前提としたメモリフレームワーク。
  • リポジトリはGitHub – MemTensor/text2mem

Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning 

  • Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning [23.2]
    大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、構造化されたシンボリックプランニングを実行する能力はまだ限られている。 論理的連鎖推論によりLLMのシンボリックプランニング能力を高めるために設計された新しい命令チューニングフレームワークPDDL-Instructを提案する。
    論文  参考訳(メタデータ)   (Sun, 14 Sep 2025 02:42:34 GMT)
  • 「We have presented PDDL-INSTRUCT, a novel framework that significantly enhances the symbolic planning capabilities of Large Language Models through logical chain-of-thought instruction tuning. By decomposing the planning process into verifiable logical reasoning chains and providing explicit verification feedback, our approach enables LLMs to generate valid plans with unprecedented reliability across diverse planning domains.」と工夫した形の計画作成用PostTraining