- OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation [39.3]
Omni-1Mは、文書レイアウトの最初の100万スケールデータセットである。 2段階学習パラダイムを設計した0.5BモデルであるOmni-LLMを紹介する。 私たちのコード、モデル、データセットは公開されます。
論文 参考訳(メタデータ) (Thu, 30 Oct 2025 07:39:54 GMT) - 文書レイアウトのデータセットOmniLayout-1M及びOmniLayout-LLMの提案。
- 「Our code, models, and dataset will be publicly released.」とのこと
投稿者: staka
MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning
- MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.3]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。 それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。 我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (Tue, 04 Nov 2025 18:27:39 GMT) - 「We introduce MemSearcher, an agentic workflow that leverages the backbone LLM as a memory manager to iteratively maintain a compact memory, preserving only the essential information necessary for answering the user’s question and thereby eliminating the need to append the entire interaction history to the LLM context. • We develop search agents based on MemSearcher, and utilize multi-context GRPO, a natural extension of GRPO, to optimize LLMs to reason, leverage search engines and manage memory simultaneously.」とメモリ関連の機能尾をうまく扱えるように強化学習されたモデルの提案。「MemSearcher based on Qwen2.5-3B-Instruct achieves a higher average score than other methods based on Qwen2.5-7B-Instruct.」と効果を確認。
- リポジトリはGitHub – icip-cas/MemSearcher
Scaling Agent Learning via Experience Synthesis
- Scaling Agent Learning via Experience Synthesis [100.4]
強化学習(RL)は、対話を通じて自己改善を行うことで、大規模言語モデル(LLM)エージェントを強化することができる。 私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。 高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに蒸留する。
論文 参考訳(メタデータ) (Wed, 05 Nov 2025 18:58:48 GMT) - 「To synthesize diverse agent experiences for RL training, DreamGym is built around three key components: (1) a scalable reasoning experience model that encodes the meta-dynamics of the target domain to efficiently generate informative trajectories; (2) an experience replay buffer that integrates offline environment knowledge with online synthetic transitions, co-evolving with the agent to stay aligned with its updated policy; (3) a curriculum task generator that produces progressively challenging variations of high-value tasks selected via a reward-entropy heuristic.」と強力な合成フレームワーク。
A Survey on Unlearning in Large Language Models
- A Survey on Unlearning in Large Language Models [18.3]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、大規模なコーパスでのトレーニングは重大なリスクをもたらす。 これらの問題を緩和し、「忘れられる権利」のような法的・倫理的な基準に合わせるために、機械の非学習は重要なテクニックとして現れてきた。 この調査は、2021年以降に出版されたLLMアンラーニングに関する180以上の論文の体系的なレビューを提供する。
論文 参考訳(メタデータ) (Wed, 29 Oct 2025 02:34:17 GMT) - 社会実装上重要だが簡単ではないunlearningのサーベイ
Thinking with Video, V-Thinker
推論時にマルチモーダルなデータを活用する研究が進んでいる。
- Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm [73.5]
シンキング・ウィズ・ビデオ」パラダイムは、視覚的・テキスト的推論を統合的時間的枠組みで橋渡しする。 Sora-2はビジョン中心のタスクの有能な推論者として確立されている。 テキスト中心のタスクでは、Sora-2はMATHで92%、MMMUで75.53%の精度を達成している。
論文 参考訳(メタデータ) (Thu, 06 Nov 2025 17:25:23 GMT) - 「Moving beyond the traditional paradigms of “Thinking with Text” (e g , Chain-of-Thought [3, 37]) and “Thinking with Images”, we propose “Thinking with Video”. It naturally enables human-like dynamic reasoning through video generation, such as drawing and imagination.」と動画を使った思考。
- プロジェクトサイトはThinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm、リポジトリはGitHub – tongjingqi/Thinking-with-Video: We introduce “Thinking with Video”, a new paradigm leveraging video generation for unified multimodal reasoning. Our VideoThinkBench shows that Sora-2 surpasses GPT5 by 10% on eyeballing puzzles and reaches 75% accuracy on MMMU, positioning video generation as a promising multimodal reasoning paradigm.
- V-Thinker: Interactive Thinking with Images [22.6]
視覚中心推論の最近の進歩は、大型マルチモーダルモデル(LMM)のための有望な「シンキング・ウィズ・イメージ」パラダイムを探求している エンド・ツー・エンドの強化学習を通じてインタラクティブな視覚中心の思考を可能にする汎用マルチモーダル推論アシスタントであるV-Thinkerを提案する。 V-Thinkerは、一般的な推論シナリオと対話的な推論シナリオの両方において、強力なLMMベースのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (Thu, 06 Nov 2025 15:32:29 GMT) - 「we introduce V-Thinker, a general-purpose multimodal reasoning assistant that fosters interactive vision-centric thinking via end-to-end reinforcement training.」と視覚を活用した思考を行うアシスタントの提案。
- リポジトリはGitHub – We-Math/V-Thinker
ToM: Leveraging Tree-oriented MapReduce for Long-Context Reasoning in Large Language Models
- ToM: Leveraging Tree-oriented MapReduce for Long-Context Reasoning in Large Language Models [107.9]
ToMは、長期コンテキスト推論のための新しいツリー指向MapReduceフレームワークである。 ToM は既存の分割・クエリー・フレームワークや検索拡張生成手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (Sat, 01 Nov 2025 10:43:58 GMT) - 「Leveraging a tree- structured MapReduce approach, ToM performs recursive reasoning over documents to enhance long-context understanding. It consists of two key components: DocTree Construction: ToM first applies Hierarchical Semantic Parsing to convert each chunk into a structured subtree, then combines these subtrees into a hierarchical DocTree through Bottom-up Aggregation. 2). Recursive Reasoning via MapReduce: ToM performs recursive reasoning on the DocTree in a MapReduce fashion, enabling systematic aggregation of rationales across the hierarchy. 」とTree構造化&MapReduceを用いる長文処理の提案。一般的なRAGよりも性能が良いとのこと。
- リポジトリはGitHub – gjn12-31/ToM
Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures
- Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures [118.0]
我々は100以上の言語を対象とした参加型コモンセンス推論ベンチマークであるGlobal PIQAを提案する。 グローバルPIQAの116の言語変種は、5つの大陸、14の言語族、23の文字体系をカバーしている。 グローバルPIQAの非並列分割では、50%以上の例が地元の食品、習慣、伝統、その他の文化的特有な要素を参照している。
論文 参考訳(メタデータ) (Tue, 28 Oct 2025 05:46:25 GMT) - 「we have presented Global PIQA, a physical commonsense reasoning benchmark covering 116 language varieties. Unlike previous benchmarks, Global PIQA is a participatory benchmark, constructed by hand by 335 researchers across 65 countries.」とマルチリンガルなベンチマーク。
- 日本語のデータも入っている。(不穏なデータっぽく見えるものもあり、全体的にチェックしてみようかと思わなくもない)
- データはmrlbenchmarks/global-piqa-nonparallel · Datasets at Hugging Face、プロジェクトサイトはMRL Benchmarks
Kimi K2 Thinking, LongCat-Flash-Omni, iFlyBot-VLA, Nemotron Nano V2 VL
先週も様々な公開モデルやテクニカルレポートの公開があった。非常に進展が速くフロンティアモデルに迫るものが公開されている凄い状況である。
Kimi K2 Thinking(Kimi K2 Thinking、moonshotai/Kimi-K2-Thinking · Hugging Face)は一部ベンチマークでGPT=5などフロンティアモデルを超える性能を主張するモデル。1Tパラメータ、Active 32BはGrok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma – arXiv最新論文の紹介の時と同じで「Starting with Kimi K2, we built it as a thinking agent that reasons step-by-step while dynamically invoking tools. It sets a new state-of-the-art on Humanity’s Last Exam (HLE), BrowseComp, and other benchmarks by dramatically scaling multi-step reasoning depth and maintaining stable tool-use across 200–300 sequential calls.」とのこと。
マルチモーダルモデルとしてはLongCat-Flash-Omni(meituan-longcat/LongCat-Flash-Omni · Hugging Face), iFlyBot-VLA(iFlyBot-VLA Tech Report、iFlyBot/iFlyBotVLM · Hugging Face), Nemotron Nano V2 VL(nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face)のテクニカルレポートが公開されていた。
- LongCat-Flash-Omni Technical Report [131.5]
LongCat-Flash-Omniは5600億のパラメータを持つオープンソースのOmni-modalモデルである。 LongCat-Flash-Omniは強力なunimodal機能を維持しながら、包括的なマルチモーダル機能を実現する。 低レイテンシのリアルタイムオーディオ・ビジュアルインタラクションを実現する。
論文 参考訳(メタデータ) (Fri, 31 Oct 2025 21:58:15 GMT) - 560B、Active 27Bのマルチモーダルモデル、一部ベンチマークではGemini 2.5 Proを超えるなど高性能な公開モデル
- GitHub – meituan-longcat/LongCat-Flash-Omni: This is the official repo for the paper “LongCat-Flash-Omni Technical Report”
- iFlyBot-VLA Technical Report [25.3]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。 主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (Sat, 01 Nov 2025 06:24:56 GMT) - iFlyTechのVLAモデル、「The architecture of iFlyBot-VLA consists primarily of a language transformer backbone and an action expert network. The model generates executable robot actions through a combination of explicit and implicit planning.」とのこと
- iFlyBot/iFlyBotVLM · Hugging Face
- NVIDIA Nemotron Nano V2 VL [134.5]
ネモトロン・ナノV2VLは、マンバ・トランスフォーマーのハイブリッドLLMであるネモトロン・ナノV2上に構築される。 BF16、FP8、FP4フォーマットでモデルチェックポイントをリリースしています。
論文 参考訳(メタデータ) (Thu, 06 Nov 2025 00:10:19 GMT) - 「Nemotron Nano V2 VL delivers significant improvements over our previous model, Llama-3.1-Nemotron-Nano-VL-8B, across all vision and text domains through major enhancements in model architecture, datasets, and training recipes. Nemotron Nano V2 VL builds on Nemotron Nano V2, a hybrid Mamba-Transformer LLM, and innovative token reduction techniques to achieve higher inference throughput in long document and video scenarios.」とハイブリッド構成なマルチモーダルモデル
- nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face
World Simulation with Video Foundation Models for Physical AI
- World Simulation with Video Foundation Models for Physical AI [181.8]
我々は,[Cosmos-Predict2.5]と[Cosmos-Transfer2.5]を,エンボディインテリジェンスをスケールするための汎用ツールとしてリリースする。 我々はNVIDIA Open Model Licenseの下で、ソースコード、事前訓練されたチェックポイント、およびキュレートされたベンチマークをリリースします。
論文 参考訳(メタデータ) (Tue, 28 Oct 2025 22:44:13 GMT) - VLAモデル用の合成データや自動運転等で活用可能なworld simulator、Cosmos World Foundation Model Platform for Physical AI – arXiv最新論文の紹介からのアップデート。「[Cosmos-Predict2.5] and [Cosmos-Transfer2.5], the latest Cosmos video world foundation models for Physical AI」
- プロジェクトサイトはDeep Imagination Research | NVIDIA、リポジトリはGitHub – nvidia-cosmos/cosmos-predict2.5: Cosmos-Predict2.5, the latest version of the Cosmos World Foundation Models (WFMs) family, specialized for simulating and predicting the future state of the world in the form of video.
A Survey on Efficient Large Language Model Training: From Data-centric Perspectives
- A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.9]
本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。 本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。 我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
論文 参考訳(メタデータ) (Wed, 29 Oct 2025 17:01:55 GMT) - 「We propose a taxonomy of data-efficient LLM post-training methods, covering data selection, data quality enhancement, synthetic data generation, data distillation and compression, and self-evolving data ecosystems. We summarize representative approaches in each category and outline future research directions.」というサーベイ。
- リポジトリはGitHub – luo-junyu/Awesome-Data-Efficient-LLM: A list of data-efficient and data-centric LLM (Large Language Model) papers. Our Survey Paper: Towards Efficient LLM Post Training: A Data-centric Perspective