- Leveraging LLM-based agents for social science research: insights from citation network simulations [132.4]
CiteAgentフレームワークを導入し、人間-行動シミュレーションに基づく引用ネットワークを生成する。 CiteAgentは、実世界の引用ネットワークにおける主要な現象を捉えている。 社会科学において2つのLCMに基づく研究パラダイムを確立し,既存の理論の検証と挑戦を可能にした。
論文 参考訳(メタデータ) (Wed, 05 Nov 2025 08:47:04 GMT) - 「To further explore the social attributes of LLMs, we introduce the CiteAgent framework, designed to generate citation networks based on human-behavior simulation with LLM-based agents. CiteAgent successfully captures predominant phenomena in real-world citation networks, including power-law distribution, citational distortion, and shrinking diameter.」とのことだが、これでこの手のLLMを活用した社会シミュレーション的なものの有効性をいえるかというと若干疑問のような。
- リポジトリはGitHub – Ji-Cather/CiteAgent: Official Implementation of CiteAgent Framework
Thought Branches: Interpreting LLM Reasoning Requires Resampling
- Thought Branches: Interpreting LLM Reasoning Requires Resampling [11.0]
一つのサンプルを研究することは因果的影響と基礎となる計算を理解するのに不十分であると主張する。 モデル決定のための再サンプリングを用いたケーススタディを提案する。
論文 参考訳(メタデータ) (Fri, 31 Oct 2025 14:02:37 GMT) - 「we can measure a partial CoT’s impact by resampling only the subsequent text. We present case studies using resampling to investigate model decisions. First, when a model states a reason for its action, does that reason actually cause the action?」と、CoTへの介入とその影響に関する報告。先行研究を含めて面白い動作分析。この報告では「We address this by repeatedly resampling to remove sentences and by measuring resilience, the number of interventions required to erase a sentence’s content from a trace. 」などCoTの過程の分布にも注目し計算コストは高いが納得性の高い手法を用いている。
OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation
- OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation [39.3]
Omni-1Mは、文書レイアウトの最初の100万スケールデータセットである。 2段階学習パラダイムを設計した0.5BモデルであるOmni-LLMを紹介する。 私たちのコード、モデル、データセットは公開されます。
論文 参考訳(メタデータ) (Thu, 30 Oct 2025 07:39:54 GMT) - 文書レイアウトのデータセットOmniLayout-1M及びOmniLayout-LLMの提案。
- 「Our code, models, and dataset will be publicly released.」とのこと
MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning
- MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.3]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。 それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。 我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (Tue, 04 Nov 2025 18:27:39 GMT) - 「We introduce MemSearcher, an agentic workflow that leverages the backbone LLM as a memory manager to iteratively maintain a compact memory, preserving only the essential information necessary for answering the user’s question and thereby eliminating the need to append the entire interaction history to the LLM context. • We develop search agents based on MemSearcher, and utilize multi-context GRPO, a natural extension of GRPO, to optimize LLMs to reason, leverage search engines and manage memory simultaneously.」とメモリ関連の機能尾をうまく扱えるように強化学習されたモデルの提案。「MemSearcher based on Qwen2.5-3B-Instruct achieves a higher average score than other methods based on Qwen2.5-7B-Instruct.」と効果を確認。
- リポジトリはGitHub – icip-cas/MemSearcher
Scaling Agent Learning via Experience Synthesis
- Scaling Agent Learning via Experience Synthesis [100.4]
強化学習(RL)は、対話を通じて自己改善を行うことで、大規模言語モデル(LLM)エージェントを強化することができる。 私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。 高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに蒸留する。
論文 参考訳(メタデータ) (Wed, 05 Nov 2025 18:58:48 GMT) - 「To synthesize diverse agent experiences for RL training, DreamGym is built around three key components: (1) a scalable reasoning experience model that encodes the meta-dynamics of the target domain to efficiently generate informative trajectories; (2) an experience replay buffer that integrates offline environment knowledge with online synthetic transitions, co-evolving with the agent to stay aligned with its updated policy; (3) a curriculum task generator that produces progressively challenging variations of high-value tasks selected via a reward-entropy heuristic.」と強力な合成フレームワーク。
A Survey on Unlearning in Large Language Models
- A Survey on Unlearning in Large Language Models [18.3]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、大規模なコーパスでのトレーニングは重大なリスクをもたらす。 これらの問題を緩和し、「忘れられる権利」のような法的・倫理的な基準に合わせるために、機械の非学習は重要なテクニックとして現れてきた。 この調査は、2021年以降に出版されたLLMアンラーニングに関する180以上の論文の体系的なレビューを提供する。
論文 参考訳(メタデータ) (Wed, 29 Oct 2025 02:34:17 GMT) - 社会実装上重要だが簡単ではないunlearningのサーベイ
Thinking with Video, V-Thinker
推論時にマルチモーダルなデータを活用する研究が進んでいる。
- Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm [73.5]
シンキング・ウィズ・ビデオ」パラダイムは、視覚的・テキスト的推論を統合的時間的枠組みで橋渡しする。 Sora-2はビジョン中心のタスクの有能な推論者として確立されている。 テキスト中心のタスクでは、Sora-2はMATHで92%、MMMUで75.53%の精度を達成している。
論文 参考訳(メタデータ) (Thu, 06 Nov 2025 17:25:23 GMT) - 「Moving beyond the traditional paradigms of “Thinking with Text” (e g , Chain-of-Thought [3, 37]) and “Thinking with Images”, we propose “Thinking with Video”. It naturally enables human-like dynamic reasoning through video generation, such as drawing and imagination.」と動画を使った思考。
- プロジェクトサイトはThinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm、リポジトリはGitHub – tongjingqi/Thinking-with-Video: We introduce “Thinking with Video”, a new paradigm leveraging video generation for unified multimodal reasoning. Our VideoThinkBench shows that Sora-2 surpasses GPT5 by 10% on eyeballing puzzles and reaches 75% accuracy on MMMU, positioning video generation as a promising multimodal reasoning paradigm.
- V-Thinker: Interactive Thinking with Images [22.6]
視覚中心推論の最近の進歩は、大型マルチモーダルモデル(LMM)のための有望な「シンキング・ウィズ・イメージ」パラダイムを探求している エンド・ツー・エンドの強化学習を通じてインタラクティブな視覚中心の思考を可能にする汎用マルチモーダル推論アシスタントであるV-Thinkerを提案する。 V-Thinkerは、一般的な推論シナリオと対話的な推論シナリオの両方において、強力なLMMベースのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (Thu, 06 Nov 2025 15:32:29 GMT) - 「we introduce V-Thinker, a general-purpose multimodal reasoning assistant that fosters interactive vision-centric thinking via end-to-end reinforcement training.」と視覚を活用した思考を行うアシスタントの提案。
- リポジトリはGitHub – We-Math/V-Thinker
ToM: Leveraging Tree-oriented MapReduce for Long-Context Reasoning in Large Language Models
- ToM: Leveraging Tree-oriented MapReduce for Long-Context Reasoning in Large Language Models [107.9]
ToMは、長期コンテキスト推論のための新しいツリー指向MapReduceフレームワークである。 ToM は既存の分割・クエリー・フレームワークや検索拡張生成手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (Sat, 01 Nov 2025 10:43:58 GMT) - 「Leveraging a tree- structured MapReduce approach, ToM performs recursive reasoning over documents to enhance long-context understanding. It consists of two key components: DocTree Construction: ToM first applies Hierarchical Semantic Parsing to convert each chunk into a structured subtree, then combines these subtrees into a hierarchical DocTree through Bottom-up Aggregation. 2). Recursive Reasoning via MapReduce: ToM performs recursive reasoning on the DocTree in a MapReduce fashion, enabling systematic aggregation of rationales across the hierarchy. 」とTree構造化&MapReduceを用いる長文処理の提案。一般的なRAGよりも性能が良いとのこと。
- リポジトリはGitHub – gjn12-31/ToM
Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures
- Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures [118.0]
我々は100以上の言語を対象とした参加型コモンセンス推論ベンチマークであるGlobal PIQAを提案する。 グローバルPIQAの116の言語変種は、5つの大陸、14の言語族、23の文字体系をカバーしている。 グローバルPIQAの非並列分割では、50%以上の例が地元の食品、習慣、伝統、その他の文化的特有な要素を参照している。
論文 参考訳(メタデータ) (Tue, 28 Oct 2025 05:46:25 GMT) - 「we have presented Global PIQA, a physical commonsense reasoning benchmark covering 116 language varieties. Unlike previous benchmarks, Global PIQA is a participatory benchmark, constructed by hand by 335 researchers across 65 countries.」とマルチリンガルなベンチマーク。
- 日本語のデータも入っている。(不穏なデータっぽく見えるものもあり、全体的にチェックしてみようかと思わなくもない)
- データはmrlbenchmarks/global-piqa-nonparallel · Datasets at Hugging Face、プロジェクトサイトはMRL Benchmarks
Kimi K2 Thinking, LongCat-Flash-Omni, iFlyBot-VLA, Nemotron Nano V2 VL
先週も様々な公開モデルやテクニカルレポートの公開があった。非常に進展が速くフロンティアモデルに迫るものが公開されている凄い状況である。
Kimi K2 Thinking(Kimi K2 Thinking、moonshotai/Kimi-K2-Thinking · Hugging Face)は一部ベンチマークでGPT=5などフロンティアモデルを超える性能を主張するモデル。1Tパラメータ、Active 32BはGrok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma – arXiv最新論文の紹介の時と同じで「Starting with Kimi K2, we built it as a thinking agent that reasons step-by-step while dynamically invoking tools. It sets a new state-of-the-art on Humanity’s Last Exam (HLE), BrowseComp, and other benchmarks by dramatically scaling multi-step reasoning depth and maintaining stable tool-use across 200–300 sequential calls.」とのこと。
マルチモーダルモデルとしてはLongCat-Flash-Omni(meituan-longcat/LongCat-Flash-Omni · Hugging Face), iFlyBot-VLA(iFlyBot-VLA Tech Report、iFlyBot/iFlyBotVLM · Hugging Face), Nemotron Nano V2 VL(nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face)のテクニカルレポートが公開されていた。
- LongCat-Flash-Omni Technical Report [131.5]
LongCat-Flash-Omniは5600億のパラメータを持つオープンソースのOmni-modalモデルである。 LongCat-Flash-Omniは強力なunimodal機能を維持しながら、包括的なマルチモーダル機能を実現する。 低レイテンシのリアルタイムオーディオ・ビジュアルインタラクションを実現する。
論文 参考訳(メタデータ) (Fri, 31 Oct 2025 21:58:15 GMT) - 560B、Active 27Bのマルチモーダルモデル、一部ベンチマークではGemini 2.5 Proを超えるなど高性能な公開モデル
- GitHub – meituan-longcat/LongCat-Flash-Omni: This is the official repo for the paper “LongCat-Flash-Omni Technical Report”
- iFlyBot-VLA Technical Report [25.3]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。 主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (Sat, 01 Nov 2025 06:24:56 GMT) - iFlyTechのVLAモデル、「The architecture of iFlyBot-VLA consists primarily of a language transformer backbone and an action expert network. The model generates executable robot actions through a combination of explicit and implicit planning.」とのこと
- iFlyBot/iFlyBotVLM · Hugging Face
- NVIDIA Nemotron Nano V2 VL [134.5]
ネモトロン・ナノV2VLは、マンバ・トランスフォーマーのハイブリッドLLMであるネモトロン・ナノV2上に構築される。 BF16、FP8、FP4フォーマットでモデルチェックポイントをリリースしています。
論文 参考訳(メタデータ) (Thu, 06 Nov 2025 00:10:19 GMT) - 「Nemotron Nano V2 VL delivers significant improvements over our previous model, Llama-3.1-Nemotron-Nano-VL-8B, across all vision and text domains through major enhancements in model architecture, datasets, and training recipes. Nemotron Nano V2 VL builds on Nemotron Nano V2, a hybrid Mamba-Transformer LLM, and innovative token reduction techniques to achieve higher inference throughput in long document and video scenarios.」とハイブリッド構成なマルチモーダルモデル
- nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face