コンテンツへスキップ
- Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We’re Asking [1.1]
本研究では,モデルカットオフ日を超えて発生した事象に関する実世界の質問に対して,モデルファミリの異なるモデルファミリで,予測性能がどう変化するかを検討する。 我々は,文脈,質問タイプ,外部知識が精度やキャリブレーションにどのように影響するか,事実的ニュースコンテキストの追加が信念の形成や失敗モードをどう修正するかを分析する。
論文 参考訳(メタデータ) (Sun, 23 Nov 2025 10:41:19 GMT)
- LLMの予測能力の検証と失敗事例の分析、「Forecasting competence in LLMs is highly uneven, reflecting not only data coverage but the cognitive framing embed- ded in prompts. While we may expect adding recent news should improve forecasting accuracy, we find that sometimes it does while at other times it makes it worse because of definition drift, rumour anchoring and recency bias etc. emergent, and invite design of benchmarks that disentangle knowledge recall from probabilistic inference.」はまぁそうだろうと思う。
- TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding [48.5]
我々は、長いビデオ理解の課題に取り組むために設計されたハイブリッドビジョン言語モデルであるTimeViperを紹介する。 TimeViperは、状態空間モデルの効率性とアテンションメカニズムの表現性を組み合わせたハイブリッドなMamba-Transformerバックボーンを採用している。 この研究は、ハイブリッドなMamba-Transformerアーキテクチャを開発し、解釈し、圧縮するための最初のステップである。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 17:48:21 GMT)
- Mambaハイブリッドの構造で「TimeViper to process hour-long videos exceeding 10,000 frames」という長い動画を扱えるモデルの提案
- リポジトリはTimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
- AgentEvolver: Towards Efficient Self-Evolving Agent System [51.5]
本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。 AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。 予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
論文 参考訳(メタデータ) (Fri, 14 Nov 2025 01:49:03 GMT)
- 「The self-evolving process is driven by three synergistic mechanisms: Self-questioning for autonomous task generation, Self-navigating for experience- guided exploration, and Self-attributing for fine-grained credit assignment.」からなる自己改善アプローチ。
- リポジトリはGitHub – modelscope/AgentEvolver: AgentEvolver: Towards Efficient Self-Evolving Agent System
- Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.7]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。 我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。 Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 05:01:57 GMT)
- 「we initialize two functionally distinct agents: an execu- tor agent and a curriculum agent. These agents co-evolve through a symbiotic competition: the curriculum agent is trained using RL (Shao et al , 2024) to propose frontier tasks that precisely challenge the executor’s current capabilities, using the executor’s uncertainty (i.e., self-consistency across multiple answers) and its frequency of tool use as reward signals. Concurrently, the executor agent is trained via RL to successfully solve these tasks, optimizing on a filtered set of challenging problems generated by the frozen curriculum agent and using pseudo-labels derived from its own majority voting. Equipping the executor with a tool enhances its problem-solving abilities, which in turn com- pels the tool-equipped curriculum agent to generate more complex, tool-based curricula.」という複数エージェントを活用した共進化なフレームワーク。Agent構築においても近いアプローチが流行っているように思う。
- リポジトリはGitHub – aiming-lab/Agent0: [arXiv’25] Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
- TiDAR: Think in Diffusion, Talk in Autoregression [59.9]
TiDARは、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャである。 TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
論文 参考訳(メタデータ) (Thu, 13 Nov 2025 01:18:11 GMT)
- Diffusion modelとAuto regressiveのハイブリッド「We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively – all within a single forward pass using specially designed structured attention masks.」
- 「We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71× to 5.91× more tokens per second.」とスケールすることが確認できているのがすごい。
- Virtual Width Networks [130.5]
VWN(Virtual Width Networks)は,隠れたサイズを増大させることなく,より広い表現の利点を提供するフレームワークである。 大規模実験では,8倍拡張により,次の2倍の2倍,次の2倍の3倍の2倍の最適化が可能となった。
論文 参考訳(メタデータ) (Fri, 14 Nov 2025 12:41:57 GMT)
- Transfomerに統合することが可能な改善の提案、「We introduced Virtual Width Networks (VWN) as a practical mechanism to decouple representational width from the quadratic compute typically associated with widening. With a modest 1.5× expansion, we observe consistent improvements. When scaling to 8× virtual width, optimization accelerates markedly: next-token prediction loss converges more than 2× faster and multi-token prediction loss more than 3× faster relative to the baseline width. Beyond these discrete points, the performance of VWN exhibits a clear scaling behavior.」、通信やメモリ部分での制約があるとのことだが、「In practice, virtual width expansions in the 1.5×–4× range are more feasible on today’s stacks,」という記載には期待が持てる。
- 10 Open Challenges Steering the Future of Vision-Language-Action Models [57.8]
視覚言語アクション(VLA)モデルは、具体化されたAIアリーナでますます普及している。 VLAモデルの開発における10のマイルストーンについて論じる。
論文 参考訳(メタデータ) (Sat, 08 Nov 2025 09:02:13 GMT)
- Vision-Language-Actionモデルにおける課題の整理
- Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark [48.0]
ビデオ生成モデルは、Chain-of-Frames (CoF)推論を通じて、潜在的な世界シミュレータとして登場した。 既存のベンチマークは、忠実さやアライメントに重点を置いており、CoFの推論を評価していない。 我々は,認知科学と実世界のAI応用を基盤としたフレームワークであるGen-ViReを紹介する。
論文 参考訳(メタデータ) (Mon, 17 Nov 2025 19:11:39 GMT)
- ビデオ生成モデルを通じた因果関係の把握(world modelへの可能性)を評価するベンチマークの提案。「Gen-ViRe evaluates six core cognitive dimensions: (1) Perceptual, (2) Analogical, (3) Abstract, (4) Planning, (5) Spatial & Temporal, and (6) Algorithmic & Logical, with each dimension comprising four different sub-categories.」
- 「Sora-2 achieves the highest overall score (0.560), establishing the top tier with particularly strong performance in the most cognitively demanding domains: “Abstract Reasoning” (0.604), “Algorithmic & Logical” (0.472), and “Perceptual” (0.496). The second tier comprises three highly competitive models—Hailuo-2.3 (0.493), Wan-2.5 (0.490), and Veo-3.1 (0.486)—each exhibiting distinct specialized strengths. Hailuo-2.3 achieves the highest score in “Planning” (0.778), showcasing exceptional sequential decision-making capabilities, while Wan-2.5 leads in “Analogy” (0.500), excelling at analogical reasoning.」とモデルごとに特性がかなり異なるのが興味深い。
- リポジトリはhttps://github.com/L-CodingSpace/GVR