注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

  • TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding [48.5]
    我々は、長いビデオ理解の課題に取り組むために設計されたハイブリッドビジョン言語モデルであるTimeViperを紹介する。 TimeViperは、状態空間モデルの効率性とアテンションメカニズムの表現性を組み合わせたハイブリッドなMamba-Transformerバックボーンを採用している。 この研究は、ハイブリッドなMamba-Transformerアーキテクチャを開発し、解釈し、圧縮するための最初のステップである。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 17:48:21 GMT)
  • Mambaハイブリッドの構造で「TimeViper to process hour-long videos exceeding 10,000 frames」という長い動画を扱えるモデルの提案
  • リポジトリはTimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

When AI Agents Collude Online: Financial Fraud Risks by Collaborative LLM Agents on Social Platforms

AgentEvolver: Towards Efficient Self-Evolving Agent System 

  • AgentEvolver: Towards Efficient Self-Evolving Agent System [51.5]
    本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。 AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。 予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:49:03 GMT)
  • 「The self-evolving process is driven by three synergistic mechanisms: Self-questioning for autonomous task generation, Self-navigating for experience- guided exploration, and Self-attributing for fine-grained credit assignment.」からなる自己改善アプローチ。
  • リポジトリはGitHub – modelscope/AgentEvolver: AgentEvolver: Towards Efficient Self-Evolving Agent System

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

  • Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.7]
    大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。 我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。 Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 05:01:57 GMT)
  • 「we initialize two functionally distinct agents: an execu- tor agent and a curriculum agent. These agents co-evolve through a symbiotic competition: the curriculum agent is trained using RL (Shao et al , 2024) to propose frontier tasks that precisely challenge the executor’s current capabilities, using the executor’s uncertainty (i.e., self-consistency across multiple answers) and its frequency of tool use as reward signals. Concurrently, the executor agent is trained via RL to successfully solve these tasks, optimizing on a filtered set of challenging problems generated by the frozen curriculum agent and using pseudo-labels derived from its own majority voting. Equipping the executor with a tool enhances its problem-solving abilities, which in turn com- pels the tool-equipped curriculum agent to generate more complex, tool-based curricula.」という複数エージェントを活用した共進化なフレームワーク。Agent構築においても近いアプローチが流行っているように思う。
  • リポジトリはGitHub – aiming-lab/Agent0: [arXiv’25] Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

TiDAR: Think in Diffusion, Talk in Autoregression

  • TiDAR: Think in Diffusion, Talk in Autoregression [59.9]
    TiDARは、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャである。 TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
    論文  参考訳(メタデータ)   (Thu, 13 Nov 2025 01:18:11 GMT)
  • Diffusion modelとAuto regressiveのハイブリッド「We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively – all within a single forward pass using specially designed structured attention masks.」
  • 「We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71× to 5.91× more tokens per second.」とスケールすることが確認できているのがすごい。

Virtual Width Networks

  • Virtual Width Networks [130.5]
    VWN(Virtual Width Networks)は,隠れたサイズを増大させることなく,より広い表現の利点を提供するフレームワークである。 大規模実験では,8倍拡張により,次の2倍の2倍,次の2倍の3倍の2倍の最適化が可能となった。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 12:41:57 GMT)
  • Transfomerに統合することが可能な改善の提案、「We introduced Virtual Width Networks (VWN) as a practical mechanism to decouple representational width from the quadratic compute typically associated with widening. With a modest 1.5× expansion, we observe consistent improvements. When scaling to 8× virtual width, optimization accelerates markedly: next-token prediction loss converges more than 2× faster and multi-token prediction loss more than 3× faster relative to the baseline width. Beyond these discrete points, the performance of VWN exhibits a clear scaling behavior.」、通信やメモリ部分での制約があるとのことだが、「In practice, virtual width expansions in the 1.5×–4× range are more feasible on today’s stacks,」という記載には期待が持てる。

10 Open Challenges Steering the Future of Vision-Language-Action Models 

  • 10 Open Challenges Steering the Future of Vision-Language-Action Models [57.8]
    視覚言語アクション(VLA)モデルは、具体化されたAIアリーナでますます普及している。 VLAモデルの開発における10のマイルストーンについて論じる。
    論文  参考訳(メタデータ)   (Sat, 08 Nov 2025 09:02:13 GMT)
  • Vision-Language-Actionモデルにおける課題の整理

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

  • Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark [48.0]
    ビデオ生成モデルは、Chain-of-Frames (CoF)推論を通じて、潜在的な世界シミュレータとして登場した。 既存のベンチマークは、忠実さやアライメントに重点を置いており、CoFの推論を評価していない。 我々は,認知科学と実世界のAI応用を基盤としたフレームワークであるGen-ViReを紹介する。
    論文  参考訳(メタデータ)   (Mon, 17 Nov 2025 19:11:39 GMT)
  • ビデオ生成モデルを通じた因果関係の把握(world modelへの可能性)を評価するベンチマークの提案。「Gen-ViRe evaluates six core cognitive dimensions: (1) Perceptual, (2) Analogical, (3) Abstract, (4) Planning, (5) Spatial & Temporal, and (6) Algorithmic & Logical, with each dimension comprising four different sub-categories.」
  • 「Sora-2 achieves the highest overall score (0.560), establishing the top tier with particularly strong performance in the most cognitively demanding domains: “Abstract Reasoning” (0.604), “Algorithmic & Logical” (0.472), and “Perceptual” (0.496). The second tier comprises three highly competitive models—Hailuo-2.3 (0.493), Wan-2.5 (0.490), and Veo-3.1 (0.486)—each exhibiting distinct specialized strengths. Hailuo-2.3 achieves the highest score in “Planning” (0.778), showcasing exceptional sequential decision-making capabilities, while Wan-2.5 leads in “Analogy” (0.500), excelling at analogical reasoning.」とモデルごとに特性がかなり異なるのが興味深い。
  • リポジトリはhttps://github.com/L-CodingSpace/GVR

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling 

  • MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling [115.7]
    MiroThinkerは、ツール拡張推論と情報検索機能を向上させるために設計されたオープンソースの研究エージェントである。 モデルサイズやコンテキスト長のみをスケールアップする以前のエージェントとは異なり、MiroThinker氏はモデルレベルでのインタラクションスケーリングについて検討している。
    論文  参考訳(メタデータ)   (Tue, 18 Nov 2025 15:45:29 GMT)
  • 「MiroThinker v1.0, an open-source research agent that advances tool-augmented reasoning through model, context, and interactive scaling.」とオープンなRAGではなくTool Augmentedなエージェント。GAIAのスコアがとても高い。
  • デモはMiroThinker、リポジトリはGitHub – MiroMindAI/MiroThinker: MiroThinker is open-source agentic models trained for deep research and complex tool use scenarios.

Twenty-Five Years of MIR Research: Achievements, Practices, Evaluations, and Future Challenges 

  • Twenty-Five Years of MIR Research: Achievements, Practices, Evaluations, and Future Challenges [68.5]
    我々は過去25年間に音楽情報検索(MIR)の進化を辿った。 MIRは音楽情報学に関するあらゆる研究を集めている。 我々は、MIR研究の急速な発展を後押しする一連の成功事例をレビューする。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 15:32:23 GMT)
  • Music Information Retrievalに関する(短い)サーベイ