VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

  • VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents [105.4]
    VLM2Vec-V2は、様々な視覚形態にまたがる埋め込みを学習するための統一的なフレームワークである。 まず、MMEBを5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。 次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。
    論文  参考訳(メタデータ)   (Mon, 07 Jul 2025 00:51:57 GMT)
  • 「MMEB-V2, an advanced multimodal embedding dataset designed to train and evaluate embedding models across three key visual modalities: images, videos, and visual documents.」と、それを活用した埋め込みモデルVLM2Vec-V2の提案。かなり汎用的な2vec
  • プロジェクトサイトはVLM2Vec

ReTimeCausal: EM-Augmented Additive Noise Models for Interpretable Causal Discovery in Irregular Time Series

  • ReTimeCausal: EM-Augmented Additive Noise Models for Interpretable Causal Discovery in Irregular Time Series [32.2]
    本稿では, 金融, 医療, 気候科学などの高度領域における不規則サンプル時系列における因果発見について検討する。 ReTimeCausalは,物理誘導型データ計算と疎因性推論を統一する付加雑音モデル(ANM)と期待最大化(EM)の新たな統合である。
    論文  参考訳(メタデータ)   (Fri, 04 Jul 2025 05:39:50 GMT)
  • 不規則にサンプリングされた時系列データを対象としたcausal discovery の報告。「we propose ReTimeCausal (Recovery for Irregular Time- series Causal Discovery). ReTimeCausal integrates Additive Noise Models (ANMs) with an Expectation-Maximization (EM) framework to jointly perform noise-aware data imputation and causal structure learning.」とのこと。

A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents 

  • A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.5]
    大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。 これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Jun 2025 13:34:34 GMT)
  • AIエージェントとセキュリティリスクに関するサーベイ。
  • 検討ポイントが多い。。

Scaling RL to Long Videos

  • Scaling RL to Long Videos [107.4]
    LongVILA-R1-7B は VideoMME などの長いビデオ QA ベンチマークで高い性能を発揮する。 LongVILA-R1は、視覚言語モデルにおけるロングビデオ推論に向けての第一歩となる。 各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
    論文  参考訳(メタデータ)   (Thu, 10 Jul 2025 17:47:40 GMT)
  • 「(1) a large-scale dataset, LongVideo-Reason, comprising 52K long video QA pairs with high-quality reasoning annotations across diverse domains such as sports, games, and vlogs; (2) a two-stage training pipeline that extends VLMs with chain-of-thought supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a training infrastructure for long video RL, named Multi-modal Reinforcement Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a vLLM-based engine tailored for long video, using cached video embeddings for efficient rollout and prefilling.」を使用しての長い動画を理解するためのフレームワークの提案
  • 「Unlike domains such as math or code reasoning, where structured supervision and benchmarks are readily available [7, 8], long video reasoning requires annotating complex temporal dynamics, goals, spatial relations, and narrative elements—often across minutes or hours of footage」と、コード生成や数学的推論とは異なる難しさがある。
  • リポジトリはGitHub – NVlabs/Long-RL: Long-RL: Scaling RL to Long Sequences

AI4Research: A Survey of Artificial Intelligence for Scientific Research 

  • AI4Research: A Survey of Artificial Intelligence for Scientific Research [55.5]
    我々はAI for Research(AI4Research)に関する総合的な調査を行う。 まず、AI4Researchの5つの主要なタスクを分類する系統分類を導入する。 主要な研究ギャップを特定し、将来有望な方向性を明らかにする。
    論文  参考訳(メタデータ)   (Wed, 02 Jul 2025 17:19:20 GMT)
  • ResearchへのAI適用に関するサーベイ。下記を主要タスクとしている。
    • (1) AI for Scientific Comprehension
    • (2) AI for Academic Surveys
    • (3) AI for Scientific Discovery
    • (4) AI for Academic Writing
    • (5) AI for Academic Reviewing
  • プロジェクトサイトはAI4Research: A Survey of Artificial Intelligence for Scientific Research

CritiQ: Mining Data Quality Criteria from Human Preferences

  • CritiQ: Mining Data Quality Criteria from Human Preferences [70.4]
    人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。 CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。 コード,数学,論理領域において,本手法の有効性を実証する。
    論文  参考訳(メタデータ)   (Mon, 07 Jul 2025 09:58:59 GMT)
  • 「We introduce CritiQ 1, a novel data selection method that automatically mines criteria from human preferences for data quality with only ∼30 human-annotated pairs and performs efficient data selection. The main component, CritiQ Flow, employs a manager agent to evolve quality criteria and worker agents to make pairwise judgments.」と非常に小規模なデータから始めるデータ選択(アノテーション効率化)手法の提案。
  • リポジトリはGitHub – KYLN24/CritiQ: Repository of the paper ”CritiQ: Mining Data Quality Criteria from Human Preferences”. Code for CritiQ Flow & Training CritiQ Scorer.

GTA1: GUI Test-time Scaling Agent 

  • GTA1: GUI Test-time Scaling Agent [77.6]
    本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。 まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。 第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
    論文  参考訳(メタデータ)   (Tue, 08 Jul 2025 08:52:18 GMT)
  • Salesforce researchによるGUIエージェントの提案、OSWorldなどでSoTAを主張
  • 「i) test-time scaling for planning, which introduces a scaling strategy during inference to effectively handle planning ambiguity in complex GUI environments; ii) grounding model training, filtering out training samples with annotation errors to improve supervision quality, and optimizing a grounding model using RL (e g , GRPO) to directly predict coordinates without relying on any intermediate “thinking” (i. e., CoT reasoning) on the derived data.」という工夫を行っている。UI-TARS-1.5-7B, Qwen2.5-VL-32B-Instruct, Qwen2.5-VL-72B-InstructをPost Trainingしているが、やはりこの手のチューニングを行わないと厳しいタスクなのだろうか・・・
  • リポジトリはGitHub – Yan98/GTA1

Benchmarking Generalizable Bimanual Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop

  • Benchmarking Generalizable Bimanual Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop [120.3]
    RoboTwin Dual-Arm Collaboration Challengeは、CVPR 2025の第2回MeISワークショップで行われた。 ライバルは、剛性、変形性、触覚ベースのシナリオをカバーする17のデュアルアーム操作タスクに完全に取り組んだ。 コンペティションの設定、タスク設計、評価方法論、重要な発見と今後の方向性について概説する。
    論文  参考訳(メタデータ)   (Sun, 29 Jun 2025 17:56:41 GMT)
  • 「RoboTwin Dual-Arm Collaboration Challenge at the 2nd MEIS Workshop, CVPR 2025」の紹介
  • プロジェクトサイトはRoboTwin Dual-Arm Collaboration Challenge

PresentAgent: Multimodal Agent for Presentation Video Generation

  • PresentAgent: Multimodal Agent for Presentation Video Generation [30.3]
    長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。 この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。 このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
    論文  参考訳(メタデータ)   (Sat, 05 Jul 2025 13:24:15 GMT)
  • プレゼンテーションビデオを作成するエージェント
  • リポジトリはGitHub – AIGeeksGroup/PresentAgent: PresentAgent: Multimodal Agent for Presentation Video Generation

Grok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma

先週も様々なモデルが発表されたが、注目は様々なベンチマークで強力な性能を主張するGrok 4だろう(Grok 4 | xAI)。Humanity’s Last Examで44.4%と非常に強力に見える。

オープンなモデルとしてはモデル構造が面白いPhi4-mini-Flash-Reasoning(Reasoning reimagined: Introducing Phi-4-mini-flash-reasoning | Microsoft Azure Blog、論文は後述)、HuggingFaceの小型モデルSmolLM3(SmolLM3, GitHub – huggingface/smollm: Everything about the SmolLM and SmolVLM family of models)、総パラメータ1T / 32 B Activeと極端なMoE構成で非常に高性能なKimi-K2(GitHub – MoonshotAI/Kimi-K2: Kimi K2 is the large language model series developed by Moonshot AI teamKimi K2)など興味深い発表が相次いだ。また、T5Gemma: A new collection of encoder-decoder Gemma models – Google Developers Blogにも要注目。Decoder onlyでないアーキテクチャの良さが現れるタスクも多そうに思う。

  • Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.2]
    我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。 適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。 同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
    論文  参考訳(メタデータ)   (Tue, 08 Apr 2025 17:13:41 GMT)
  • Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.5]
    我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。 これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
    論文  参考訳(メタデータ)   (Wed, 09 Jul 2025 07:27:00 GMT)
  • Phi4-mini-Flash-Reasoningの論文
  • 「Our decoder-hybrid-decoder architecture taking Samba [RLL+25] as the self-decoder. Gated Memory Units (GMUs) are interleaved with the cross-attention layers in the cross-decoder to reduce the decoding complexity. As in YOCO [SDZ+24], the full attention layer only need to compute the KV cache during prefilling with the self-decoder, leading to linear computation complexity for the prefill stage.」と計算量的に有利なアーキテクチャでLRMに適しているように見える。
  • Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities [1584.5]
    Gemini 2.5 Proは私たちの最も有能なモデルであり、フロンティアコーディングと推論ベンチマークでSoTAのパフォーマンスを実現しています。 Gemini 2.5 Flashは計算とレイテンシの要求のごく一部で優れた推論機能を提供する。 Gemini 2.0 FlashとFlash-Liteは低レイテンシと低コストでハイパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Mon, 07 Jul 2025 17:36:04 GMT)
  • Gemini 2.5の論文も出ていた。共著者の人数がすごい(3300人以上)。