CritiQ: Mining Data Quality Criteria from Human Preferences

  • CritiQ: Mining Data Quality Criteria from Human Preferences [70.4]
    人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。 CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。 コード,数学,論理領域において,本手法の有効性を実証する。
    論文  参考訳(メタデータ)   (Mon, 07 Jul 2025 09:58:59 GMT)
  • 「We introduce CritiQ 1, a novel data selection method that automatically mines criteria from human preferences for data quality with only ∼30 human-annotated pairs and performs efficient data selection. The main component, CritiQ Flow, employs a manager agent to evolve quality criteria and worker agents to make pairwise judgments.」と非常に小規模なデータから始めるデータ選択(アノテーション効率化)手法の提案。
  • リポジトリはGitHub – KYLN24/CritiQ: Repository of the paper ”CritiQ: Mining Data Quality Criteria from Human Preferences”. Code for CritiQ Flow & Training CritiQ Scorer.

GTA1: GUI Test-time Scaling Agent 

  • GTA1: GUI Test-time Scaling Agent [77.6]
    本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。 まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。 第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
    論文  参考訳(メタデータ)   (Tue, 08 Jul 2025 08:52:18 GMT)
  • Salesforce researchによるGUIエージェントの提案、OSWorldなどでSoTAを主張
  • 「i) test-time scaling for planning, which introduces a scaling strategy during inference to effectively handle planning ambiguity in complex GUI environments; ii) grounding model training, filtering out training samples with annotation errors to improve supervision quality, and optimizing a grounding model using RL (e g , GRPO) to directly predict coordinates without relying on any intermediate “thinking” (i. e., CoT reasoning) on the derived data.」という工夫を行っている。UI-TARS-1.5-7B, Qwen2.5-VL-32B-Instruct, Qwen2.5-VL-72B-InstructをPost Trainingしているが、やはりこの手のチューニングを行わないと厳しいタスクなのだろうか・・・
  • リポジトリはGitHub – Yan98/GTA1

Benchmarking Generalizable Bimanual Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop

  • Benchmarking Generalizable Bimanual Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop [120.3]
    RoboTwin Dual-Arm Collaboration Challengeは、CVPR 2025の第2回MeISワークショップで行われた。 ライバルは、剛性、変形性、触覚ベースのシナリオをカバーする17のデュアルアーム操作タスクに完全に取り組んだ。 コンペティションの設定、タスク設計、評価方法論、重要な発見と今後の方向性について概説する。
    論文  参考訳(メタデータ)   (Sun, 29 Jun 2025 17:56:41 GMT)
  • 「RoboTwin Dual-Arm Collaboration Challenge at the 2nd MEIS Workshop, CVPR 2025」の紹介
  • プロジェクトサイトはRoboTwin Dual-Arm Collaboration Challenge

PresentAgent: Multimodal Agent for Presentation Video Generation

  • PresentAgent: Multimodal Agent for Presentation Video Generation [30.3]
    長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。 この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。 このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
    論文  参考訳(メタデータ)   (Sat, 05 Jul 2025 13:24:15 GMT)
  • プレゼンテーションビデオを作成するエージェント
  • リポジトリはGitHub – AIGeeksGroup/PresentAgent: PresentAgent: Multimodal Agent for Presentation Video Generation