MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

The Missing Parts: Augmenting Fact Verification with Half-Truth Detection

  • The Missing Parts: Augmenting Fact Verification with Half-Truth Detection [8.1]
    多くの現実世界の主張は半真実であり、実際は正しいが、批判的な文脈が欠落しているために誤解を招く。 我々は,半真実検出の課題を紹介し,文レベルの証拠アライメントと推論されたクレーム意図を付加した15kの政治的クレームを備えた新しいベンチマークであるPolitiFact-Hiddenを提案する。 提案するTRACERは,エビデンスを整理し,インプリートを推定し,隠されたコンテンツの因果的影響を推定することにより,省略に基づく誤報を識別するモジュラー・リアセスメント・フレームワークである。
    論文  参考訳(メタデータ)   (Fri, 01 Aug 2025 10:06:38 GMT)
  • 「half-truth detection as a new task in fact verification, targeting claims that omit critical context while remaining factually correct.」というタスクの提案とベンチマークの作成。
  • 加えて、「 (1) evidence alignment, to classify retrieved evidence as presented or hidden; (2) intent generation, to recover the claim’s implicit message; and (3) causality analysis, to determine whether the hidden evidence undermines the inferred intent. 」という3ステージ構成の「TRACER (Truth ReAssessment with Critical hidden Evidence reasoning)」を提案している。

Beyond Brainstorming: What Drives High-Quality Scientific Ideas? Lessons from Multi-Agent Collaboration 

  • Beyond Brainstorming: What Drives High-Quality Scientific Ideas? Lessons from Multi-Agent Collaboration [59.4]
    本稿では,構造化マルチエージェントの議論が独創的思考を超えうるかどうかを考察する。 研究提案を作成するための協調型マルチエージェントフレームワークを提案する。 エージェントベースのスコアリングと,新規性,戦略的ビジョン,統合深度といった領域にわたるヒューマンレビューを備えた包括的プロトコルを採用している。
    論文  参考訳(メタデータ)   (Wed, 06 Aug 2025 15:59:18 GMT)
  • 「This work challenges the dominant paradigm of solitary AI- driven ideation and provides strong empirical evidence that collaborative multi-agent systems generate higher-quality scientific proposals. Through systematic simulation and evaluation, we identify three actionable principles for building more effective ideation systems: (1) Structured, leader- guided discussions enhance coherence and strategic focus; (2) Cognitive diversity from interdisciplinary or mixed- seniority teams drives originality; (3) Expertise is essential, as collaboration amplifies existing knowledge but cannot replace it.」と非常に面白い結果ではあるのだが、専門性のコントロールがこの手のプロンプトで本当にできているんだろうか(または他の部分もいろいろ変わってるんじゃないか)という疑問はある。
  • プロジェクトサイトはResearch Proposal Evaluator、リポジトリはNuoJohnChen/Idea2Proposal

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation 

  • Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation [65.3]
    我々は,ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。 GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合する。
    論文  参考訳(メタデータ)   (Thu, 07 Aug 2025 17:59:44 GMT)
  • 「we introduce Genie Envisioner (GE), a unified platform that collapses robot sensing, policy learning, and evaluation into a single closed-loop video generative world model」とビデオ生成をコアとしたフレームワークの提案。この手の学習には身体性が必要という指摘もあるがビデオ生成を主体として解決しうる問題なのかはとても興味がある。
  • リポジトリはGenie Envisioner

Self-Questioning Language Models 

  • Self-Questioning Language Models [51.8]
    本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。 提案者と解答者はともに強化学習を通じて訓練される。 3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
    論文  参考訳(メタデータ)   (Tue, 05 Aug 2025 17:51:33 GMT)
  • 「Our method leverages the intrinsic capabilities of large language models by casting them in dual roles of proposer and solver within an asymmetric self-play setup. By rewarding the generation of problems that are neither too easy nor too difficult, and by reinforcing answers via internal agreement or external verification, we demonstrate that models can meaningfully improve their reasoning skills through interaction with self-generated content alone.」というフレームワークの提案。R-Zero: Self-Evolving Reasoning LLM from Zero Data – arXiv最新論文の紹介にも近いなーと思う。
  • プロジェクトサイトはSelf-Questioning Language Models

GPT-5, GPT-OSS, Claude Opus 4.1

先週はGPT-5(GPT-5 が切り拓く働き方の新時代 | OpenAI)、gpt-oss 20B・120B(gpt-oss が登場 | OpenAI), Claude Opus 4.1(Claude Opus 4.1 \ Anthropic), DeepMind Genie 3(Genie 3: A new frontier for world models – Google DeepMind)と大きな発表が相次いだ。

GPT-5はベンチマーク性能でSoTAをしっかりとっており非常に性能が高い。一方でその少し前に発表されたClaude 4.1 Opusとの性能差が大きくなかったこと(システムカードの「All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.」(gpt5-system-card-aug7.pdf)という記述も気になる)や、Chatbot Arenaの日本語版でGemini 2.5 Proに負けていること(かつ1 vs 1の勝負などGemini 2.5 Proの勝率の方が高い)などから期待ほどではないという印象もある。それとGPT-5でも創作漢字(Pixels, Patterns, but No Poetry: To See The World like Humans  – arXiv最新論文の紹介)は読めなかった・・・。戦略的な価格付けであり、また、Measuring AI Ability to Complete Long Tasks – METRではまさにフロンティアなスコアを出していることもあって実態がどうかの評価にはもう少し時間が必要そう。

GPT-OSSは性能の高い公開モデルであり、Apache-2ライセンス。実用的なレベルと思われるモデルが公開された意義は大きい。From GPT-2 to gpt-oss: Analyzing the Architectural Advancesではtransformerといっても様々な改善がされてきたことが分かる。

Claude 4.1 Opus, Gemini 2.5 ProとOpenAI以外の会社も非常に高性能なモデルを出しており、DeepSeekやKimi、Hunyuanといった中国のモデルの高性能化も進んでいる。OpenAI一強は終わっているものの進化は続いている印象。

R-Zero: Self-Evolving Reasoning LLM from Zero Data

  • R-Zero: Self-Evolving Reasoning LLM from Zero Data [56.7]
    自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。 このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。 R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
    論文  参考訳(メタデータ)   (Thu, 07 Aug 2025 03:38:16 GMT)
  • 「we propose R-Zero, a framework for training reasoning LLMs that can self-evolve from zero external data. In R-Zero, a single base model is initialized with two roles – a Challenger and a Solver that are independently optimized but co-evolve throughout the RL process.」、「Challenger is rewarded for proposing tasks near the edge of the Solver’s capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger.」というGANっぽいフレームワーク。
  • リポジトリはChengsong-Huang/R-Zero: codes for R-Zero: Self-Evolving Reasoning LLM from Zero Data (https://www.arxiv.org/pdf/2508.05004)

RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing

  • RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.1]
    RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。 本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。 RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
    論文  参考訳(メタデータ)   (Sun, 27 Jul 2025 16:49:47 GMT)
  • 「our User-Centric Dialogues are built around virtual users with clear intentions, enhancing continuity across multi-turn interactions and better reflecting real-world applications.」という特徴を持つベンチマークの提案。
  • 英語、中国語ともQWEN2.5-MAXが高スコア。

Large Language Models in Cybersecurity: Applications, Vulnerabilities, and Defense Techniques 

  • Large Language Models in Cybersecurity: Applications, Vulnerabilities, and Defense Techniques [11.2]
    大規模言語モデル(LLM)は、脅威検出、脆弱性評価、インシデント応答に対するインテリジェントで適応的で自動化されたアプローチを可能にすることで、サイバーセキュリティを変革している。 高度な言語理解とコンテキスト推論によって、LLMは、IoTやブロックチェーン、ハードウェアセキュリティといったドメイン間の課題に対処する従来の手法を超越している。
    論文  参考訳(メタデータ)   (Fri, 18 Jul 2025 03:41:18 GMT)
  • 「This survey provides a comprehensive overview of LLM applications in cybersecurity, focusing on two core areas: (1) the integration of LLMs into key cybersecurity domains, and (2) the vulnerabilities of LLMs themselves, along with mitigation strategies」というLLMとセキュリティに関するサーベイ。

UserBench: An Interactive Gym Environment for User-Centric Agents

  • UserBench: An Interactive Gym Environment for User-Centric Agents [110.8]
    LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。 マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
    論文  参考訳(メタデータ)   (Tue, 29 Jul 2025 17:34:12 GMT)
  • 「Revolving around these traits, we introduce UserBench, a user-centric environment designed to facilitate an agent’s ability to engage in meaningful, multi-turn interactions with users who exhibit these traits. In UserBench, simulated users provide initial vague task instruction (underspecification), gradu- ally reveal preferences over time (incrementality),and often do so implicitly (indirectness). Agents must proactively clarify goals, interpret subtle cues, and adaptively reason through tool use to succeed.」という設定のベンチマークの提案。対象は旅行シナリオで曖昧な指示から対話を元に対処していく能力が求められる。
  • リポジトリはSalesforceAIResearch/UserBench