Think Visually, Reason Textually: Vision-Language Synergy in ARC / ARC Is a Vision Problem!

  • Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.2]
    ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。 画像が不正確なルールの実行によってパフォーマンスが低下するにつれて、ARC-AGIグリッドをネイティブにレンダリングする。 我々は、ARC-AGIをモダリティ整列サブタスクに分解するVLSR(Vision-Language Synergy Reasoning)と、本質的な誤り訂正のためのテキストベースの推論を視覚を利用して検証するMSSC(Modality-Switch Self-Correction)という2つの相乗的戦略を導入する。
    論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 18:59:04 GMT)
  • 「Our analysis of the OpenAI o4-mini model reveals striking differences: vision ex- cels at rule summarization, providing a 3.0% improvement through its holistic perception of 2D spatial structures, while text excels at rule application, with vision causing a dramatic 20.5% performance drop due to imprecise element-wise manipulation. These findings demonstrate that the question is not whether to use vision or text, but rather when and how to strategically combine them.」という指摘と、「By fine-tuning separate models for visual rule summarization and textual rule application, our approach achieves a 3.5% improvement over text-only fine-tuning on the same training data, enabling small open-source models (Qwen3-8B) to surpass closed-source models like GPT-4o.」とのこと。
  • ARC Is a Vision Problem! [50.6]
    視覚パラダイム内のARCを画像から画像への変換問題として定義する。 私たちのフレームワークであるVision ARCは、ARC-1ベンチマークで60.4%の精度を実現しています。
    論文  参考訳(メタデータ)   (Tue, 18 Nov 2025 18:59:49 GMT)
  • こちらは論文名の通り、「although the puzzle-like tasks in ARC are inherently visual, existing research has rarely approached the problem from a vision-centric perspective. In this work, we formulate ARC within a vision paradigm, framing it as an image-to-image translation problem.」とVisionの問題として解いて高スコアを達成。
  • プロジェクトサイトはGitHub – lillian039/VARC
  • 「It is natural to explore vision driven approaches for ARC. On the other hand, human reasoning is not confined to language or vision in isolation, but instead should integrate information across modalities. With our complementary vision-based perspective, we hope the scope of abstract reasoning will be further broadened.」との指摘はその通りだと思う。Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark – arXiv最新論文の紹介のような指摘。NanoBananaの印象的な性能などうまく統合されていくとAGIに近づいていくんだろうなという感覚がある。

Computer-Use Agents as Judges for Generative User Interface

  • Computer-Use Agents as Judges for Generative User Interface [142.8]
    ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。 ほとんどのGUIは、人間が効率的にタスクを実行する人間指向の動作を採用するために設計されている。 CUA は Coder でGUI の自動設計を支援することができるだろうか?
    論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 16:00:02 GMT)
  • 「By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments.」とエージェント時代のUIを考えるフレームワークをの提案。
  • 対エージェントが対個人になっても良いわけで興味深い発想。
  • プロジェクトサイトはComputer-Use Agents as Judges for Generative User Interface、リポジトリはGitHub – showlab/AUI: Computer-Use Agents as Judges for Generative UI

SSR: Socratic Self-Refine for Large Language Model Reasoning

  • SSR: Socratic Self-Refine for Large Language Model Reasoning [78.6]
    Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。 提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。 5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 02:00:16 GMT)
  • 「We propose a novel framework, Socratic Self-Refine (SSR), that allows more fine-grained confidence estimation and precise error control over decomposed reasoning steps. By formulating reasoning as a sequence of (sub-question, sub-answer) pairs, SSR overcomes the limitations of existing holistic self-refinement methods.」というフレームワークを提案、効果を確認。
  • リポジトリはGitHub – SalesforceAIResearch/socratic-self-refine-reasoning