10 Open Challenges Steering the Future of Vision-Language-Action Models 

  • 10 Open Challenges Steering the Future of Vision-Language-Action Models [57.8]
    視覚言語アクション(VLA)モデルは、具体化されたAIアリーナでますます普及している。 VLAモデルの開発における10のマイルストーンについて論じる。
    論文  参考訳(メタデータ)   (Sat, 08 Nov 2025 09:02:13 GMT)
  • Vision-Language-Actionモデルにおける課題の整理

Think Visually, Reason Textually: Vision-Language Synergy in ARC / ARC Is a Vision Problem!

  • Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.2]
    ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。 画像が不正確なルールの実行によってパフォーマンスが低下するにつれて、ARC-AGIグリッドをネイティブにレンダリングする。 我々は、ARC-AGIをモダリティ整列サブタスクに分解するVLSR(Vision-Language Synergy Reasoning)と、本質的な誤り訂正のためのテキストベースの推論を視覚を利用して検証するMSSC(Modality-Switch Self-Correction)という2つの相乗的戦略を導入する。
    論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 18:59:04 GMT)
  • 「Our analysis of the OpenAI o4-mini model reveals striking differences: vision ex- cels at rule summarization, providing a 3.0% improvement through its holistic perception of 2D spatial structures, while text excels at rule application, with vision causing a dramatic 20.5% performance drop due to imprecise element-wise manipulation. These findings demonstrate that the question is not whether to use vision or text, but rather when and how to strategically combine them.」という指摘と、「By fine-tuning separate models for visual rule summarization and textual rule application, our approach achieves a 3.5% improvement over text-only fine-tuning on the same training data, enabling small open-source models (Qwen3-8B) to surpass closed-source models like GPT-4o.」とのこと。
  • ARC Is a Vision Problem! [50.6]
    視覚パラダイム内のARCを画像から画像への変換問題として定義する。 私たちのフレームワークであるVision ARCは、ARC-1ベンチマークで60.4%の精度を実現しています。
    論文  参考訳(メタデータ)   (Tue, 18 Nov 2025 18:59:49 GMT)
  • こちらは論文名の通り、「although the puzzle-like tasks in ARC are inherently visual, existing research has rarely approached the problem from a vision-centric perspective. In this work, we formulate ARC within a vision paradigm, framing it as an image-to-image translation problem.」とVisionの問題として解いて高スコアを達成。
  • プロジェクトサイトはGitHub – lillian039/VARC
  • 「It is natural to explore vision driven approaches for ARC. On the other hand, human reasoning is not confined to language or vision in isolation, but instead should integrate information across modalities. With our complementary vision-based perspective, we hope the scope of abstract reasoning will be further broadened.」との指摘はその通りだと思う。Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark – arXiv最新論文の紹介のような指摘。NanoBananaの印象的な性能などうまく統合されていくとAGIに近づいていくんだろうなという感覚がある。

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

  • Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.3]
    視覚的依存を明示する多モーダル数学的推論のための総合的なベンチマークであるVCBENCHを紹介する。 VCBENCHには6つの認知領域に1,720の問題がある。 我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
    論文  参考訳(メタデータ)   (Tue, 29 Apr 2025 03:45:30 GMT)
  • Visionに依存するよう設計された数学推論ベンチマークの提案
  • リポジトリはBenchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

InternVL3, PerceptionLM, BitNet b1.58 2B4T

公開モデルでも興味深いものが発表されている。InternVL3はVision-Languageモデルで有名なInternVLのver 3、オープンなMLLMのSoTA、78Bと大型で商用モデルとも競合する性能を主張。PerceptionLMはMetaによるオープンなVLM(Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding.)。

上記とは雰囲気が異なるBitNet b1.58 2B4TはBitNetの実装・公開モデル。「The core contribution of this work is to demonstrate that a native 1-bit LLM, when trained effectively at scale, can achieve performance comparable to leading open-weight, full-precision models of similar size across a wide range of tasks.」とのこと。

  • BitNet b1.58 2B4T Technical Report [118.8]
    BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
    論文  参考訳(メタデータ)   (Wed, 16 Apr 2025 17:51:43 GMT)
  • リポジトリはGitHub – microsoft/BitNet: Official inference framework for 1-bit LLMs、モデルはmicrosoft/bitnet-b1.58-2B-4T · Hugging Face
  • デモもある(Bitnet)が、特に日本語性能はかなり物足りない。(日本語になっているだけすごいともいえるが・・・)

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation 

  • CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.5]
    CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。 評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。 本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
    論文  参考訳(メタデータ)   (Sun, 30 Mar 2025 20:03:36 GMT)
  • クロスワードパズルを用いるベンチマーク「CrossWordBench collects data and generates puzzles from three sources: (1) multilingual word-clue pairs from public repositories, (2) dictionary-based definitions, and (3) adapted questions-answer pairs from existing benchmarks (e g , CommonsenseQA (Talmor et al , 2018)) where the answers are open-ended or unconstrained.」という構築方針。結果は「Our extensive evaluation of over 20 models shows that reasoning models substantially outperform non-reasoning counterparts and can benefit from increased crossing-letter constraints.」とLRMは強い
  • リポジトリはGitHub – SeanLeng1/CrossWordBenchHINT-lab/CrossWordBench · Datasets at Hugging Face

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey

  • Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey [6.7]
    VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の交差点において、トランスフォーメーション技術として登場した。 VLMは、視覚的およびテキスト的データに対して強力な推論と理解能力を示し、ゼロショット分類において古典的な単一モダリティ視覚モデルを上回る。
    論文  参考訳(メタデータ)   (Sat, 04 Jan 2025 04:59:33 GMT)
  • 「we provide a systematic overview of VLMs in the following aspects: [1] model information of the major VLMs developed over the past five years (2019-2024); [2] the main architectures and training methods of these VLMs; [3] summary and categorization of the popular benchmarks and evaluation metrics of VLMs; [4] the applications of VLMs including embodied agents, robotics, and video generation; [5] the challenges and issues faced by current VLMs such as hallucination, fairness, and safety.」とVLMのサーベイ。
  • リポジトリはGitHub – zli12321/VLM-surveys: A most Frontend Collection and survey of vision-language model papers, and models GitHub repository

PaliGemma、ChartGemma

  • PaliGemma: A versatile 3B VLM for transfer [112.4]
    PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。 我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
    論文  参考訳(メタデータ)   (Wed, 10 Jul 2024 14:57:46 GMT)
  • PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B
  • ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
    本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。 基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。 我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
    論文  参考訳(メタデータ)   (Thu, 04 Jul 2024 22:16:40 GMT)
  • PaliGemmaのチャート対応バージョン
  • リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404

PINE : Position-INvariant inferencE

  • Eliminating Position Bias of Language Models: A Mechanistic Approach [119.3]
    位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。 因果的注意は一般的に、モデルが遠方のコンテンツを好むのに対して、RoPEのような相対的な位置エンコーディングは近くのものを好む。 本研究では,異なる入力セグメント順序(例えばLM-as-a-judgeのオプション,QAの検索文書)によって生じる位置バイアスを,TRAINING-FREE ZERO-SHOT方式で推定する。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 09:06:57 GMT)
  • 位置バイアスを除去する手法の提案。アテンションスコアの類似性を使って位置情報を割り当てなおすアプローチのよう(?)、トレーニングフリーだが計算コストは高めに思える。
  • 位置バイアスは「Further, our empirical study on object detection reveals that position bias is also present in vision-language models (VLMs).」とMLLMでも影響ありとのこと。
  • リポジトリはGitHub – wzq016/PINE: Offcial Repo of Paper “Eliminating Position Bias of Language Models: A Mechanistic Approach””

WildVision

  • WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.9]
    WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。 実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
    論文  参考訳(メタデータ)   (Sun, 16 Jun 2024 20:53:25 GMT)
  • Vision Languageモデルの評価環境、人間の好みを収集するオンラインプラットフォームWILDVISION-ARENA(WV-ARENA)を作成。GPT-4の優秀さ、他のベンチマークとの差異が興味深い。
  • プロジェクトサイトはVision Arena (Testing VLMs side-by-side) – a Hugging Face Space by WildVision

An Introduction to Vision-Language Modeling

  • An Introduction to Vision-Language Modeling [128.6]
    視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。 本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
    論文  参考訳(メタデータ)   (Mon, 27 May 2024 15:01:23 GMT)
  • VLMのサーベイ、であり、教科書的な内容