Ministral 3, Molmo2, STEP3-VL

OpenAIの広告モデル(ChatGPT Go が登場、世界中で利用可能に | OpenAI)、LLMインタフェースのオープンな仕様(Open ResponsesXユーザーのOpenAI Developersさん: 「Today we’re announcing Open Responses: an open-source spec for building multi-provider, interoperable LLM interfaces built on top of the original OpenAI Responses API. ✅ Multi-provider by default ✅ Useful for real-world workflows ✅ Extensible without fragmentation Build https://t.co/SJiBFx1BOF」 / X)、AnthropicのCowork(Introducing Cowork | Claude)、Appleの基盤モデルにGeminiが採用?などビジネス的に興味深いニュースが多かった。 

オープンなモデルだとMinistral3やMolmo2、STEP3-VL-10BとMLLM関連の論文発表があった。いずれもサイズと性能のバランスが良く、期待が持てる。

広範なモデルを検証しているA Safety Reportにも要注目。

  • Ministral 3 [159.0]
    Ministral 3は、計算およびメモリ制約のあるアプリケーションのためのパラメータ効率の高い高密度言語モデルのファミリーである。 汎用目的のための事前訓練されたベースモデル、微調整された命令モデル、複雑な問題解決のための推論モデルである。 各モデルはイメージ理解機能を備えており、すべてApache 2.0ライセンスで提供されている。
    論文  参考訳(メタデータ)   (Tue, 13 Jan 2026 14:06:03 GMT)
  • Mistralからの発表。「A key component of Ministral 3 is our Cascade Distillation training strategy, an iterative pruning and distillation method, which progressively transfers pretrained knowledge from a large parent model down to a family of compact children models. Our recipe allows us to achieve performance that is competitive with models which had a much larger training budget.」とのこと
  • プロジェクトサイトはIntroducing Mistral 3 | Mistral AI、モデルはMinistral 3 – a mistralai Collection
  • Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding [73.5]
    Molmo2はビデオ言語モデル(VLM)の新たなファミリーであり、オープンソースモデルの中でも最先端の製品である。 単一画像、マルチイメージ、ビデオタスクにおけるポイント駆動グラウンドリングにおいて、例外的な新機能を示す。 私たちの最高の8Bモデルは、ショートビデオ、カウント、キャプションでオープンウェイトとデータモデルのクラスで他よりも優れており、ロングビデオでは競争力があります。
    論文  参考訳(メタデータ)   (Thu, 15 Jan 2026 17:27:44 GMT)
  • Ai2の最新VLM、ver1から大きく性能を上げている。
  • リポジトリはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model、モデルはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model
  • STEP3-VL-10B Technical Report [115.9]
    STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。 そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。 MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
    論文  参考訳(メタデータ)   (Thu, 15 Jan 2026 17:06:04 GMT)
  • 小規模ながら強力な性能のVLM。Qwen3 VL 235B A22に匹敵と主張。
  • プロジェクトサイトはStep3-VL-10B: Compact Yet Frontier Multimodal Intelligence、モデルはstepfun-ai/Step3-VL-10B · Hugging Face
  • A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4]
    GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5。 ベンチマーク評価,対角評価,多言語評価,コンプライアンス評価を統合した統一プロトコルを用いて,言語,視覚言語,画像生成設定の各モデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 15 Jan 2026 15:52:52 GMT)
  • 「In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We eval- uate each model across language, vision–language, and image generation settings us- ing a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation.」とMLLMや画像生成モデルに関する安全性評価。VLMとしてはGPT-5.2のスコアはさすがといったところ。
  • プロジェクトサイトはSafety Report: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Nano Banana Pro, Seedream 4.5

Epistemology gives a Future to Complementarity in Human-AI Interactions

  • Epistemology gives a Future to Complementarity in Human-AI Interactions [42.4]
    相補性とは、AIシステムによって支えられた人間は、意思決定プロセスにおいて単独でより優れる、という主張である。 我々は,人間とAIの相互作用が信頼できる過程であることを示す証拠として,相補性の歴史的事例が機能すると主張している。
    論文  参考訳(メタデータ)   (Wed, 14 Jan 2026 21:04:28 GMT)
  • 最近よく目にする「Human-AI complementarity is the claim that a human supported by an AI system can outperform either alone in a decision-making process. Since its introduction in the human–AI interaction literature, it has gained traction by generalizing the reliance paradigm and by offering a more practical alternative to the contested construct of ‘trust in AI.’ 」についての論文。
  • 実務者目線だと「III. More than relative predictive accuracy is at stake in human-AI interactions.」、「IV. Complementarity ignores the magnitude-cost profile of epistemic gain.」が興味深い。

Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models

  • Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models [96.0]
    物理的システムの正確なデジタル表現としてのデジタルツインは、受動的シミュレーションツールからインテリジェントで自律的なエンティティへと進化してきた。 本稿では,デジタルツインライフサイクルにおけるAI統合を特徴付ける4段階統合フレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 04 Jan 2026 01:17:09 GMT)
  • デジタルツインに関する包括的なサーベイ
  • 応用領域だけでも下記が挙げられており、読みごたえがある。
    • Healthcare System
    • Biological System
    • Aerospace
    • Smart City
    • Mobility and Transportation
    • Smart Manufacturing
    • Robotics
    • Natural System and Environment
    • Agriculture
    • Commerce
    • Education and Training
    • Quantum Computing for Digital Twin