Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR

先週はフロンティアモデルレベルでの激戦がよくわかる週であった。Grok 4.1(Grok 4.1 | xAI)、Gemini3 Pro(Gemini 3 Pro – Google DeepMind、GPT-5.1 Pro(XユーザーのOpenAIさん: 「GPT-5.1 Pro is rolling out today to all Pro users. It delivers clearer, more capable answers for complex work, with strong gains in writing help, data science, and business tasks.」 / X)GPT-5.1-Codex-Max(Building more with GPT-5.1-Codex-Max | OpenAI)と大きな発表が相次いだ。公式のベンチマーク結果の他、様々な方が検証を行っていて、個人的にも検証をしているが、LLM/LRMの性能アップはまだいけるのではないか、と期待の持てる結果になっている。

Googleの Nano Banana Pro(XユーザーのGoogle AIさん: 「Rolling out today we are launching Nano Banana Pro, the world’s best image model built to move beyond casual creation and into a new era of studio-quality, functional design. Nano Banana Pro enables a new level of precision and creative control, transforming the way you bring https://t.co/BsyAgkUY7X」 / X)は画像生成のレベルが1段抜けている印象がある。Geminiのマルチモーダル性能が優れている点など総合力でさすがGoogleとの印象がある今日この頃。

公開モデルでもOlmo3(XユーザーのNathan Lambertさん: 「We present Olmo 3, our next family of fully open, leading language models. This family of 7B and 32B models represents: 1. The best 32B base model. 2. The best 7B Western thinking & instruct models. 3. The first 32B (or larger) fully open reasoning model. This is a big https://t.co/dpMtRHSjRp」 / X)が出ている。32Bモデルとしては最高レベルの性能(Olmo Improvement Benchmark)、音声領域におけるStep-Audio-R1、Omnilingual ASRなどこちらの流れも勢いは衰えていない。

  • Step-Audio-R1 Technical Report [70.4]
    本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。 私たちのモデルは、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現した、強力なオーディオ推論能力を示しています。
    論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 20:12:50 GMT)
  • Gemini 3 Proとも競合を主張、「Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain」
  • リポジトリはGitHub – stepfun-ai/Step-Audio-R1
  • Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.1]
    大規模自動音声認識システムであるOmnilingual ASRを紹介する。 自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。 ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:04:28 GMT)
  • 「Omnilingual ASR illustrates how scaling methods, when combined with deliberate data collection and new architectural innovation, can reshape the trajectory of multilingual ASR. The project not only extends coverage to more than 1,600 languages, with over 500 represented for the first time in any ASR system, but also reframes how coverage itself is conceived.」と非常に多くの言語をカバーするモデル
  • リポジトリはGitHub – facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages

SAM 3D: 3Dfy Anything in Images 

  • SAM 3D: 3Dfy Anything in Images [99.1]
    画像から形状, テクスチャ, レイアウトを予測し, 視覚的な3Dオブジェクト再構成のための生成モデルSAM 3Dを提案する。 オブジェクトの形状、テクスチャ、ポーズをアノテートするための、人間用およびモデル・イン・ザ・ループパイプラインでこれを実現する。 コードとモデルの重み付け、オンラインデモ、そしてWild 3Dオブジェクト再構築のための新しい挑戦的なベンチマークをリリースします。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 18:31:46 GMT)
  • 「 SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image」と3D reconstructionモデルであり、非常に高い品質に見える。LLMのようなアプローチで構築しているとのこと
    • 「As in recent works, we first train on a large collection of rendered synthetic objects. This is supervised pretraining: our model learns a rich vocabulary for object shape and texture, preparing it for real-world reconstruction. Next is mid-training with semi-synthetic data produced by pasting rendered models into natural images. Finally, post-training adapts the model to real images, using both a novel model-in-the-loop (MITL) pipeline and human 3D artists, and aligns it to human preference. We find that synthetic pretraining generalizes, given adequate post-training on natural images.」
  • リポジトリはGitHub – facebookresearch/sam-3d-objects: SAM 3D Objects、プロジェクトサイトはSAM 3D

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation 

  • WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation [98.5]
    We present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation。 WeAVE-100kは、370Kのダイアログターンと500Kイメージにまたがる100Kのインターリーブサンプルの大規模なデータセットである。 WeAVEBenchは480の画像に基づいた100のタスクを備えた人手によるベンチマークである。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 16:02:38 GMT)
  • 「WEAVE- 100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context.」とマルチターンな生成に関するベンチマークの提案、評価方法は「we employ a key-point- based scoring approach using structured evaluation criteria.」
  • (最新版ではないようだが)NanoBananaのスコアがとても高い。
  • プロジェクトサイトはWeave