Sora 2, Claude Sonnet 4.5, GLM-4.6, DeepSeek v3.2-exp, HunyuanImage 3.0

先週の大きなニュースはOpenAIによるSora 2.0の発表だった(Sora 2 is here | OpenAI)。ビデオ生成モデルには様々なタスクを解ける可能性(Video models are zero-shot learners and reasoners – arXiv最新論文の紹介)やWorld modelとしての可能性(V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning – arXiv最新論文の紹介SimVS: Simulating World Inconsistencies for Robust View Synthesis  – arXiv最新論文の紹介How Far is Video Generation from World Model: A Physical Law Perspective – arXiv最新論文の紹介など)が指摘されていてニュースリリースの中にも言及がある。

AnthropicのClaude Sonnet 4.5も発表されている(Introducing Claude Sonnet 4.5 \ Anthropic)。着実な進化と言えそうな結果。

GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilitiesdeepseek-ai/DeepSeek-V3.2-Exp · Hugging Faceなど公開モデルのアップデートも要注目。GitHub – Tencent-Hunyuan/HunyuanImage-3.0: HunyuanImage-3.0: A Powerful Native Multimodal Model for Image GenerationについてはarXivに論文が公開されていた。

  • HunyuanImage 3.0 Technical Report [108.4]
    HunyuanImage 3.0は、自動回帰フレームワーク内でのマルチモーダル理解と生成を統合する、ネイティブなマルチモーダルモデルである。 HunyuanImage 3.0は、これまでで最大かつ最も強力なオープンソース画像生成モデルである。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 16:14:10 GMT)
  • 非常に強力な画像系公開モデル
  • モデルはtencent/HunyuanImage-3.0 · Hugging Face

MuSLR: Multimodal Symbolic Logical Reasoning 

  • MuSLR: Multimodal Symbolic Logical Reasoning [133.9]
    マルチモーダルな論理的推論は、自律運転や診断などの高度な応用において重要である。 形式論理規則を基礎としたマルチモーダルな記号論理的推論のための最初のベンチマーク Mu SLR を導入する。 我々は,GPT-4.1のChain-of-Thought性能を14.13%向上させるモジュール型フレームワークであるLogiCAMを提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 06:42:20 GMT)
  • Multimodal symbolic logical reasoningを対象とするベンチマークMuSLRの構築。またベースラインとしてモジュラー構成のLogiCAMを提案している。現在のフロンティアなモデルでも難しいベンチマークのよう。
  • 改善のための「First, integrating dedicated symbolic modules is essential: the LogiCAM outperforms base VLMs precisely because it extracts multimodalities based on logic and embeds explicit symbolic reasoning steps. Second, existing VLMs struggle to align and fuse visual and textual information when performing formal logic; Future work should explore tighter multimodal integration, such as cross-modal architectures trained with logic-grounded objectives, to bridge this gap.」という指摘が興味深く、現行モデルは形式的な処理に苦労しているように見える。
  • リポジトリはMuSLR: Multimodal Symbolic Logical Reasoning

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents 

  • Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents [79.8]
    Ferret-UI Liteは、様々なプラットフォームで動作する、コンパクトでエンドツーエンドのGUIエージェントである。 Ferret-UI Liteは、他の小規模GUIエージェントとの競合性能を達成する。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 17:13:56 GMT)
  • AppleによるGUIエージェントの報告、「In this work, we present Ferret-UI Lite, a 3B multimodal LLM designed for GUI agentic tasks with a focus on lightweight, on-device settings. Through real and synthetic data curation, inference-time visual tool use, and a two-stage SFT–RL training strategy, Ferret-UI Lite achieves competitive grounding and navigation performance relative to larger models.」と小型のモデル。

MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing 

RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems 

  • RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems [99.0]
    問題が発生したら、複数の抽象化を提案できるモデルをトレーニングし、続いてソリューション構築のインセンティブを与えるRLを作ります。 この結果、RLトレーニングパラダイムはRLADと呼ばれ、抽象化ジェネレータとソリューションジェネレータを共同で訓練する。 我々は、大規模なテスト予算で多くのソリューションを生成するよりも、より多くのテスト時間計算を抽象化の生成に割り当てることが、パフォーマンスに有益であることを示しています。
    論文  参考訳(メタデータ)   (Thu, 02 Oct 2025 17:44:23 GMT)
  • 「We introduce reasoning abstractions: concise representations of procedural and factual knowledge that are expressed in natural language, as a means to broaden the reasoning strategies used by LLMs」という抽象化モデルとこの処理を通すことでパフォーマンスが上がることを確認。結果も面白いが「We tried training a single model to do both abstraction generation and solution generation, after a lightweight SFT on traces showing questions paired with abstractions and corresponding solutions, but we found this approach to very quickly lose the ability of proposing abstractions over the course of RL training.」というのも興味深い。なんでなんだろう。。。
  • プロジェクトサイトはRLAD

AgriDoctor: A Multimodal Intelligent Assistant for Agriculture 

  • AgriDoctor: A Multimodal Intelligent Assistant for Agriculture [45.8]
    AgriDoctorは、インテリジェントな作物病診断と農業知識の相互作用のために設計されたモジュラーでマルチモーダルなフレームワークである。 効果的なトレーニングと評価を容易にするために,400000の注釈付き疾患画像,831のエキスパートによる知識エントリ,30000のバイリンガルプロンプトによるインテント駆動ツール選択のベンチマークであるAgriMMを構築した。 実験により、AgriMMで訓練されたAgriDoctorは、細粒度の農業作業において最先端のLVLMを著しく上回っていることが示された。
    論文  参考訳(メタデータ)   (Sun, 21 Sep 2025 11:51:57 GMT)
  • 「Extensive experiments demonstrate that AgriDoctor, when trained on AgriMM, significantly outperforms existing state-of-the-art vision-language models across multiple agricultural tasks.」と農業特化型MLLMの構築。ドメイン特化の対応をするうえでも参考になる。

A Survey on Retrieval And Structuring Augmented Generation with Large Language Models 

  • A Survey on Retrieval And Structuring Augmented Generation with Large Language Models [29.7]
    大規模言語モデル(LLM)は、テキスト生成と推論において顕著な能力を持つ自然言語処理に革命をもたらした。 しかし、これらのモデルは、時代遅れの知識や限られたドメインの専門知識を含む、現実世界のアプリケーションにデプロイする際の重要な課題に直面します。 Retrieval And Structuring (RAS) Augmented Generationは、動的情報検索と構造化知識表現を統合することで、これらの制限に対処する。
    論文  参考訳(メタデータ)   (Fri, 12 Sep 2025 21:25:25 GMT)
  • 「This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques.」とのこと。
  • RAGの対比は「While RAG provides the foundation for connecting LLMs with external information, RAS extends this capability by incorporating knowledge structuring techniques that transform unstructured text into organized representations such as taxonomies, hierarchies, and knowledge graphs」としているが、RASという用語が流行るかは謎。。

Prompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findings

  • Prompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findings [39.4]
    この研究プログラムは、ソフトウェア工学における現在の急進的な実践、課題、および影響要因を特徴づける。 我々は6カ国から74人のソフトウェア専門家を対象に,現在の迅速な実践と課題について調査を行った。 プロンプトは、試行錯誤によって洗練され、滅多に再利用されず、標準化されたプラクティスよりも個々の実践者が形作ることが多い。
    論文  参考訳(メタデータ)   (Mon, 22 Sep 2025 09:08:29 GMT)
  • ソフトウェア工学の観点から見たプロンプトの整理、「The findings reveal that prompt usage in SE is largely ad-hoc: prompts are often refined through trial-and-error, rarely reused, and shaped more by individual heuristics than standardized practices.」は直観とも整合的。だが問題は大有り。
  • データ等はPrompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findingsに存在。

CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset 

  • CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.1]
    CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。 CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
    論文  参考訳(メタデータ)   (Wed, 17 Sep 2025 16:45:22 GMT)
  • リポジトリはbyan/cs-fleurs · Datasets at Hugging Face

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

  • SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.8]
    我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。 このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。 i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 17:52:06 GMT)
  • 「By mapping natural language, DNA/RNA/protein sequences, molecular strings, and materials representations into a shared backbone via task-aware tokenization and consistent input–output schemas, the model moves beyond narrow, discipline-specific solutions and limited task menus.」、と自然言語なLLMと科学的記述を統合する取り組み。「The model is pretrained on a 206B-token corpus spanning scientific text, pure sequences, and sequence–text pairs, then aligned via SFT on 40M instructions, annealed cold-start bootstrapping to elicit long-form chain-of-thought, and reinforcement learning with task-specific reward shaping, which instills deliberate scientific reasoning.」と正面突破なアプローチ。
  • リポジトリはGitHub – open-sciencelab/SciReasonSciReason (SciReason)