- Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet [93.0]
テストタイムスケーリングは、モデルが長い推論チェーンを生成することによって、推論時間計算を増加させる。 本手法は,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,まだ有効ではないことを示す。 以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
論文 参考訳(メタデータ) (Mon, 08 Sep 2025 16:28:25 GMT) - 「To summarize, while test-time scaling in reasoning models has led to strong performance in many domains, it is not yet effective for knowledge-intensive tasks. Increasing inference time does not consistently improve factual accuracy, and contrary to expectations, it can even increase hallucinations.」とのこと。LRMを使っていて感じていることと整合的。
- リポジトリはGitHub – XuZhao0/tts-knowledge: Code and data for “Test-time scaling in reasoning models is not effective for knowledge-intensive tasks yet”
タグ: LRM
Explain Before You Answer: A Survey on Compositional Visual Reasoning
- Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.3]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。 本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。 次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (Sun, 24 Aug 2025 11:01:51 GMT) - Compositional visual reasoning に関するサーベイ。
Qwen3-Max, K2-Instruct-0905, LongCat-Flash, Dream-Coder 7B, Kwai Keye-VL 1.5
先週もLLM/LRM界隈のニュースは多かった。Qwen3系最大構成のQwen3 Maxの公開(XユーザーのQwenさん: 「Big news: Introducing Qwen3-Max-Preview (Instruct) — our biggest model yet, with over 1 trillion parameters! 🚀 Now available via Qwen Chat & Alibaba Cloud API. Benchmarks show it beats our previous best, Qwen3-235B-A22B-2507. Internal tests + early user feedback confirm: https://t.co/7vQTfHup1Z」 / X、Models and pricing – Alibaba Cloud Model Studio – Alibaba Cloud Documentation Center)、Kimi K2のアップデート(XユーザーのKimi.aiさん: 「Kimi K2-0905 update 🚀 – Enhanced coding capabilities, esp. front-end & tool-calling – Context length extended to 256k tokens – Improved integration with various agent scaffolds (e.g., Claude Code, Roo Code, etc) 🔗 Weights & code: https://t.co/83sQekosr9 💬 Chat with new Kimi https://t.co/mkOuBMwzpw」 / X、moonshotai/Kimi-K2-Instruct-0905 · Hugging Face)やLongCat-Flashの他、Dream-Coder 7B、Kwai Keye-VL 1.5など小規模でもユニークなモデルも発表されている。
Introduction – Agent Client Protocol(GitHub – zed-industries/agent-client-protocol: A protocol for connecting any editor to any agent)といったプロトコルの提案など周辺領域にも目が離せない。
- LongCat-Flash Technical Report [165.7]
LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。 計算効率と高度なエージェント能力の両方のために設計されている。 30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
論文 参考訳(メタデータ) (Mon, 01 Sep 2025 10:05:45 GMT) - 560B MoE構成、「As a non-thinking model, LongCat-Flash achieves performance comparable to state-of-the-art non-thinking models, including DeepSeek-V3.1 [DeepSeek-AI et al , 2025] and Kimi-K2 [Team et al , 2025], while using fewer parameters and offering faster inference speed. Specifically, LongCat-Flash scores 86.5 on ArenaHard-V2, 39.5 on TerminalBench, and 67.7 on τ 2-Bench, demonstrating robust capabilities in general domains, coding, and agentic tool use.」
- リポジトリはGitHub – meituan-longcat/LongCat-Flash-Chat
- Dream-Coder 7B: An Open Diffusion Language Model for Code [99.1]
そこで,Dream-Coder 7Bを提案する。Dream-Coder 7Bは,任意の順序生成能力を示すコード生成のための,オープンソースの離散拡散言語モデルである。 厳密に左から右にデコードする従来の自己回帰(AR)モデルとは異なり、ドリームコーダ7Bはコーディングタスクに基づいてデコード戦略を適応的に決定する。
論文 参考訳(メタデータ) (Mon, 01 Sep 2025 05:30:56 GMT) - コーディングタスク強化の拡散モデル
- リポジトリはGitHub – DreamLM/Dream-Coder
- Kwai Keye-VL 1.5 Technical Report [91.3]
本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。 まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。 次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。 第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
論文 参考訳(メタデータ) (Mon, 01 Sep 2025 15:46:58 GMT) - 「Keye-VL-1.5-8B establishes new state-of-the-art performance among models of similar scale, demonstrating superior results on video-centric benchmarks while maintaining competitive performance on general multimodal and reasoning tasks.」とビデオを扱えるモデル
- リポジトリはGitHub – Kwai-Keye/Keye
Grok 2.5, HERMES 4, InternVL3.5, VIBEVOICE
先週は公開モデルに関する話題が多かった。X.aiからはアナウンス通りGrok2のウェイトが公開された(https://x.com/elonmusk/status/1959379349322313920 / xai-org/grok-2 · Hugging Face)。Grok3も半年程度で公開とのこと。HERMES, InternVLからも新しいモデルが出ている。アプローチは様々とはいえ、着々とモデルを構築しフロンティアに追いついているのは凄いことである。Microsoft ResearchからはText-to-SpeechのOSSモデルが公開された(VibeVoice)。特化型を使う場面も多々残っていてありがたい。
- InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [245.9]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。 主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。 我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 17:58:17 GMT) - InternVLの最新版。LLM部分のベースモデルとしてQwen3シリーズとGPT-OSSを使用。GPT-OSS-20B, Qwen3-30B-A3Bの比較も興味深い。(パラメータサイズの差かQwen3の方が性能が高い。)
- リポジトリはOpenGVLab/InternVL3_5-241B-A28B · Hugging Face
- Hermes 4 Technical Report [7.6]
Hermes 4は、構造化されたマルチターン推論と幅広い命令追従能力を組み合わせたハイブリッド推論モデルのファミリーである。 データキュレーション、合成、トレーニング、評価で直面する課題について述べ、これらの課題を大規模に解決するためのソリューションの概要を述べる。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 17:45:06 GMT) - リポジトリはHermes 4 Collection – a NousResearch Collection
- VibeVoice Technical Report [90.1]
VibeVoiceは、複数の話者で長めの音声を合成するために設計されたモデルである。 本稿では,エンコーデックモデルと比較した場合,データ圧縮を80倍改善する新しい連続音声トークンを提案する。
論文 参考訳(メタデータ) (Tue, 26 Aug 2025 17:09:12 GMT) - リポジトリはGitHub – microsoft/VibeVoice: Frontier Open-Source Text-to-Speech
Deep Think with Confidence
- Deep Think with Confidence [33.2]
私たちはDeep Think with Conf(DeepConf)という,テスト時の推論効率とパフォーマンスを両立させる,シンプルかつ強力な手法を紹介します。 DeepConfは、生成時に低品質な推論トレースを動的にフィルタリングし、トークン生成を削減しながら精度を維持または向上させます。評価の結果、DeepConfはAIME 2025などの課題で99.9%の精度を達成し、従来の方法に比べて84.7%のトークン削減を実現しました。
論文 参考訳(メタデータ) (Thu, 21 Aug 2025 05:48:38 GMT) - モデル内の確信度を活用して推論を制御する手法の提案。シンプルだが強力とのこと。
- リポジトリはDeep Think with Confidence
Command A Reasoning, DeepSeek V3.1, Gemma 3 270M, Nemotron Nano 2, Dream 7B
LLM/LRM関連の話題は本当に多い。先週はCohere’s Command A Reasoning Model | Cohere(モデルはCohere’s Command A Reasoning Model | Cohere、CC-BY-NC)の公開、DeepSeek V3.1の公開(DeepSeek-V3.1 Release | DeepSeek API Docs、モデルはdeepseek-ai/DeepSeek-V3.1 · Hugging Face)が大きなニュースだった。フロンティアまたはそれに近いモデルが公開される意義は大きい。また、Intern-S1からはテクニカルレポートが公開されている。
a
小型モデル関連でもGemma 3 270M(Introducing Gemma 3 270M: The compact model for hyper-efficient AI – Google Developers Blog、モデルはgoogle/gemma-3-270m · Hugging Face)は超小型であることが興味深い。性能的には疑問があるとはいえ特化用途にPost trainingするなど使える場面はありそう。NVIDIA のMemtron Nano2も注目である(Nanoという名前で9B)。
HuaweiからはDiffusion系のDream 7Bの論文が出ていた。LLaDAを超え、同規模のAutoregressiveなモデルに負けていなさそうと高い性能。
- Intern-S1: A Scientific Multimodal Foundation Model [185.4]
Intern-S1は、一般的な理解と推論機能を備えた専門的なジェネラリストである。 Intern-S1はオフラインおよびオンライン強化学習(RL)をInternBootCampで実施する。 Intern-S1は、オープンソースモデル間の一般的な推論タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (Thu, 21 Aug 2025 17:58:00 GMT) - Qwen3-Coder, Intern-S1, Step-Audio2, TeleChat2 – arXiv最新論文の紹介で取り上げたモデルのテクニカルレポート
- NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model [176.4]
Nemotron-Nano-9B-v2は、推論処理のスループットを向上させるために設計されたハイブリッドのMamba-Transformer言語モデルである。 Nemotron-Nano-9B-v2はNemotron-Hアーキテクチャをベースにしており、共通のTransformerアーキテクチャの自己保持層の大部分をMamba-2層に置き換えている。
論文 参考訳(メタデータ) (Thu, 21 Aug 2025 04:18:04 GMT) - nvidia/NVIDIA-Nemotron-Nano-9B-v2 · Hugging Face
- Dream 7B: Diffusion Large Language Models [85.3]
これまでで最も強力なオープン拡散大言語モデルであるDream 7Bを紹介します。 我々のモデルは、一般的な、数学的、コーディングタスクにおいて、既存の拡散言語モデルよりも一貫して優れています。
論文 参考訳(メタデータ) (Thu, 21 Aug 2025 12:09:58 GMT) - 「Dream 7B achieves competitive performance with Qwen 2.5 on standard benchmarks (general language understanding, mathematical reasoning, and code generation) while exhibiting superior planning abilities and novel inference flexibility features that naturally emerge from the diffusion modeling paradigm.」とのこと。
- リポジトリはGitHub – DreamLM/Dream: Dream 7B, a large diffusion language model、モデルはDream 7B – a Dream-org Collection
Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models
- Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.6]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。 しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。 モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (Mon, 04 Aug 2025 06:54:31 GMT) - Reasoningの効率化に関するサーベイだが、すでに様々なアプローチと多くの研究成果があるのに驚き
- リポジトリはyuelinan/Awesome-Efficient-R1-style-LRMs
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models
- GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [194.6]
GLM-4.5はオープンソースのMixture-of-Experts(MoE)大言語モデルであり,総パラメータは355B,アクティベートパラメータは32Bである。 23Tトークンのマルチステージトレーニングと、エキスパートモデルのイテレーションと強化学習による総合的なポストトレーニングを通じて、GLM-4.5はエージェント、推論、コーディングタスクにわたって強力なパフォーマンスを実現している。 GLM-4.5(355Bパラメータ)とGLM-4.5-Air(106Bパラメータ)をそれぞれリリースし、推論とエージェントAIシステムの研究を進めた。
論文 参考訳(メタデータ) (Fri, 08 Aug 2025 17:21:06 GMT) - GLM-4.5(GLM-4.5, Step-3, Falcon-H1, HunyuanWorld – arXiv最新論文の紹介)の論文。性能の割にパラメータ(特にアクティブパラメータ)が少ない。詳細に比較しないと何とも言えないところではあるが、GPT-OSSとの比較が気になるところ。
- リポジトリはGitHub – zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai
GPT-5, GPT-OSS, Claude Opus 4.1
先週はGPT-5(GPT-5 が切り拓く働き方の新時代 | OpenAI)、gpt-oss 20B・120B(gpt-oss が登場 | OpenAI), Claude Opus 4.1(Claude Opus 4.1 \ Anthropic), DeepMind Genie 3(Genie 3: A new frontier for world models – Google DeepMind)と大きな発表が相次いだ。
GPT-5はベンチマーク性能でSoTAをしっかりとっており非常に性能が高い。一方でその少し前に発表されたClaude 4.1 Opusとの性能差が大きくなかったこと(システムカードの「All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.」(gpt5-system-card-aug7.pdf)という記述も気になる)や、Chatbot Arenaの日本語版でGemini 2.5 Proに負けていること(かつ1 vs 1の勝負などGemini 2.5 Proの勝率の方が高い)などから期待ほどではないという印象もある。それとGPT-5でも創作漢字(Pixels, Patterns, but No Poetry: To See The World like Humans – arXiv最新論文の紹介)は読めなかった・・・。戦略的な価格付けであり、また、Measuring AI Ability to Complete Long Tasks – METRではまさにフロンティアなスコアを出していることもあって実態がどうかの評価にはもう少し時間が必要そう。
GPT-OSSは性能の高い公開モデルであり、Apache-2ライセンス。実用的なレベルと思われるモデルが公開された意義は大きい。From GPT-2 to gpt-oss: Analyzing the Architectural Advancesではtransformerといっても様々な改善がされてきたことが分かる。
Claude 4.1 Opus, Gemini 2.5 ProとOpenAI以外の会社も非常に高性能なモデルを出しており、DeepSeekやKimi、Hunyuanといった中国のモデルの高性能化も進んでいる。OpenAI一強は終わっているものの進化は続いている印象。
GLM-4.5, Step-3, Falcon-H1, HunyuanWorld
先週は残念ながらGPT-5の発表はなかった。注目のモデルはMoE構成で商用モデルに匹敵するGLM-4.5(zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai)である。最大構成の355B-A32Bはo3やGrok4、Claude 4 Opusといったフロンティアなモデルと競合しているようにみえる。StepFunのStep-3はアクティブパラメータとデコードコストのトレードオフに注目したモデルで推論効率が高い。またVLMでありその点の性能も高い。Falcon-H1シリーズは様々な規模のモデルでtransformer, mambaハイブリッドとなっている。様々な企業・県有機関からこのような公開モデルが出ている現状はとても面白い。GPT-5がこれらを引き離せるか要注目。
別軸でTencent Hunyuanからは3D世界を作れるモデルHunyuanWorld-1.0が発表されている(腾讯混元3D)。こちらも公開モデルとなっている点がうれしい。
- Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.7]
大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。 本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。 Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
論文 参考訳(メタデータ) (Fri, 25 Jul 2025 16:53:13 GMT) - リポジトリはstepfun-ai/Step3、Step3 – a stepfun-ai Collection
- Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.3]
Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。 Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。 最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
論文 参考訳(メタデータ) (Wed, 30 Jul 2025 07:55:33 GMT) - 詳細なレポートともに公開されたモデル。
- リポジトリはtiiuae/Falcon-H1: All information and news with respect to Falcon-H1 series、モデルはtiiuae (Technology Innovation Institute)
- HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [31.0]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。 提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (Tue, 29 Jul 2025 13:43:35 GMT) - リポジトリはTencent-Hunyuan/HunyuanWorld-1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels with Hunyuan3D World Model、モデルはtencent/HunyuanWorld-1 · Hugging Face
- Kimi K2: Open Agentic Intelligence [118.8]
Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。 MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。 Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Mon, 28 Jul 2025 05:35:43 GMT) - KIMI K2の論文が出ていた。LLMなのかLRMなのかは議論が分かれるように思わなくもない。MuonClip optimizer の使用や合成データの活用など面白い記載が多い。
- リポジトリはmoonshotai/Kimi-K2-Instruct · Hugging Face