GLM-4.5, Step-3, Falcon-H1, HunyuanWorld

先週は残念ながらGPT-5の発表はなかった。注目のモデルはMoE構成で商用モデルに匹敵するGLM-4.5(zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai)である。最大構成の355B-A32Bはo3やGrok4、Claude 4 Opusといったフロンティアなモデルと競合しているようにみえる。StepFunのStep-3はアクティブパラメータとデコードコストのトレードオフに注目したモデルで推論効率が高い。またVLMでありその点の性能も高い。Falcon-H1シリーズは様々な規模のモデルでtransformer, mambaハイブリッドとなっている。様々な企業・県有機関からこのような公開モデルが出ている現状はとても面白い。GPT-5がこれらを引き離せるか要注目。

別軸でTencent Hunyuanからは3D世界を作れるモデルHunyuanWorld-1.0が発表されている(腾讯混元3D)。こちらも公開モデルとなっている点がうれしい。

  • Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.7]
    大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。 本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。 Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
    論文  参考訳(メタデータ)   (Fri, 25 Jul 2025 16:53:13 GMT)
  • リポジトリはstepfun-ai/Step3Step3 – a stepfun-ai Collection
  • Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.3]
    Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。 Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。 最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
    論文  参考訳(メタデータ)   (Wed, 30 Jul 2025 07:55:33 GMT)
  • 詳細なレポートともに公開されたモデル。
  • リポジトリはtiiuae/Falcon-H1: All information and news with respect to Falcon-H1 series、モデルはtiiuae (Technology Innovation Institute)
  • Kimi K2: Open Agentic Intelligence [118.8]
    Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。 MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。 Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 05:35:43 GMT)
  • KIMI K2の論文が出ていた。LLMなのかLRMなのかは議論が分かれるように思わなくもない。MuonClip optimizer の使用や合成データの活用など面白い記載が多い。
  • リポジトリはmoonshotai/Kimi-K2-Instruct · Hugging Face

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

  • Phi-Ground Tech Report: Advancing Perception in GUI Grounding [55.4]
    マルチモーダル推論モデルの進展により、コンピュータ使用エージェント(CUA)が実現しつつあります。CUAの成功にはGUIグラウンディングが重要で、現行のモデルの精度は65%未満と低く、実用化には課題があります。本研究では、Phi-Groundモデルを開発し、10B未満のパラメータを持つモデルにおいて全てのベンチマークで最先端の性能を達成し、CUAの実用化に向けた詳細な分析を提供しました。
    論文  参考訳(メタデータ)   (Thu, 31 Jul 2025 17:59:09 GMT)
  • GUIエージェント開発において課題となっているGUI groundingに対するモデル提案。データ構築の方法など非常に参考になる。
  • リポジトリはPhi-Ground Tech Report

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

  • GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [107.0]
    大規模言語モデル(LLM)の適応には、強化学習(RL)手法が普及しており、特にGroup Relative Policy Optimization(GRPO)などが用いられます。しかし、これらの手法は数万回のロールアウトを必要とし、非効率的です。そこで提案されたGEPA(Genetic-Pareto)は、自然言語を活用して試行錯誤から高レベルのルールを学び、少数のロールアウトで質的な向上を達成し、GRPOやMIPROv2を平均して10%以上上回る性能を示しました。
    論文  参考訳(メタデータ)   (Fri, 25 Jul 2025 17:42:32 GMT)
  • 「We introduced GEPA, a novel prompt optimizer for arbitrary LLM agents and workflows. GEPA leverages reflective prompt evolution and Pareto-based selection, showing superior sample efficiency compared to reinforcement learning (GRPO) alongside robust generalization, while outperforming leading prompt optimizers (MIPROv2).」、プロンプトチューニングを行うアプローチとGRPOを比べられるのかという疑問はありつつ、他のチューニング手法よりも性能が高いとのこと。

Magentic-UI: Towards Human-in-the-loop Agentic Systems

  • Magentic-UI: Towards Human-in-the-loop Agentic Systems [34.5]
    本稿では,ヒューマンエージェントインタラクションの開発と研究のためのオープンソースのWebインターフェースであるMagentic-UIを紹介する。 柔軟なマルチエージェントアーキテクチャに基づいて構築されたMagentic-UIは、Webブラウジング、コード実行、ファイル操作をサポートする。 エージェントベンチマークによる自律的なタスク補完、インタラクション機能のユーザテストのシミュレーション、実際のユーザとの質的研究、ターゲットとする安全性評価の4つの側面でMagentic-UIを評価した。
    論文  参考訳(メタデータ)   (Wed, 30 Jul 2025 03:49:14 GMT)
  • 「Six interaction mechanisms designed to support low-cost, human-agent interaction in Magentic- UI: co-planning, co-tasking, action approval, answer verification, memory, and multi-tasking.」と人間と強調しながら動作するエージェント開発のためのフレームワーク。
  • リポジトリはmicrosoft/magentic-ui: A research prototype of a human-centered web agent

Your AI, Not Your View: The Bias of LLMs in Investment Analysis 

  • Your AI, Not Your View: The Bias of LLMs in Investment Analysis [55.3]
    金融分野では、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違により、LLM(Large Language Models)は頻繁に知識紛争に直面している。 LLMに基づく投資分析において、確認バイアスの最初の定量的分析を行う。 われわれは、大口株に対する一貫した選好と、ほとんどのモデルにおけるコントラリアン戦略を観察する。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 16:09:38 GMT)
  • LLMの投資に関するバイアスの定量的分析。
  • 「The results show that LLMs are not neutral decision-makers, with distinct preferences for certain financial factors depending on the model. While sector preferences varied significantly across models, showing no overall trend, a common bias towards large- size stocks and a consistent preference for a contrarian investment view over momentum were observed.」というバイアスがあるというのと、「While the models correctly reversed their decisions when presented only with counter-evidence, their flexibility sharply decreased in situations where supporting and counter-evidence were mixed and conflicting.」とかなり頑固なよう。
  • LLMに何かを判断させる際には細心の注意が必要。