Qwen3-Coder, Intern-S1, Step-Audio2, TeleChat2

Claude 4 sonnetレベルのQwen3 Coder(QwenLM/Qwen3-Coder: Qwen3-Coder is the code version of Qwen3, the large language model series developed by Qwen team, Alibaba Cloud.)、235B MoE language model (Qwen3) + 6B Vision encoder (InternViT)で強力なマルチモーダルLRM Intern S1(InternLM/Intern-S1)、Kimi K2のテクニカルレポート公開(Kimi-K2/tech_report.pdf at main · MoonshotAI/Kimi-K2)、と中国のモデルに関する話題が多かった。Qwen3-Instruct-2507(QwenLM/Qwen3: Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud.)でKIMI K2越えが主張されたりと競争が激しい。

音声関連でもStepFunからStep-Audio 2 Technical Report、TeleAIからTECHNICAL REPORT OF TELECHAT2, TELECHAT2.5 AND T1が公開されている。いずれも優れた性能を主張。加えてGR-3のようなロボット関連の論文にも興味津々。

そして、もう間もなく、GPT-5が発表されるはずで、進化は続きそう。

  • GR-3 Technical Report [21.9]
    GR-3は、大規模な視覚言語アクション(VLA)モデルである。 抽象概念を含む新しいオブジェクト、環境、命令を一般化する際、例外的な能力を示す。 GR-3は、両手動操作や移動動作を必要とするタスクを含む、長い水平および外接なタスクの処理に長けている。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 10:54:13 GMT)
  • プロジェクトサイトはByteDance Seed
  • Apple Intelligence Foundation Language Models: Tech Report 2025 [246.0]
    AppleのデバイスやサービスにまたがってAppleのインテリジェンス機能を駆動する2つの基礎言語モデルを紹介します。 どちらのモデルも、責任あるWebクローリングを通じてソースされる大規模なマルチリンガルデータセットとマルチモーダルデータセットに基づいてトレーニングされている。 新しいSwift中心のFoundation Modelsフレームワークでは、ガイド付き生成、制約付きツール呼び出し、LoRAアダプタの微調整が公開されている。
    論文  参考訳(メタデータ)   (Thu, 17 Jul 2025 23:37:19 GMT)
  • Apple IntelligenceのテクニカルレポートがarXivに公開されていた。
  • 「We found that AFM on-device model performs better than Qwen-2.5-3B, Gemma-3-4B and Gemma-3n-E4B on MMLU/MMMLU, but it lags slightly behind Gemma-3n-E4B on MGSM. AFM on-device model performs lower than the larger Qwen-3-4B model. AFM server models lag slightly to LLaMA 4 Scout, whose total size and active number of parameters are comparable, but has a bigger gap to larger models such as Qwen-3-235B and the proprietary GPT-4o.」と評価している。

Expert-Guided LLM Reasoning for Battery Discovery: From AI-Driven Hypothesis to Synthesis and Characterization

  • Expert-Guided LLM Reasoning for Battery Discovery: From AI-Driven Hypothesis to Synthesis and Characterization [48.0]
    大型言語モデル(LLM)は複雑な問題に対処するためにチェーン・オブ・シント(CoT)技術を利用する。 ドメイン知識を統合した新しいエージェントフレームワークであるChatBatteryを,材料設計におけるより効果的な推論に向けて導入する。 新規リチウムイオン電池陰極材料3種を同定,合成,特性評価し,28.8%,25.2%,18.5%の実用能力向上を実現した。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 23:46:11 GMT)
  • 科学的発見を支援するAI、「ChatBattery is an AI-driven material optimization platform structured into two synergistic phases: exploration and exploitation. Together, these phases encompass eight sequential stages, orchestrated by seven specialized agents.」とかなり複雑な構成のマルチエージェントシステムになっている。加えて、人間とのコラボレーションが重視されているように見える。
    • This suggests that ChatBattery, in its present form, is more adept at optimizing within known paradigms than at generating fundamentally new chemistries. As such, expert input remains essential to expand the system’s exploration boundaries and push beyond conventional chemical spaces. Importantly, this interplay between AI-driven generation and human-guided refinement also creates unexpected opportunities, as demonstrated in the refinement of AI-suggested materials into even more advanced cathode compositions. However, advances anticipated with future reasoning AIs are likely to provide greater exploration and creativity.という記載がある。
  • 「ChatBattery, we successfully identify, synthesize, and characterize three novel lithiumion battery cathode materials, which achieve practical capacity improvements of 28.8%, 25.2%, and 18.5%, respectively, over the widely used cathode material, LiNi0.8Mn0.1Co0.1O2 (NMC811).」と効果があったとのこと。

Checklists Are Better Than Reward Models For Aligning Language Models

  • Checklists Are Better Than Reward Models For Aligning Language Models [99.2]
    チェックリストフィードバックからの強化学習(RLCF)を提案する。 指示からチェックリストを抽出し,各項目の応答がどの程度満足するかを評価する。 これらのスコアをAI判断器と特殊検証器プログラムの両方を用いて組み合わせ、RLの報酬を計算する。
    論文  参考訳(メタデータ)   (Thu, 24 Jul 2025 17:58:00 GMT)
  • 「”how can we grade responses to instructions in a manner that is automatic (requires no human annotation), flexible (considers all aspects of response quality), intuitive (aligned with perceptible differences in responses), and applicable to any instruction or response, to enable more effective use of RL in language model alignment?” 」に対してチェックリスト生成とチェックリストを元にしたフィードバックによる強化学習を提案。「From instructions, we extract checklists and evaluate how well responses satisfy each item—using both AI judges and specialized verifier programs—then combine these scores to compute rewards for RL. We compare RLCF with other alignment methods applied to a strong instruction following model (Qwen2.5-7B-Instruct) on five widely-studied benchmarks – RLCF is the only method to improve performance on every benchmark, including a 4-point boost in hard satisfaction rate on FollowBench, a 6-point increase on InFoBench, and a 3-point rise in win rate on Arena-Hard.」と効果を確認。
  • 大規模モデルでチェックリスト生成、それを使って“Reinforcement Learning from Checklist Feedback” (RLCF)と、大規模モデルからの蒸留文脈での効果が大きそうだが性能向上に効果があるのが興味深い。(Limitationにある通り計算コストは高いとのこと)

AlphaGo Moment for Model Architecture Discovery 

  • AlphaGo Moment for Model Architecture Discovery [26.3]
    AI研究のための人工超知能の最初の実証であるAII-Archを紹介する。 ASI-Archは完全に自律的なシステムで、AIが独自のアーキテクチャ革新を実行できるようにすることによって制約を揺さぶる。 我々は2万時間にわたって1,773個の自律的な実験を行い、106個の革新的なSOTA(State-of-the-art)線形アテンションアーキテクチャを発見しました。
    論文  参考訳(メタデータ)   (Thu, 24 Jul 2025 03:57:27 GMT)
  • ASIをタイトルに入れた興味深い論文、「ASI-ARCH conducted 1,773 autonomous experiments over 20,000 GPU hours, culminating in the discovery of 106 innovative, state-of-the-art (SOTA) linear attention architectures.」と主張。
  • リポジトリはGAIR-NLP/ASI-Arch: AlphaGo Moment for Model Architecture Discovery.Neural Network Research Data Gallery
  • Scaling Linear Attention with Sparse State Expansion [58.2]
    トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。 本稿では,情報分類として状態更新を概念化し,線形注意のための行スパース更新定式化を提案する。 次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
    論文  参考訳(メタデータ)   (Tue, 22 Jul 2025 13:27:31 GMT)

Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance 

  • Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance [39.6]
    大規模言語モデル(LLM)エージェントは、しばしばルールや必要なドメイン知識が頻繁に変化する環境で苦労する。 テスト時に更新されたドメイン知識を継続的に学習するための適応反射型対話エージェント(ARIA)を提案する。 ARIAはTikTok Pay内にデプロイされ、月間アクティブユーザ数は1億5000万を超えている。
    論文  参考訳(メタデータ)   (Wed, 23 Jul 2025 02:12:32 GMT)
  • 「ARIA addresses conventional model limitations in dynamic environments by as- sessing uncertainty via self-dialogue, soliciting expert corrections, and updating a timestamped, conflict-resolving knowledge base.」と記憶を通じた自己改善を行っていくフレームワークの提案。実際にデプロイされているのがすごい。
  • リポジトリはyf-he/aria

LLM Economist: Large Population Models and Mechanism Design in Multi-Agent Generative Simulacra

  • LLM Economist: Large Population Models and Mechanism Design in Multi-Agent Generative Simulacra [29.6]
    本稿では,エージェント・ベース・モデリングを用いて経済政策を設計・評価する新しい枠組みを提案する。 下位レベルでは、有界な労働者エージェントは、テキストベースのユーティリティ関数をテキストで学習するために労働供給を選択する。 上位のレベルでは、プランナーエージェントは、現在の連邦政府の括弧に固定された一貫した境界税制を提案するために、文脈内強化学習を採用する。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 17:21:14 GMT)
  • 「Our results show that a Llama-3 model can (i) recover the Mirrleesian trade-off between equity and efficiency, (ii) approach Saez-optimal schedules in heterogeneous settings where analytical formulas are unavailable, and (iii) reproduce political phenomena—such as majority exploitation and welfare-enhancing leader turnover—without any hand-crafted rules. Taken together, the experiments suggest that large language models can serve as tractable test beds for policy design long before real-world deployment, providing a bridge between modern generative AI and classical economic theory.」とのこと。LLM basedなマルチエージェントシミュレーションとして興味深い結果であるのと、(凝ったアプローチのように見えるが)Llama-3.1-8B-InstructでOKというのが若干驚き。
  • リポジトリはsethkarten/LLM-Economist: Official repository of the 2025 paper, LLM Economist: Large Population Models and Mechanism Design in Multi-Agent Generative Simulacra.