Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration

  • Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4]
    ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
    論文  参考訳(メタデータ)   (Thu, 11 Sep 2025 17:59:07 GMT)
  • 「(I) Our DEXPLORE is a unified single-loop optimization that learns dexterous manipulation directly from human MoCap by treating demonstrations as soft references within adaptive spatial scopes, without explicit retargeting and residual correction. (II) We distill the learned state-based tracker into a vision-based, skill-conditioned generative control policy that maps single-view depth and proprioception, together with a latent skill code, to low-level actions. (III) We demonstrate successful real-world deployment on a dexterous hand using only single-view depth sensing.」とのこと。
  • プロジェクトサイトはDexplore

Qwen3-Next-80B-A3B, Qwen3-ASR, Hunyuan-MT, MMBERT

先週の大きなニュースは非常に疎な構成を持ち性能の高いQwen/Qwen3-Next-80B-A3B-Instruct · Hugging Faceの発表だろうと思う。DeepSeekなども同様にMoE構成ではとてもスパースな構造をとることが流行っている。Qwenからはマルチリンガルな音声認識モデルQwen-ASRも発表されている。周辺領域もしっかりと作っている印象。

Hunyuan-MTはHunyuanをベースとした機械翻訳モデルである。特化型大規模言語モデル『PLaMo翻訳』を公開しました – Preferred Networks Research & Developmentもだが、LLMベースのものは非常に強力である。

最後にマルチリンガルなencoder onlyモデル、MMBERTも発表されていた。decoder onlyなLLM全盛という感じではあるが、分類など実用的なタスクでは今でも重要なアプローチである。

  • Hunyuan-MT Technical Report [20.9]
    Hunyuan-MT-7Bは33の主要言語にまたがる双方向翻訳をサポートしている。 Hunyuan-MT-Chimera-7Bは、スローシンキングモードにインスパイアされた翻訳モデルである。
    論文  参考訳(メタデータ)   (Fri, 05 Sep 2025 16:11:05 GMT)
  • 「The development of our models follows a holistic training process specifically engineered for multilingual translation, which begins with general and MT-oriented pre-training to build foundational capabilities, proceeds to Supervised Fine-Tuning (SFT) for task-specific adaptation, and culminates in advanced alignment through Reinforcement Learning (RL) and weak-to-strong RL.」とあるがそれぞれのパイプラインもとても凝っている。
  • リポジトリはtencent/Hunyuan-MT-7B · Hugging Face
  • mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.6]
    mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。 データに1700以上の低リソース言語を追加しています。 分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 17:08:42 GMT)
  • 「We do this by pre-training our new model suite, MMBERT, on 3T tokens of multilingual text using an architecture inspired from ModernBERT (Warner et al , 2024).」というマルチリンガルBERT。
  • リポジトリはGitHub – JHU-CLSP/mmBERT: A massively multilingual modern encoder language model

Autonomous Code Evolution Meets NP-Completeness 

  • Autonomous Code Evolution Meets NP-Completeness [9.7]
    SATLUTIONはLLMベースのコード進化を完全なリポジトリスケールに拡張した最初のフレームワークである。 厳格な正当性保証と分散フィードバックの下でソルバリポジトリを編成し、同時に独自の進化ポリシーとルールを自己進化させる。 SATコンペティション2024とベンチマークを皮切りにSATLUTIONは、SATコンペティション2025の人間設計の勝者を決定的に上回った。
    論文  参考訳(メタデータ)   (Tue, 09 Sep 2025 03:28:06 GMT)
  • 「Starting from SAT Competition 2024 codebases and benchmark, SATLUTION evolved solvers that decisively outperformed the human-designed winners of the SAT Competition 2025, and also surpassed both 2024 and 2025 champions on the 2024 benchmarks.」とコード生成の強力さを印象付ける結果。
  • discussionには「However, our experiments also revealed limitations. In fully automated operation—what we refer to as our customized “YOLO mode“, distinct from the official CLI tool, the agents often struggled, and the flow proved most effective in a semi-automated setup with targeted human intervention. しかし、私たちの実験では限界も明らかになりました。完全自動運転、つまり私たちが「YOLOモード」と呼ぶカスタマイズされた設定では、公式のCLIツールとは異なり、エージェントはしばしば苦戦し、フローは特定の人間の介入がある半自動設定で最も効果的であることが分かりました。 (score: 0.9)
  • In particular, the agents were prone to failures in SAT/UNSAT correctness checks and deep memory errors such as segmentation faults, where human intervention remained critical to preserve progress. While the planning capabilities of the agents were strong at the level of concrete programming tasks, they lacked sufficient domain-specific knowledge at the idea level, especially for nuanced aspects of SAT solving.」という記載もあり、ドメイン知識の重要性は指摘されている。(ただ、そのうちそこもAI代替されそうな気がしなくはない。

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

DynaGuard: A Dynamic Guardrail Model With User-Defined Policies 

  • DynaGuard: A Dynamic Guardrail Model With User-Defined Policies [40.6]
    ユーザ定義ポリシーに基づいてテキストを評価する動的ガーディアンモデルを提案する。 私たちのモデルは、ポリシー違反の迅速な検出や、モデルのアウトプットを明確化し正当化する連鎖推論に使用できます。
    論文  参考訳(メタデータ)   (Tue, 02 Sep 2025 17:57:56 GMT)
  • 「Guardian models are used to supervise and moderate the outputs of user-facing chatbots, enforcing guardrails and detecting bad behaviors.」というガーディアンモデル(その中でもユーザ入力のポリシーに動的に対応可能なもの)の構築、Qwen3ベースで強力な性能。
  • リポジトリはGitHub – montehoover/DynaGuard: Code for “DynaGuard: A Dynamic Guardrail Model With User-Defined Policies.”

Explain Before You Answer: A Survey on Compositional Visual Reasoning

  • Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.3]
    構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。 本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。 次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
    論文  参考訳(メタデータ)   (Sun, 24 Aug 2025 11:01:51 GMT)
  • Compositional visual reasoning に関するサーベイ。

Social World Models 

  • Social World Models [35.7]
    我々は、新しい構造化社会世界表現形式(S3AP)を導入する。 S3APは、状態、観察、エージェントアクション、精神状態といった社会的相互作用を構造化されたものとして表現する。 S3APは、LLMが5つの社会的推論タスクのソーシャルな物語をよりよく理解するのに役立ちます。 次に、これらの構造化された表現から社会世界モデルを誘導し、将来の社会的ダイナミクスを予測する能力を示す。
    論文  参考訳(メタデータ)   (Sat, 30 Aug 2025 16:52:58 GMT)
  • 「We define and build social world models through explicit representations of agent mental states, actions, and observations (S3AP). Our approach captures complex social dynamics systematically by automatically transforming free-form narratives into S3AP representations, reducing reporting bias and bridging the gap between raw text and actionable social world models.」とのこと。
  • LLMをうまく使う、LLMがうまく扱える形式で物事を整理するなどメタなタスクを扱っているように思えるのが興味深い。

DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

  • DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis [52.6]
    本稿では,生のベンチマークと総合的自動評価フレームワークであるDeepScholar-benchを紹介する。 DeepScholar-benchは、最近の高品質なArXiv論文からクエリを抽出し、真の研究合成タスクにフォーカスしている。 また,LOTUS APIを用いて効率的に実装した参照パイプラインであるDeepScholar-baseを開発した。
    論文  参考訳(メタデータ)   (Wed, 27 Aug 2025 16:36:34 GMT)
  • 「DeepScholar- bench draws queries from recent, high-quality ArXiv papers and focuses on a real research synthesis task: generating the related work sections of a paper by retrieving, synthesizing, and citing prior research.」というベンチマークの提案。Live benchmarkとなっている。
  • プロジェクトサイトはGitHub – guestrin-lab/deepscholar-bench: benchmark and evaluate generative research synthesis

AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent

  • AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent [49.6]
    本稿では,モバイルエージェントが現実的かつスケーラブルな影響をもたらすためには,解決すべき4つの中核的問題を特定する。 本稿では,マルチモーダル,マルチエージェント,汎用オンデバイスアシスタントであるAppCopilotを紹介する。 AppCopilotはアプリケーション間で動作し、データからデプロイメントまでの完全なクローズドループシステムを構成する。
    論文  参考訳(メタデータ)   (Tue, 02 Sep 2025 15:48:21 GMT)
  • この分野の教科書ともいえる情報量を持つ論文。結論の「In summary, mobile agents are entering a new era of ecosystem development in intelligent automation, cross-platform operation, and continual learning. Importantly, these abilities should not be viewed as a mere summary of existing achievements, but rather as a vision for future evolution.」はまさにそうで、様々な研究機関が相応のリソースを投入している理由だと思う。
  • リポジトリはGitHub – OpenBMB/AppCopilot: A General, Accurate, Long-Horizon, and Efficient Mobile Agent driven by Multimodal Foundation Models