コンテンツへスキップ
- Self-Improvement in Multimodal Large Language Models: A Survey [34.4]
LLM(Large Language Models)の自己改善は、コストを大幅に増大させることなく、効率的にモデル機能を強化している。 この調査は、マルチモーダル LLM における自己改善に関する総合的な概要を提供する最初のものである。
論文 参考訳(メタデータ) (Fri, 03 Oct 2025 01:48:26 GMT)
- Self improvementに関するサーベイ。「We provide a structured overview of the current literature and discuss methods from three perspectives: 1) data col- lection, 2) data organization, and 3) model optimization, to facilitate the further development of self-improvement in MLLMs. We also in- clude commonly used evaluations and down- stream applications.」
- LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training [55.7]
構造化されたUI状態と遷移を生成するスケーラブルなパラダイムを導入し、大規模にトレーニングトラジェクトリを合成する。 このパラダイムは、多様なUI状態のためのデジタルワールドシミュレータ、コヒーレント探索のためのガイド付きロールアウトプロセス、軌道ラッパーを統合している。 WebArenaとAndroidWorldの実験では、UI-Simulatorは実際のUIでトレーニングされたオープンソースエージェントと競合するか、あるいは超越している。
論文 参考訳(メタデータ) (Thu, 16 Oct 2025 17:59:38 GMT)
- 「We introduced UI-Simulator, a scalable trajectory synthesis paradigm that uses LLM-based digital world simulators to synthesize diverse UI trajectories at scale through multi-step simulation, guided rollouts, and final trajectory wrapping.」とGUIエージェント構築に活用できるデータ合成フレームワークの提案。
- リポジトリはGitHub – WadeYin9712/UI-Simulator: Code for 🌍 UI-Simulator: LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
- InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.9]
空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。 InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。 結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
論文 参考訳(メタデータ) (Wed, 15 Oct 2025 17:30:05 GMT)
- Shanghai AI LaboratoryによるVLAフレームワーク、「On SimplerEnv (Google Robot and WidowX), InternVLA-M1 achieves a new state-of-the-art, surpassing its variant by improving the average success rate by up to +5.9% and +9.8%, respectively. It also demonstrates strong spatial reasoning capabilities across box, point, and trace prediction tasks.」。
- アーキテクチャは「InternVLA-M1 employs the Qwen2.5-VL- 3B-instruct Bai et al (2025a) as the multimodal encoder for System 2, which is to capture spatial priors. It adopts the diffusion policy Chi et al (2023) (86 M) as the Action Expert (System 1, the fast executor), which effectively models embodiment-specific control. This expert is built on the DINOv2 visual encoder Oquab et al (2023) (21 M) and a lightweight state encoder (0.4 M), forming a compact vision–action model. In total, InternVLA-M1 comprises approximately 4.1B parameters.」と公開モデルの意義を感じる構成。spatial promptingをコアとしてSystem2 → System1を活用する構成。
- 「To bridge the gap between VLM and VLA, we introduce a Post-Pre-Training phase, where large-scale simulated data is used to pre-train the VLA after VLM pre-training. This stage initializes the action head and facilitates the learning of action representations.」というアプローチも注目。
- リポジトリはGitHub – InternRobotics/InternVLA-M1: InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
- Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.5]
Vlaser – 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。 Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。 提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (Mon, 13 Oct 2025 05:51:22 GMT)
- こちらはInternVL3 ベース、「In this work, we reveal that current embodied reasoning benchmarks exhibit a significant domain gap when compared to real-world robots. This core domain shift arises from the observation that robots have a fundamentally different viewpoint from that of internet datasets.」とデータの重要性を強調。
- リポジトリはGitHub – OpenGVLab/Vlaser: Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
- The Role of Computing Resources in Publishing Foundation Model Research [84.2]
我々はこれらの資源と基礎モデル(FM)の科学的発展との関係を評価する。 我々は2022年から2024年にかけて発行された6517のFM論文をレビューし、計算資源が科学出力に与える影響について229人の第一著者を調査した。 計算量の増加は国家予算配分や引用と相関していることがわかったが,研究環境との強い相関はみられない。
論文 参考訳(メタデータ) (Wed, 15 Oct 2025 14:50:45 GMT)
- 計算リソースと研究成果の関係に関する分析。「We found that projects with access to greater GPU power generally produce more advanced pre-trained models, often achieving higher performance thanks to longer training on larger models and datasets.」という示唆はそうだろうなーと思うしなかなか開示できない事情は理解しつつも「This is generally a serious reporting gap: only 16.51% of papers include GPU quantity information, 24.22% specify GPU types, and just 12.86% report inference times.」は問題だと思う。
- プロジェクトサイトはChasing Compute – Foundation Model Research
- Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI [27.2]
エージェントAIの急速な進化は、人工知能の新しいフェーズを象徴している。 この調査はエージェントAI構築におけるパラダイムシフトをトレースする。 それぞれの能力が外部スクリプトモジュールからエンドツーエンドの学習行動へとどのように進化したかを調べる。
論文 参考訳(メタデータ) (Sun, 19 Oct 2025 05:23:43 GMT)
- 「The rapid evolution of agentic AI marks a new phase in artificial intelligence, where Large Language Models (LLMs) no longer merely respond but act, reason, and adapt. This survey traces the paradigm shift in building agentic AI: from Pipeline-based systems, where planning, tool use, and memory are orchestrated by external logic, to the emerging Model-native paradigm, where these capabilities are internalized within the model’s parameters.」とAIエージェントの進化に関するサーベイ。整理の仕方が興味深い。
- リポジトリはGitHub – ADaM-BJTU/model-native-agentic-ai: Our survey’s paper list on Agentic AI, continuously updated with the latest research.
- Large Language Models Do NOT Really Know What They Don’t Know [37.6]
最近の研究は、大言語モデル(LLM)が、その内部表現に事実性信号をエンコードしていることを示唆している。 LLMは、ショートカットやスプリアスアソシエーションに頼ることで、事実エラーを発生させることもできる。
論文 参考訳(メタデータ) (Fri, 10 Oct 2025 06:09:04 GMT)
- Associated Hallucinations (AHs) とUnassociated Hallucinations (UHs)を区別して分析し、「LLMs do not encode truthfulness in their hidden states but only patterns of knowledge recall and utilization, showing that LLMs don’t really know what they don’t know.」と主張。
- Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.4]
大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。 ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。 MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
論文 参考訳(メタデータ) (Fri, 10 Oct 2025 16:49:12 GMT)
- タイプミスがLLMのパフォーマンスにどのくらい影響を与えるかの評価、「Our results show that typos consistently degrade performance, particularly in generative tasks and those requiring reasoning – while the natural language inference task is comparatively more robust.」とのこと。日本語での影響が気になる。
- リポジトリはGitHub – mainlp/Multypo-Eval
- Qwen3Guard Technical Report [127.7]
Qwen3Guardは、多言語安全ガードレールモデルである。 生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。 Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (Thu, 16 Oct 2025 04:00:18 GMT)
- 「we present Qwen3Guard, a series of multilingual safety guardrail models with two specialized variants: Generative Qwen3Guard, which casts safety classification as an instruction-following task to enable fine-grained tri-class judgments (safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a token-level classification head for real-time safety monitoring during incremental text generation. Both variants are available in three sizes (0.6B, 4B, and 8B parameters) and support up to 119 languages and dialects, providing comprehensive, scalable, and low-latency safety moderation for global LLM deployments.」とQwen3ベースのガードレールもモデル。
- リポジトリはGitHub – QwenLM/Qwen3Guard: Qwen3Guard is a multilingual guardrail model series developed by the Qwen team at Alibaba Cloud.
- Self-Improving LLM Agents at Test-Time [49.9]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。 実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。 テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 06:37:35 GMT)
- 「(i) identify uncertain samples via a novel uncertainty estimator, (ii) generate new training instances similar to these samples, and (iii) update the model online.」というステップからなるself improvement。「Test-Time Self-Improvement (TT-SI), where the model trains on self-generated samples using parameter efficient fine-tuning techniques (PEFT) (Hu et al , 2022), and Test-Time Distillation (TT-D) where adaptation is guided by supervision from samples synthesized by a more capable teacher model.」の2種類を検討している(後者はself-improvingなのか若干疑問ではあるが。。)