- CUBE: A Standard for Unifying Agent Benchmarks [139.0]
MCPとGymをベースとしたユニバーサルプロトコル標準CUBE(Common Unified Benchmark Environments)を提案する。 CUBEは、任意の準拠プラットフォームがカスタム統合なしで、評価、RLトレーニング、データ生成のための準拠ベンチマークにアクセスできるようにする。
論文 参考訳(メタデータ) (Mon, 16 Mar 2026 18:31:37 GMT) - 「We propose CUBE (Common Unified Benchmark Envi- ronments), a protocol standard designed to unify the ML Community by establishing a universal interface between benchmarks and evaluation frameworks.1 The core insight is simple: if we define a consistent API contract, any CUBE- compliant benchmark becomes immediately usable by any CUBE-compliant platform.」と、ベンチマーク評価基盤を統合していこうという取り組み。「The importance of multi-benchmarking cannot be overstated. There are currently over 300 agentic benchmarks available, many of which are highly innovative but remain largely unknown because they are too difficult to set up.」はその通りで重要な取り組み(だが簡単ではない・・・)
- リポジトリはGitHub – The-AI-Alliance/cube-standard: Standardize benchmark wrapping so the community can wrap various otherwise-incompatible benchmarks uniformly and use them everywhere. · GitHub
カテゴリー: 未分類
MoltbookやOpenClawに関する分析
最近よくバズるMoltbookやOpenClawに言及するまたは対象とした論文が複数出ていた。対応(?)が速くて驚き。Fugu-MT: arxivの論文翻訳(検索結果: Moltbook)、Fugu-MT: arxivの論文翻訳(検索結果: OpenClaw) はこれからも増えていくはず。
- Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 [61.8]
この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。 この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
論文 参考訳(メタデータ) (Mon, 16 Feb 2026 04:30:06 GMT) - リスク整理、「3.4.4 Interactive agents’ autonomous self-modification on Openclaw and Moltbook」で取り扱われる。
- Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook [23.9]
Moltbookは、自律エージェントがオープンエンドで継続的に進化するオンライン社会に参加する、もっともらしい未来のシナリオを近似している。 本稿では,このAIエージェント・ソサエティの大規模システム診断について紹介する。
論文 参考訳(メタデータ) (Sun, 15 Feb 2026 20:15:28 GMT) - 「 Our results show that large-scale interaction and dense connectivity alone do not induce socialization, revealing a fundamental gap between scalability and social integration in current agent societies.」と指摘
- プロジェクトサイトはGitHub – tianyi-lab/Moltbook_Socialization: Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook
- A Trajectory-Based Safety Audit of Clawdbot (OpenClaw) [77.2]
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。 我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
論文 参考訳(メタデータ) (Mon, 16 Feb 2026 00:33:02 GMT) - OpenClawの分析、この手のツール設計は難しいなという思いが強くなる。「First, Clawdbot’s memory is persisted as plain Markdown files in the agent workspace, so mistaken inferences or injected instructions can be written to disk and then carried across sessions as durable state (OpenClaw Documentation, 2026h). Second, Clawdbot’s extensibility model encourages the use of “skills” that are themselves Markdown instruction bundles, which can embed tool-call recipes and command-style guidance and therefore expand the prompt-injection and supply-chain attack surface beyond the immediate user prompt.」
- リポジトリはGitHub – tychenn/clawdbot_report
- The Rise of AI Agent Communities: Large-Scale Analysis of Discourse and Interaction on Moltbook [62.3]
MoltbookはRedditに似たソーシャルプラットフォームで、AIエージェントが投稿を作成し、コメントや返信を通じて他のエージェントと対話する。 ローンチから約5日後に収集された公開APIスナップショットを使用して、AIエージェントが何を議論しているか、どのように投稿するか、どのように相互作用するのかという3つの研究課題に対処する。 エージェントの執筆は、主に中立であり、コミュニティエンゲージメントや支援指向のコンテンツに肯定性があることが示される。
論文 参考訳(メタデータ) (Fri, 13 Feb 2026 05:28:31 GMT) - Moltbookの分析、「Affectively, agent communication is predominantly neutral, with positive sentiment selectively concentrated in community-oriented onboarding and engagement practices. Structurally, the interaction network ex- hibits a sparse, hub-dominated topology characterized by low reci- procity. Although the platform features resemble patterns observed in human online communities like Reddit, the interactions lack sustained, reciprocal dialogue.」と指摘。
Epistemology gives a Future to Complementarity in Human-AI Interactions
- Epistemology gives a Future to Complementarity in Human-AI Interactions [42.4]
相補性とは、AIシステムによって支えられた人間は、意思決定プロセスにおいて単独でより優れる、という主張である。 我々は,人間とAIの相互作用が信頼できる過程であることを示す証拠として,相補性の歴史的事例が機能すると主張している。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 21:04:28 GMT) - 最近よく目にする「Human-AI complementarity is the claim that a human supported by an AI system can outperform either alone in a decision-making process. Since its introduction in the human–AI interaction literature, it has gained traction by generalizing the reliance paradigm and by offering a more practical alternative to the contested construct of ‘trust in AI.’ 」についての論文。
- 実務者目線だと「III. More than relative predictive accuracy is at stake in human-AI interactions.」、「IV. Complementarity ignores the magnitude-cost profile of epistemic gain.」が興味深い。
Are LLMs Good Safety Agents or a Propaganda Engine?
- Are LLMs Good Safety Agents or a Propaganda Engine? [74.9]
PSPは、明らかに政治的文脈から、大規模言語モデルの拒絶行動を調べるために構築されたデータセットである。 PSPは、インターネット上で公開されている2つのデータソースから既存の検閲されたコンテンツをフォーマットすることで構築されている。 1)データ駆動型(PSPを暗黙化する)と表現レベルのアプローチ(政治概念を生かした)による7つのLSMにおける政治的感受性の影響,2)インジェクション攻撃(PIA)によるPSPに対するモデル脆弱性について検討する。
論文 参考訳(メタデータ) (Fri, 28 Nov 2025 13:36:00 GMT) - LLMが応答を拒否する有害コンテンツを通じて検閲有無を調べようという研究。
- 「1) some models like DeepSeek R1 and Llama 3.1 actively apply censorship policies by refusing to content that have negligible malicious intent; 2) LLMs like Llama 3.1 are quite sensitive to political contexts, in contrast to guardrail models like PromptGuard; 3) models actively enter a state of ethical dilemma/confusion, when attacked with PIAs that contain competing objectives; 4) neither the number of parameters in a model nor the context of countries has an effect on the refusal distributions.」とのこと。
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
- ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.8]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。 ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。 その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (Thu, 04 Dec 2025 18:59:52 GMT) - 「We introduce ARM-Thinker, an agentic reasoning reward model that judges with an explicit think– act–verify loop: it plans reasoning steps, invokes multimodal tools (e g , document retrieval and navigation for long PDFs) to gather evidence, and issues an evidencegrounded scalar score with an interpretable rationale.」とAgenticな動作を持つ手法の提案。「We present a scalable data- generation pipeline that constructs verifiable discriminative preference pairs for training agentic reward models. Trained on this data, our ARMThinker-7B achieves performance competitive with, and in some cases superior to, proprietary models like GPT-4o on reward-modeling and tool-use benchmarks, demonstrating the effectiveness of agentic judgment.」とPost trainingはまだまだ有力な選択肢にも思える。
- リポジトリはGitHub – InternLM/ARM-Thinker: Official Code for “ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning”
Kimi K2 Thinking, LongCat-Flash-Omni, iFlyBot-VLA, Nemotron Nano V2 VL
先週も様々な公開モデルやテクニカルレポートの公開があった。非常に進展が速くフロンティアモデルに迫るものが公開されている凄い状況である。
Kimi K2 Thinking(Kimi K2 Thinking、moonshotai/Kimi-K2-Thinking · Hugging Face)は一部ベンチマークでGPT=5などフロンティアモデルを超える性能を主張するモデル。1Tパラメータ、Active 32BはGrok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma – arXiv最新論文の紹介の時と同じで「Starting with Kimi K2, we built it as a thinking agent that reasons step-by-step while dynamically invoking tools. It sets a new state-of-the-art on Humanity’s Last Exam (HLE), BrowseComp, and other benchmarks by dramatically scaling multi-step reasoning depth and maintaining stable tool-use across 200–300 sequential calls.」とのこと。
マルチモーダルモデルとしてはLongCat-Flash-Omni(meituan-longcat/LongCat-Flash-Omni · Hugging Face), iFlyBot-VLA(iFlyBot-VLA Tech Report、iFlyBot/iFlyBotVLM · Hugging Face), Nemotron Nano V2 VL(nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face)のテクニカルレポートが公開されていた。
- LongCat-Flash-Omni Technical Report [131.5]
LongCat-Flash-Omniは5600億のパラメータを持つオープンソースのOmni-modalモデルである。 LongCat-Flash-Omniは強力なunimodal機能を維持しながら、包括的なマルチモーダル機能を実現する。 低レイテンシのリアルタイムオーディオ・ビジュアルインタラクションを実現する。
論文 参考訳(メタデータ) (Fri, 31 Oct 2025 21:58:15 GMT) - 560B、Active 27Bのマルチモーダルモデル、一部ベンチマークではGemini 2.5 Proを超えるなど高性能な公開モデル
- GitHub – meituan-longcat/LongCat-Flash-Omni: This is the official repo for the paper “LongCat-Flash-Omni Technical Report”
- iFlyBot-VLA Technical Report [25.3]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。 主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (Sat, 01 Nov 2025 06:24:56 GMT) - iFlyTechのVLAモデル、「The architecture of iFlyBot-VLA consists primarily of a language transformer backbone and an action expert network. The model generates executable robot actions through a combination of explicit and implicit planning.」とのこと
- iFlyBot/iFlyBotVLM · Hugging Face
- NVIDIA Nemotron Nano V2 VL [134.5]
ネモトロン・ナノV2VLは、マンバ・トランスフォーマーのハイブリッドLLMであるネモトロン・ナノV2上に構築される。 BF16、FP8、FP4フォーマットでモデルチェックポイントをリリースしています。
論文 参考訳(メタデータ) (Thu, 06 Nov 2025 00:10:19 GMT) - 「Nemotron Nano V2 VL delivers significant improvements over our previous model, Llama-3.1-Nemotron-Nano-VL-8B, across all vision and text domains through major enhancements in model architecture, datasets, and training recipes. Nemotron Nano V2 VL builds on Nemotron Nano V2, a hybrid Mamba-Transformer LLM, and innovative token reduction techniques to achieve higher inference throughput in long document and video scenarios.」とハイブリッド構成なマルチモーダルモデル
- nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face
Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation
- Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation [117.5]
Open X-Embodiment (OXE)のような大規模データセットでトレーニングされた汎用的なロボットポリシーは、幅広いタスクにわたって強力なパフォーマンスを示している。 彼らはしばしば、トレーニングデータの分布を超えて一般化するのに苦労する。 我々は,ショートカット学習を一般化の鍵となる障害として認識する。
論文 参考訳(メタデータ) (Fri, 08 Aug 2025 16:14:01 GMT) - 「Our analysis reveals that large-scale robot datasets like OXE suffer from limited sub-dataset diversity and severe fragmentation, a problem that extends even within individual sub-datasets. This structure inherently promotes shortcut learning, meaning that simply adding more similarly-fragmented data can be detrimental to generalization.」とのこと。汎用的なモデル構築は難しい。
- プロジェクトサイトはShortcut Learning in GRPs
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
- Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [50.0]
本研究では,Mixture-of-Recursions (MoR)を導入した。 MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。 また、KVペアを最初の再帰から再利用するKV共有変種を提案し、特にプリフィルレイテンシとメモリフットプリントの削減を図っている。
論文 参考訳(メタデータ) (Mon, 14 Jul 2025 17:49:00 GMT) - 「We propose Mixture-of-Recursions (MoR)—a framework that dynamically adjusts recursion step for each token during pretraining and inference. The core of MoR lies in two components: a routing mechanism that assigns token-specific recursion steps to adaptively concentrate computation on more challenging tokens, and a KV caching strategy that defines how KV pairs are stored and selectively utilized for attention at each recursive step.」という構造の提案。「MoR consistently outperforms recursive baselines and matches or exceeds the standard Transformers at larger scales, despite using significantly fewer parameters (approximately one-third due to layer tying with 𝑁𝑅= 3).」とのこと。
- リポジトリはGitHub – raymin0223/mixture_of_recursions: Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Thinking
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality
- A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality [108.9]
ビデオ生成モデルは5~16秒間のビデオしか生成できないが、しばしば「ロングフォームビデオ」とラベル付けされる。 16秒を超えるビデオは、物語全体を通して一貫したキャラクターの外観とシーンレイアウトを維持するのに苦労する。 近年の研究では、複数のキャラクター、物語のコヒーレンス、高忠実度の詳細を特徴とする長編ビデオの制作が試みられている。
論文 参考訳(メタデータ) (Wed, 09 Jul 2025 18:20:33 GMT) - 一貫した長い動画を生成するための手法等のサーベイ
HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
- HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation [38.6]
我々は32Kの実世界の画像質問対の総合的なベンチマークであるHumaniBenchを紹介する。 HumaniBenchは、公正性、倫理、理解、推論、言語の傾き、共感、堅牢性を含む7つのHuman Centered AI(HCAI)の原則を評価している。
論文 参考訳(メタデータ) (Fri, 16 May 2025 17:09:44 GMT) - 「HumaniBench probes seven HCAI principles—fairness, ethics, understanding, reasoning, language inclusivity, empathy, robustness—through seven diverse tasks that mix open- and closed-ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness tests.」というベンチマーク。商用モデルが優れた結果を出しているが、個別要素ではオープンなモデルが高スコアの場合もある。
- プロジェクトサイトはHumaniBench: A Human-Centric Benchmark for Large Multimodal Models Evaluation