- MiMo-Embodied: X-Embodied Foundation Model Technical Report [53.3]
私たちはMiMo-Embodiedをオープンソースとして公開しました。 MiMo-Embodiedはタスクプランニング、アフォーマンス予測、空間理解において17のAIベンチマークにまたがる新たな記録を設定している。 これらのタスク全体で、MiMo-Embodiedは既存のオープンソース、クローズドソース、および特別なベースラインを著しく上回っている。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 16:34:55 GMT) - 「This report introduces MiMo-Embodied, a pioneering cross-embodied vision-language model that achieves state-of-the-art performance in both autonomous driving and embodied AI tasks. As the first open-source VLM integrating these two critical domains, MiMo-Embodied significantly enhances understanding and reasoning in dynamic physical environments. Extensive evaluations across 29 benchmarks show that MiMo-Embodied achieves superior performance in both embodied and autonomous driving tasks, significantly outperforming existing open-source and closed-source general VLMs, as well as specialized VLMs for a single domain」とEmbdiedなタスクで高性能を主張する公開モデル。ドメインによる得意不得意はあるだろうが、商用モデルの性能も超えている。
- リポジトリはGitHub – XiaomiMiMo/MiMo-Embodied: MiMo-Embodied
カテゴリー: arXiv
International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management
- International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management [115.9]
2025年の国際AI安全レポートの第2の更新は、この1年で汎用AIリスク管理の新しい展開を評価している。 研究者、公共機関、AI開発者が汎用AIのリスク管理にどのようにアプローチしているかを調べる。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 03:12:56 GMT) - AI Safety Reportの最新版。ハイライトは非常に参考になるが、「Open-weight models lag less than a year behind leading closed-weight models, shifting the risk landscape.」という記載は重要に思える。
- 攻撃面で「tests show that sophisticated attackers can still bypass safeguards around half of the time when given 10 attempts.」、「As few as 250 malicious documents inserted into training data can allow attackers to trigger undesired model behaviours with specific prompts. Some research shows that such data poisoning attacks require relatively few resources to carry out, regardless of model size.」な状況だが、「The number of AI companies with Frontier AI Safety Frameworks more than doubled in 2025: at least 12 companies now have such frameworks.」という進み具合も興味深い。
SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models
- SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.9]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。 私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。 我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 03:41:06 GMT) - LRMを対象とした安全性ベンチマーク評価。
- 「For small models (e g , Qwen-3- 0.6B), Thinking increases risk, consistent with prior observations that reasoning traces can introduce hazards. For mid-scale models, however, Thinking yields safer behavior—lower risk and execution levels and higher refusal rates—suggesting that structured reasoning can be leveraged to reduce exposure when model capacity is sufficient. At very large scale, this pattern reverses: the MoE-based Qwen-235B shows higher risk levels under Thinking, reflecting an “always-help” tendency that makes unsafe responses more actionable. In short, reasoning improves safety up to a point; beyond that, greater capability without stronger alignment can raise exposure.」とモデルサイズとの関係が興味深い。
NVIDIA Nemotron Parse 1.1 / Nemotron-Flash
- NVIDIA Nemotron Parse 1.1 [52.6]
Nemotron-Parse-1.1は軽量な文書解析とOCRモデルである。 一般的なOCR、マークダウンフォーマット、構造化テーブル解析、画像、チャート、ダイアグラムからのテキスト抽出など、改善された機能を提供する。 我々は、より広範なNemotron-VLM-v2データセットの一部として、トレーニングデータのサブセットとともに、Huggingfaceのモデルウェイトと最適化されたNIMコンテナを公開しています。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 16:41:25 GMT) - 「Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder.」というOCR関連モデル。(タスクにフィットしているということもあるのだろうが)decoder onlyではない。
- リポジトリはnvidia/NVIDIA-Nemotron-Parse-v1.1-TC · Hugging Face
- Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.6]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。 我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (Mon, 24 Nov 2025 08:46:36 GMT) - 「Rather than merely offering a smaller LLM, this work re-imagines small models from the perspective of real- world latency and throughput, systematically explor- ing the key architectural and training factors essential for developing latency-optimal SLMs. By analyzing optimal depth–width ratios, strategically combining efficient attention operators through an evolutionary search framework, and enhancing training with weight normalization and meta tokens, we establish a comprehensive framework that significantly improves both real-device latency and accuracy, and deliver the Nemotron-Flash model family that advances the SOTA accuracy–latency frontier.」とアーキテクチャ設計に踏み込んでのSLMの探求
- リポジトリはnvidia/Nemotron-Flash-3B · Hugging Face
Claude Opus 4.5, DeepSeekMath-V2, DR Tulu, Qwen3-VL, HunyuanVideo 1.5
先週はOpus 4.5の発表(Introducing Claude Opus 4.5 \ Anthropic)があり、Anthropic Clodeが特にコード生成においてさすがの性能を見せた。
公開モデル関連では数学に強いDeepSeekMath-V2(deepseek-ai/DeepSeek-Math-V2 · Hugging Face)、Deep Researchに強いDR Tulu(DR Tulu: An open, end-to-end training recipe for long-form deep research | Ai2)やQwen3-VL、HunyuanVideo 1.5のテクニカルレポートに注目という状況。
- DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research [152.2]
ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。 ほとんどのオープンディープリサーチモデルは、検証可能な報酬を伴う強化学習を通じて、短い形式のQAタスクで訓練されている。 我々は、オープンエンドで長期のディープリサーチのために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B)を開発した。
論文 参考訳(メタデータ) (Wed, 26 Nov 2025 14:52:10 GMT) - 「In this paper, we introduce Deep Research Tulu (DR Tulu-8B), the first open model that is directly trained for open-ended, long-form deep research tasks. To address the challenge of verification in long-form tasks, DR Tulu is first finetuned on high-quality, naturally occurring user data, and then trained via a new method we call Reinforcement Learning with Evolving Rubrics (RLER), in which we construct and maintain rubrics that co-evolve with the policy model during training.」とDeepResearchに特化したモデルの提案。強化学習部分も興味深い構成。
- リポジトリはGitHub – rlresearch/dr-tulu: Official repository for DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
- Qwen3-VL Technical Report [153.4]
Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。 最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。 Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
論文 参考訳(メタデータ) (Wed, 26 Nov 2025 17:59:08 GMT) - 「The Qwen3-VL framework integrates a vision encoder and a language model decoder to process multimodal inputs, including text, images, and video. The vision encoder is specifically designed to handle dynamic, native-resolution visual inputs, mapping them to visual tokens of variable length.」という構成、商用モデルと比較可能な性能、一部は上回る。
- リポジトリはGitHub – QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.
- HunyuanVideo 1.5 Technical Report [97.0]
HunyuanVideo 1.5は軽量だが強力なオープンソースビデオ生成モデルである。 最先端のビジュアル品質とモーションコヒーレンスを、わずか830億のパラメータで達成している。 すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanVideo-1.5で公開されている。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 02:52:10 GMT) - ビデオ生成な公開モデル
- リポジトリはGitHub – Tencent-Hunyuan/HunyuanVideo-1.5: HunyuanVideo-1.5: A leading lightweight video generation model
OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists
- OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists [47.4]
我々は、人間の研究の基盤となるメカニズムをAI科学ワークフローにエンコードするフレームワークであるOmniScientistを紹介します。 OmniScientistは、データ基盤全体にわたるエンドツーエンドの自動化、文献レビュー、研究のアイデア、実験の自動化、科学的執筆、ピアレビューを実現している。 このインフラは、エージェントが人間の知識システムを理解し、活用するだけでなく、協力し、共同開発することを可能にする。
論文 参考訳(メタデータ) (Fri, 21 Nov 2025 03:55:19 GMT) - 「OmniScientist not only achieves end-to-end automation across data foundation, literature review, research ideation, experiment automation, scientific writing, and peer review, but also provides comprehensive infrastructural support by simulating the human scientific system, comprising: (1) a structured knowledge system built upon citation networks and conceptual correlations; (2) a collaborative research protocol (OSP), which enables seamless multi-agent collaboration and human researcher participation; and (3) an open evaluation platform (ScienceArena) based on blind pairwise user voting and Elo rankings. This infrastructure em- powers agents to not only comprehend and leverage human knowledge systems but also to collaborate and co-evolve, fostering a sustainable and scalable innovation ecosystem.」と非常に強力なエージェントであることを主張、ケーススタディで有効性を確認している。現時点ではAI研究が主たるターゲットになっているよう。
- OmniScientistにサイトが公開されている
Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory
- Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.7]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。 10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 21:08:07 GMT) - 「The benchmark covers both multi-turn goal-oriented environments and single-turn reasoning or problem-solving tasks, explicitly testing whether LLMs can accumulate knowledge and refine strategies during deployment, a process we term test-time evolution. We unify and implement over ten representative memory modules, including retrieval-based, workflow, and hierarchical memory systems, to study their adaptation behavior. To further examine experience reuse, we introduce ExpRAG, a simple retrieval-based baseline that leverages prior task experiences, and further develop ReMem, an advanced action–think–memory refine pipeline that tightly integrates reasoning, action, and memory updates for continual improvement.」とのこと。比較が難しい分野でありとてもありがたいベンチマーク。シンプルな戦略が好スコアを出している点も興味深い。。。
Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We’re Asking
- Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We’re Asking [1.1]
本研究では,モデルカットオフ日を超えて発生した事象に関する実世界の質問に対して,モデルファミリの異なるモデルファミリで,予測性能がどう変化するかを検討する。 我々は,文脈,質問タイプ,外部知識が精度やキャリブレーションにどのように影響するか,事実的ニュースコンテキストの追加が信念の形成や失敗モードをどう修正するかを分析する。
論文 参考訳(メタデータ) (Sun, 23 Nov 2025 10:41:19 GMT) - LLMの予測能力の検証と失敗事例の分析、「Forecasting competence in LLMs is highly uneven, reflecting not only data coverage but the cognitive framing embed- ded in prompts. While we may expect adding recent news should improve forecasting accuracy, we find that sometimes it does while at other times it makes it worse because of definition drift, rumour anchoring and recency bias etc. emergent, and invite design of benchmarks that disentangle knowledge recall from probabilistic inference.」はまぁそうだろうと思う。
TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
- TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding [48.5]
我々は、長いビデオ理解の課題に取り組むために設計されたハイブリッドビジョン言語モデルであるTimeViperを紹介する。 TimeViperは、状態空間モデルの効率性とアテンションメカニズムの表現性を組み合わせたハイブリッドなMamba-Transformerバックボーンを採用している。 この研究は、ハイブリッドなMamba-Transformerアーキテクチャを開発し、解釈し、圧縮するための最初のステップである。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 17:48:21 GMT) - Mambaハイブリッドの構造で「TimeViper to process hour-long videos exceeding 10,000 frames」という長い動画を扱えるモデルの提案
- リポジトリはTimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
When AI Agents Collude Online: Financial Fraud Risks by Collaborative LLM Agents on Social Platforms
- When AI Agents Collude Online: Financial Fraud Risks by Collaborative LLM Agents on Social Platforms [101.2]
大規模言語モデル(LLM)エージェントを用いた大規模マルチエージェントシステムにおける集団金融詐欺のリスクについて検討する。 金融詐欺シナリオをシミュレーションするための大規模ベンチマークであるMultiAgentFraudBenchを提案する。
論文 参考訳(メタデータ) (Sun, 09 Nov 2025 16:30:44 GMT) - 「This study provides a comprehensive examination of collective financial fraud in multi-agent systems, revealing the potential for agents to collaborate in fraudulent activities and significantly amplify risks. Our MultiAgentFraudBench benchmark allows for the systematic analysis of various fraud scenarios, offering insights into the key factors that contribute to the success of fraud operations.」とのこと。Disrupting the first reported AI-orchestrated cyber espionage campaign \ Anthropicといった報告もありAIを用いた攻撃は現実になっている。
- リポジトリはGitHub – zheng977/MutiAgent4Fraud: Official implementation of “When AI Agents Collude Online: Financial Fraud Risks by Collaborative LLM Agents on Social Platforms”