コンテンツへスキップ
- Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding [96.8]
本稿では,最上位のMLLMが個別の意味空間をどのようにナビゲートするかを評価するためのベンチマークを紹介する。 モデルは基本的なシンボル認識に失敗することが多いが、複雑な推論タスクに成功している。 この作業は、より厳格で人間指向のインテリジェントなシステムを開発するためのロードマップを提供する。
論文 参考訳(メタデータ) (Thu, 19 Mar 2026 04:08:20 GMT)
- 「despite impressive reasoning capabilities, current models frequently fail at foundational visual symbol grounding, relying instead on linguistic priors, procedural imitation, or memorized patterns. Our findings challenge a prevailing assumption in multimodal intelligence that visual recognition is inherently simpler than reasoning. Instead, we observe a consistent recognition-reasoning inversion phenomenon, where higher-level reasoning performance often masks deficiencies in low-level symbolic perception. This phenomenon underscores a key limitation of existing training paradigms: while models excel at leveraging large-scale continual natural images, they struggle to construct stable, compositional visual representations of abstract, discrete symbols.」という面白い指摘。
- PRISM: Demystifying Retention and Interaction in Mid-Training [20.2]
PRISMは、大規模言語モデルにおける中級学習設計の選択に関する総合的な実証的研究である。 約27Bの高品位トークンの中間トレーニングでは, 数学では+15から+40点, コードでは+5から+12点, 科学ベンチマークでは+6から+13点, 一般性能は+6から+13点となる。
論文 参考訳(メタデータ) (Tue, 17 Mar 2026 19:04:33 GMT)
- 「State-of-the-art models now incorporate an additional intermediate stage, mid-training, in which higher-quality, domain-focused data mixtures are used to imbue reasoning capabilities before downstream fine-tuning and reinforcement learning (RL) (Team et al , 2025; Olmo et al , 2025).」とのことで、Mid trainingに関する有効性の分析。
- プロジェクトサイトはPRISM: Demystifying Retention and Interaction in Mid-Training
- Decoding the Critique Mechanism in Large Reasoning Models [50.8]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。 中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。 チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (Tue, 17 Mar 2026 10:03:30 GMT)
- 「we demonstrate that the critique vector influences test-time scaling: increasing it helps the model better recognize its mistakes and improve its final accuracy, while decreasing it degrades performance.」というのがとても興味深い。
- リポジトリはGitHub – mail-research/lrm-critique-vectors · GitHub
- Omnilingual MT: Machine Translation for 1,600 Languages [58.7]
我々は,1600以上の言語をサポートする最初の機械翻訳システムであるOmnilingual Machine Translation (OMT)を提案する。 このスケールは、大規模な公開多言語コーパスと新たに作成されたデータセットを統合する包括的なデータ戦略によって実現されている。 OMTモデルは言語間移動を改善し、1,600の評価において、MTのパズルの「理解」部分を解くのに近づいている。
論文 参考訳(メタデータ) (Wed, 18 Mar 2026 16:25:51 GMT)
- NLLBを超える1600言語に対応した翻訳モデル。
- 「BOUQuET dataset (a newly created, largest-to-date multilingual evaluation collection built from scratch and manually extended across a wide range of linguistic families)」によるリーダーボードが公開されている。Bouquet – a Hugging Face Space by facebook
- Mamba-3: Improved Sequence Modeling using State Space Principles [74.4]
線形モデルの状態空間モデル(SSM)の視点に触発された3つの中核的方法論的改善を紹介する。 アーキテクチャの改良とともに、Mamba-3モデルは、検索、状態追跡、下流言語モデリングタスク間で大きな進歩を遂げます。
論文 参考訳(メタデータ) (Mon, 16 Mar 2026 17:30:08 GMT)
- 「We combine: (1) a more expressive recurrence derived from SSM discretization, (2) a complex-valued state update rule that enables richer state tracking, and (3) a multi-input, multi-output (MIMO) formulation for better model performance without increasing decode latency.」、「At 1.5B scale, Mamba-3 (MIMO) improves downstream language modeling accuracy by +2.2 over Transformers, +1.9 points over Mamba-2, and +1.8 over GDN, while Mamba-3 (SISO) improves over the next best model, GDN, by +0.6 points.」とMambaの最新版。フロンティアモデルではTransformerと状態空間モデルのハイブリッド構成が多く、期待大。
- When AI Navigates the Fog of War [23.9]
我々は、現在のフロンティアモデルのトレーニング遮断後に展開された2026年の中東紛争の初期段階について研究する。 我々は,11の臨界時間ノード,42のノード固有の検証可能な質問,および5つの一般探索質問を構築した。 この研究は、拡大する地政学的危機において、モデル推論のアーカイブスナップショットとして機能する。
論文 参考訳(メタデータ) (Tue, 17 Mar 2026 15:13:10 GMT)
- 「Our analysis suggests three main takeaways. First, model responses often show strong strategic reasoning, going beyond surface rhetoric to attend to structural incentives, particularly in settings involving military posture, deterrence, and material constraints. Second, this capability is uneven across domains: models are generally more reliable in economically and logistically structured settings than in politically ambiguous multi-actor environments. Third, their narratives evolve over time, shifting from early expectations of rapid containment toward more systemic accounts of escalation, exhaustion, and fragile de-escalation.」との主張。
- 進行中の事象であり振り返るのは必須なのだろうが、進行中の状況であるがゆえに残しておく報告でもあると思う。
- EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery [18.3]
EvoScientistは進化するマルチエージェントAI科学者フレームワークである。 永続記憶と自己進化を通じて研究戦略を継続的に改善する。 科学的なアイデア生成において、7つのオープンソースおよび商用の最先端システムを上回っている。
論文 参考訳(メタデータ) (Mon, 09 Mar 2026 09:07:19 GMT)
- Huawei によるAI科学者の論文。「 a Researcher Agent (RA) that generates scientific ideas and research proposals, an Engineer Agent (EA) that executes experiments and produces code and analysis, and an Evolution Manager Agent (EMA) that distills interaction histories into persistent memories to guide future decision-making.」とマルチエージェント構成。
- Beyond Explainable AI (XAI): An Overdue Paradigm Shift and Post-XAI Research Directions [95.6]
本研究では、ディープニューラルネットワーク(DNN)と大規模言語モデル(LLM)に焦点をあてる、説明可能な人工知能(XAI)アプローチに焦点を当てる。 より深い根本原因に起因する致命的な症状(2つのパラドックス、2つの概念的混乱、5つの誤った仮定)について論じる。 XAIの限界を超えて、信頼性と認定されたAI開発に向けた4つのパラダイムシフトを提案する。
論文 参考訳(メタデータ) (Fri, 27 Feb 2026 16:58:27 GMT)
- 「After nearly a decade, the legacy of the XAI program is increasingly questioned, with critics arguing that challenges have outweighed achievements. It is described as being “in trouble” [6], and some scholars suggest it should be “stopped” for high-stakes decisions [21] or has no role in the future of human-centric AI approaches [22]; others view it as myth [23] or consider it already “dead” [24].」と厳しい指摘を認識しつつのXAIの現状と今後に関するサーベイ。