注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。2026/4/1以降はFuguReportに移行します。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

UniICL: Systematizing Unified Multimodal In-context Learning through a Capability-Oriented Taxonomy 

The data heat island effect: quantifying the impact of AI data centers in a warming world 

  • The data heat island effect: quantifying the impact of AI data centers in a warming world [80.9]
    我々は、AIデータセンターの運用開始後、陸地表面温度が平均2C上昇すると推定する。 この温度上昇の影響で3億4000万人以上が影響を受ける可能性があることを定量化して、コミュニティへの影響を評価した。
    論文  参考訳(メタデータ)   (Sat, 21 Mar 2026 18:04:03 GMT)
  • 「We estimate that the land surface temperature increases by 2°C on average after the start of operations of an AI data centre, inducing local microclimate zones, which we call the data heat island effect.」というほんまかいな、という論文。
  • 分析は興味深いものの、地表面の温度は様々な影響を受ける点に注意が必要な気がする。

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

  • Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale [236.0]
    Intern-S1-Proは、最初の1トリリオンパラメータの科学マルチモーダル基礎モデルである。 その科学的専門知識は、重要な科学分野にまたがって100以上の専門的なタスクを習得するために大幅に拡張されている。 XTuner と LMDeploy は、1-トリリオンパラメータレベルでの強化学習(RL)の訓練を効率的に行う。
    論文  参考訳(メタデータ)   (Thu, 26 Mar 2026 05:21:45 GMT)
  • 「we introduce Intern-S1-Pro, the first one-trillion-parameter scientific multimodal foundation model. Scaling to this unprecedented size, Intern-S1-Pro delivers a comprehensive enhancement across both general and scientific domains.」と大規模な科学にフォーカスした基盤モデル
  • 自動作成のレポート:Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale
  • リポジトリはinternlm/Intern-S1-Pro · Hugging Face

Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

  • MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution [52.3]
    メモリ拡張LDMエージェントは、長期の相互作用をサポートするために外部メモリバンクを保持する。 MemMAはプラグアンドプレイのマルチエージェントフレームワークで、前方と後方の両方の経路に沿ってメモリサイクルを調整する。
    論文  参考訳(メタデータ)   (Thu, 19 Mar 2026 10:15:59 GMT)
  • 「We introduce MEMMA, a plug-and-play multi- agent framework that coordinates the memory cycle along its forward and backward paths. On the forward path, a Meta-Thinker separates strategic reasoning from low-level execution, addressing strategic blindness in construction and retrieval.
    On the backward path, in-situ self-evolution converts probe QA failures into direct memory repair before the memory is committed. 」と双方向からメモリを改善していくアプローチ。
  • リポジトリはGitHub – ventr1c/memma · GitHub

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

  • ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments [43.1]
    我々は150のマルチターンシナリオを通じて人間とAIの対立を評価するベンチマークであるConflictBenchを紹介した。 ConflictBenchはテキストベースのシミュレーションエンジンと視覚的に接地された世界モデルを統合し,動的条件下でのエージェントの知覚,計画,行動を可能にする。
    論文  参考訳(メタデータ)   (Mon, 09 Mar 2026 06:59:48 GMT)
  • 「we introduce ConflictBench, a benchmark designed to evaluate human–AI conflict through interactive, multi-turn, and multi- modal protocols that better reflect the complex trade-offs agents may face when their goals conflict with human interests.」というベンチマーク。GPT-5、Qwenのスコアが良くこのあたりの対策もされているのだろうか・・・

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence / Multimodal OCR: Parse Anything from Documents

  • Qianfan-OCR: A Unified End-to-End Model for Document Intelligence [41.7]
    Qianfan-OCRは、文書解析、レイアウト分析、文書理解を単一のアーキテクチャで統一する、エンドツーエンドのビジョン言語モデルである。 直接イメージ・ツー・マークダウン変換を実行し、テーブル抽出、チャート理解、文書QA、キー情報抽出など、さまざまなプロンプト駆動タスクをサポートする。 OmniDocBench v1.5 (93.12) と OlmOCR Bench (79.8) のエンド・ツー・エンドモデルの中では、OCRBench、CCOCR、DocVQA、ChartQAの競争成績を達成し、公開鍵情報抽出ベンチマークで最高スコアを獲得した。
    論文  参考訳(メタデータ)   (Wed, 11 Mar 2026 16:08:22 GMT)
  • 発表が続くOCRモデル。
  • リポジトリはGitHub – baidubce/Qianfan-VL: Qianfan-VL: Domain-Enhanced Universal Vision-Language Models · GitHub
  • Multimodal OCR: Parse Anything from Documents [72.2]
    dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。 テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。 不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
    論文  参考訳(メタデータ)   (Fri, 13 Mar 2026 14:42:21 GMT)
  • こちらはテキスト以外も分析対象とするOCR
  • リポジトリはGitHub – rednote-hilab/dots.mocr: Multimodal OCR: Parse Anything from Documents · GitHub

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding 

  • Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding [96.8]
    本稿では,最上位のMLLMが個別の意味空間をどのようにナビゲートするかを評価するためのベンチマークを紹介する。 モデルは基本的なシンボル認識に失敗することが多いが、複雑な推論タスクに成功している。 この作業は、より厳格で人間指向のインテリジェントなシステムを開発するためのロードマップを提供する。
    論文  参考訳(メタデータ)   (Thu, 19 Mar 2026 04:08:20 GMT)
  • 「despite impressive reasoning capabilities, current models frequently fail at foundational visual symbol grounding, relying instead on linguistic priors, procedural imitation, or memorized patterns. Our findings challenge a prevailing assumption in multimodal intelligence that visual recognition is inherently simpler than reasoning. Instead, we observe a consistent recognition-reasoning inversion phenomenon, where higher-level reasoning performance often masks deficiencies in low-level symbolic perception. This phenomenon underscores a key limitation of existing training paradigms: while models excel at leveraging large-scale continual natural images, they struggle to construct stable, compositional visual representations of abstract, discrete symbols.」という面白い指摘。

PRISM: Demystifying Retention and Interaction in Mid-Training

  • PRISM: Demystifying Retention and Interaction in Mid-Training [20.2]
    PRISMは、大規模言語モデルにおける中級学習設計の選択に関する総合的な実証的研究である。 約27Bの高品位トークンの中間トレーニングでは, 数学では+15から+40点, コードでは+5から+12点, 科学ベンチマークでは+6から+13点, 一般性能は+6から+13点となる。
    論文  参考訳(メタデータ)   (Tue, 17 Mar 2026 19:04:33 GMT)
  • 「State-of-the-art models now incorporate an additional intermediate stage, mid-training, in which higher-quality, domain-focused data mixtures are used to imbue reasoning capabilities before downstream fine-tuning and reinforcement learning (RL) (Team et al , 2025; Olmo et al , 2025).」とのことで、Mid trainingに関する有効性の分析。
  • プロジェクトサイトはPRISM: Demystifying Retention and Interaction in Mid-Training

Decoding the Critique Mechanism in Large Reasoning Models

  • Decoding the Critique Mechanism in Large Reasoning Models [50.8]
    大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。 中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。 チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
    論文  参考訳(メタデータ)   (Tue, 17 Mar 2026 10:03:30 GMT)
  • 「we demonstrate that the critique vector influences test-time scaling: increasing it helps the model better recognize its mistakes and improve its final accuracy, while decreasing it degrades performance.」というのがとても興味深い。
  • リポジトリはGitHub – mail-research/lrm-critique-vectors · GitHub