注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

FireRed-OCR Technical Report 

  • FireRed-OCR Technical Report [30.0]
    本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。 高品質な構造化データの不足に対処するため,Geometry + Semantics’s Data Factoryを構築した。 本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
    論文  参考訳(メタデータ)   (Mon, 02 Mar 2026 13:19:23 GMT)
  • OCRの改善の発表が続く。本論文では「This curriculum includes: (1) Multi-task Pre-alignment to ground the model’s understanding of document structure; (2) Specialized SFT for standardizing full- image Markdown output; and (3) Format-Constrained Group Relative Policy Optimization (GRPO), which utilizes reinforcement learning to enforce strict syntactic validity and structural integrity (e g , table closure, formula syntax). 」というアプローチでMLLMを強化。
  • リポジトリはGitHub – FireRedTeam/FireRed-OCR · GitHub

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

  • ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments [135.0]
    本稿では,空間推論,自律運転,体操を統一する一般基礎脳であるACE-Brain-0を紹介する。 我々の重要な洞察は、空間的知性は様々な物理的具体化の普遍的な足場として機能するということである。 そこで我々は,まず共有空間基盤を確立し,次にドメイン特化専門家を育成し,最後にデータフリーモデルマージにより調和させるScaffold-specize-Reconcile(SSR)パラダイムを提案する。
    論文  参考訳(メタデータ)   (Tue, 03 Mar 2026 17:53:45 GMT)
  • 「we introduce ACE-Brain-0, a generalist foundation brain that unifies spatial reasoning, autonomous driving, and embodied manipulation within a single multimodal large language model (MLLM). Our key insight is that spatial intelligence serves as a universal scaffold across diverse physical embodiments: although vehicles, robots, and UAVs differ drastically in morphology, they share a common need for modeling 3D mental space, making spatial cognition a natural, domain-agnostic foundation for cross- embodiment transfer.」とのこと。何か共通要素で紐づけられるものとしてspatial intelligenceを上げている。
  • プロジェクトサイトはACE-Brain Homepage

A Very Big Video Reasoning Suite

  • A Very Big Video Reasoning Suite [155.7]
    ビデオモデルの急速な普及は視覚的品質を捉えており、その推論能力は未解明のままである。 Very Big Video Reasoning(VBVR)データセットは、200のキュレートされた推論タスクにまたがる、前例のない大規模なリソースである。 VBVR-Benchは、ルールベースのヒューマンアライメントスコアラーによるモデルベースの判断を超えて、検証可能な評価フレームワークである。
    論文  参考訳(メタデータ)   (Tue, 24 Feb 2026 17:59:15 GMT)
  • 「we present the VBVR suite, centered on an unprecedentedly large-scale and continually growing dataset for video reasoning, VBVR-Dataset, together with a verifiable, human-aligned evaluation toolkit, VBVR-Bench.」とのこと、とても規模が大きい。ベンチマークとしては「Proprietary models perform better overall, led by Sora 2 (0.546) and Veo 3.1 (0.480), particularly in Abstraction and Transformation categories. Fine-tuning Wan2.2-I2V-A14B on VBVR-Dataset yields VBVR-Wan2.2, which achieves a new state-of-the-art with an overall score of 0.685, representing an 84.6% relative improvement over its base model. 」とfine tuningの効果は大きいよう。
  • プロジェクトサイトはA Very Big Video Reasoning Suite

AI+HW 2035: Shaping the Next Decade

  • AI+HW 2035: Shaping the Next Decade [135.5]
    人工知能(AI)とハードウェア(HW)は前例のない速度で進歩している。 このビジョンペーパーは、AI+HWの共同設計と共同開発のための10年間のロードマップをレイアウトし、アルゴリズム、アーキテクチャ、システム、持続可能性にまたがる。 主要な課題と機会を特定し、潜在的な障害や落とし穴を効果的に評価し、統合されたソリューションを提案する。
    論文  参考訳(メタデータ)   (Thu, 05 Mar 2026 14:36:33 GMT)
  • ハードウェアを含む現状と少し先の未来に関する論文。「Key Questions and Answers」が適時あって読みやすい。
  • 「 Establish dedicated AI+HW co-design and co-development programs that elevate hardware as a first-class driver of the next AI revolution, rather than treating it as a downstream optimization layer.」はまさにその通りではあるが、言うは易く行うは難しという印象。

Modular Memory is the Key to Continual Learning Agents

  • Modular Memory is the Key to Continual Learning Agents [100.1]
    In-Weight Learning(IWL)の強みと、モジュラーメモリの設計を通じて新たに登場したIn-Context Learning(ICL)の機能を組み合わせることが、大規模に継続的適応するための欠片である、と我々は主張する。 我々は、ICLを高速適応と知識蓄積に活用するモジュール型メモリ中心アーキテクチャの概念的フレームワークと、モデル機能の安定した更新のためのIWLについて概説する。
    論文  参考訳(メタデータ)   (Mon, 02 Mar 2026 11:40:05 GMT)
  • 「Here, we argue that the key to intelligent adaptation and knowledge accumulation lies in combining the strengths of the two learning mechanisms, ICL and IWL, under a modular memory architecture in which a pretrained core model is augmented with distinct memory modules: a working memory for active context and a long-term memory for rapid adaptation and knowledge accumulation. 」とIn Context Learning的なメモリ(作業用と長期メモリを含む)、とIn Weight Learning(低頻度、左記長期メモリのうち必要分を取り込む)の組み合わせが重要という主張で納得感がある。Memoryの現状も整理されている。

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation 

  • CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.7]
    カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。従来の方法に比べ、エージェントはスケーラブルなデータ合成パイプラインと自動検証環境を活用し、安定した訓練を実現した。KernelBenchの性能テストでは、torch.compileに対して最大40%の性能向上を達成。
    論文  参考訳(メタデータ)   (Fri, 27 Feb 2026 18:58:05 GMT)
  • 「We introduced CUDA Agent, a large-scale agentic reinforcement learning system that endows large language models with the ability to generate and optimize CUDA kernels under realistic, execution-driven development workflows. By jointly scaling data synthesis, agent environments, and stability-oriented RL training, CUDA Agent moves LLMs beyond syntactic code generation toward hardware-aware performance optimization, achieving consistent gains over torch.compile and strong proprietary models on KernelBench.」とのこと。ベースモデルはSeed1.6、ここまでやらないと・・・という点、Skillsで結合するような構成も興味深い。
  • プロジェクトサイトはCUDA Agent | Large-Scale Agentic RL for CUDA Kernel Generation

Scaling Laws of Global Weather Models

  • Scaling Laws of Global Weather Models [57.3]
    本稿では,モデル性能(検証損失)とモデルサイズ,データセットサイズ,計算予算の3つの主要な要因について検討する。 様々なモデルにおいて、Auroraは最も強力なデータスケーリングの挙動を示す。 我々の計算-最適分析は、固定された計算予算の下で、長いトレーニング期間にリソースを割り当てると、モデルサイズの増加よりもパフォーマンスが向上することを示している。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 12:57:38 GMT)
  • 天気に関するScaling Laws、自然言語処理(transfomer)と似ている部分、異なる部分があるようで大変興味深い。

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks 

  • SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.9]
    エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。 SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。 キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。 自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
    論文  参考訳(メタデータ)   (Fri, 13 Feb 2026 07:06:06 GMT)
  • Skillsに関するベンチマーク。Findingsが「(1) curated Skills provide substantial but variable benefit (+16.2 percentage points average, with high variance across domains and configurations); (2) self-generated Skills provide negligible or negative benefit (–1.3pp average), demonstrating that effective Skills require human- curated domain expertise; (3) less is more—focused Skills with 2–3 modules outperform comprehensive documentation; and (4) Skills can partially substitute for model scale, enabling smaller models to match larger ones on procedural tasks.」が興味深く、(2)もそうだろうと思わなくはないが、今後の工夫でどうにかなるのかが気になるところ。

What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else? 

  • What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else? [28.1]
    身体化されたAIシステムは、制御された環境から安全クリティカルな現実世界へのデプロイへと急速に移行している。 非身体化AIとは異なり、インボディードインテリジェンスにおける失敗は、不可逆的な物理的結果をもたらす。 我々は,システムレベルのミスマッチから,重大な障害が生じることを論じる。
    論文  参考訳(メタデータ)   (Thu, 19 Feb 2026 13:29:00 GMT)
  • Embodied AIに特徴的な安全性に関するサーベイ。「we identify four core insights that explain why embodied AI is fundamentally harder to secure: (i) semantic correctness does not imply physical safety, as language-level reasoning abstracts away geometry, dynamics, and contact constraints; (ii) identical actions can lead to drastically different outcomes across physical states due to nonlinear dynamics and state uncertainty; (iii) small errors propagate and amplify across tightly coupled perception–decision–action loops; and (iv) safety is not compositional across time or system layers, enabling locally safe decisions to accumulate into globally unsafe behavior. 」

Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems

  • Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems [5.1]
    年齢推定システムは、年齢制限のあるオンラインコンテンツのためのゲートキーパーとしてますます展開されている。 ヒゲを含むシンプルで家庭で利用できる化粧品の変化は、AI年齢推定者が未成年者を成人に分類する原因となるかどうかを考察する。 VLM画像エディターを用いて10歳から21歳までの人物の329枚の顔画像に対する身体的攻撃をシミュレートした。
    論文  参考訳(メタデータ)   (Mon, 23 Feb 2026 06:13:52 GMT)
  • Cosmetic Attacks…、効果はありそうではある。