コンテンツへスキップ
- OmniGAIA: Towards Native Omni-Modal AI Agents [103.8]
我々は、深い推論とマルチターンツールの実行を必要とするタスクにおいて、オムニモーダルエージェントを評価するために設計されたベンチマークを導入する。 我々は,Omni-modal foundation agentであるOmniAtlasを提案する。
論文 参考訳(メタデータ) (Thu, 26 Feb 2026 11:35:04 GMT)
- 「OmniGAIA, a challenging benchmark for native omni-modal agents. OmniGAIA comprises 360 tasks across 9 real-world domains, covering both video-with-audio and image+audio settings, and explicitly requires multi-turn tool use (e g , web search/browsing and code) to produce verifiable open-form answers.」とマルチモーダルなベンチマーク。デモが分かりやすい。
- リポジトリはGitHub – RUC-NLPIR/OmniGAIA: OmniGAIA: Towards Native Omni-Modal AI Agents、リーダーボードはOmniGAIA Leaderboard – a Hugging Face Space by RUC-NLPIR、商用モデル(Gemini)の強さが目立つ
- MEM: Multi-Scale Embodied Memory for Vision Language Action Models [73.4]
本稿では,マルチスケール・エンボダイドメモリ(MEM)について紹介する。 MEMはビデオベースの短水平メモリをビデオエンコーダで圧縮し、テキストベースの長水平メモリと組み合わせている。 MEMは、キッチンを掃除したり、チーズサンドイッチを焼いたりして、最大15分間のタスクをロボットが実行できるようにする。
論文 参考訳(メタデータ) (Wed, 04 Mar 2026 00:03:02 GMT)
- 「MEM combines video-based short-horizon memory, compressed via a video encoder, with text-based long-horizon memory. 」とマルチモーダルなメモリフレームワークの提案。
- プロジェクトサイトはVLAs with Long and Short-Term Memory
- Interactive Benchmarks [45.7]
予算制約下でのインタラクティブなプロセスにおけるモデルの推論能力を評価する統一評価パラダイムであるInteractive Benchmarksを提案する。 このフレームワークを2つの設定でインスタンス化する: 対話的証明(Interactive Proofs) — モデルは判断者と相互作用し、論理と数学の客観的な真実や答えを推論する。
論文 参考訳(メタデータ) (Thu, 05 Mar 2026 02:18:26 GMT)
- 「By actively collecting information, the agent can update its beliefs and make better decisions under uncertainty. To evaluate a model’s ability to reason while actively acquiring information, we draw inspiration from the concept of Interactive Proofs in computational complexity theory (Goldwasser et al , 2019) and propose a unified evaluation paradigm, which we call Interactive Benchmarks.」という行動しながら答えを見出すタイプのベンチマーク。現実的に重要なタスク。(汎用モデルで)このような動作が可能になってきているのも感慨深いものがある。
- リポジトリはGitHub – interactivebench/InteractiveBench: Official Project Page for Interactive Benchmarks · GitHub
- SumTablets: A Transliteration Dataset of Sumerian Tablets [28.7]
SumTablets は Unicode 表現を 91,606 で組み合わせたデータセットである。 私たちは、Hugging FaceデータセットとしてSumTabletsをリリースし、GitHub経由でオープンソースのデータ準備コードを作成しました。 我々の微調整言語モデルは平均文字レベルFスコア(chrF)97.55を達成する。
論文 参考訳(メタデータ) (Wed, 25 Feb 2026 18:50:42 GMT)
- 「the absence of a comprehensive, accessible dataset pairing transliterations with a digital representation of the tablet’s cuneiform glyphs has prevented the application of modern Natural Language Processing (NLP) methods to the task of Sumerian transliteration. To address this gap, we present SumTablets, a dataset pairing Unicode representations of 91,606 Sumerian cuneiform tablets (totaling 6,970,407 glyphs) with the associated transliterations published by Oracc.」というデータセット。
- リポジトリはGitHub – colesimmons/SumTablets: SumTablets is a dataset designed for training Sumerian transliteration models.、データセットはcolesimmons/SumTablets · Datasets at Hugging Face
- FireRed-OCR Technical Report [30.0]
本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。 高品質な構造化データの不足に対処するため,Geometry + Semantics’s Data Factoryを構築した。 本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
論文 参考訳(メタデータ) (Mon, 02 Mar 2026 13:19:23 GMT)
- OCRの改善の発表が続く。本論文では「This curriculum includes: (1) Multi-task Pre-alignment to ground the model’s understanding of document structure; (2) Specialized SFT for standardizing full- image Markdown output; and (3) Format-Constrained Group Relative Policy Optimization (GRPO), which utilizes reinforcement learning to enforce strict syntactic validity and structural integrity (e g , table closure, formula syntax). 」というアプローチでMLLMを強化。
- リポジトリはGitHub – FireRedTeam/FireRed-OCR · GitHub
- ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments [135.0]
本稿では,空間推論,自律運転,体操を統一する一般基礎脳であるACE-Brain-0を紹介する。 我々の重要な洞察は、空間的知性は様々な物理的具体化の普遍的な足場として機能するということである。 そこで我々は,まず共有空間基盤を確立し,次にドメイン特化専門家を育成し,最後にデータフリーモデルマージにより調和させるScaffold-specize-Reconcile(SSR)パラダイムを提案する。
論文 参考訳(メタデータ) (Tue, 03 Mar 2026 17:53:45 GMT)
- 「we introduce ACE-Brain-0, a generalist foundation brain that unifies spatial reasoning, autonomous driving, and embodied manipulation within a single multimodal large language model (MLLM). Our key insight is that spatial intelligence serves as a universal scaffold across diverse physical embodiments: although vehicles, robots, and UAVs differ drastically in morphology, they share a common need for modeling 3D mental space, making spatial cognition a natural, domain-agnostic foundation for cross- embodiment transfer.」とのこと。何か共通要素で紐づけられるものとしてspatial intelligenceを上げている。
- プロジェクトサイトはACE-Brain Homepage
- A Very Big Video Reasoning Suite [155.7]
ビデオモデルの急速な普及は視覚的品質を捉えており、その推論能力は未解明のままである。 Very Big Video Reasoning(VBVR)データセットは、200のキュレートされた推論タスクにまたがる、前例のない大規模なリソースである。 VBVR-Benchは、ルールベースのヒューマンアライメントスコアラーによるモデルベースの判断を超えて、検証可能な評価フレームワークである。
論文 参考訳(メタデータ) (Tue, 24 Feb 2026 17:59:15 GMT)
- 「we present the VBVR suite, centered on an unprecedentedly large-scale and continually growing dataset for video reasoning, VBVR-Dataset, together with a verifiable, human-aligned evaluation toolkit, VBVR-Bench.」とのこと、とても規模が大きい。ベンチマークとしては「Proprietary models perform better overall, led by Sora 2 (0.546) and Veo 3.1 (0.480), particularly in Abstraction and Transformation categories. Fine-tuning Wan2.2-I2V-A14B on VBVR-Dataset yields VBVR-Wan2.2, which achieves a new state-of-the-art with an overall score of 0.685, representing an 84.6% relative improvement over its base model. 」とfine tuningの効果は大きいよう。
- プロジェクトサイトはA Very Big Video Reasoning Suite
- AI+HW 2035: Shaping the Next Decade [135.5]
人工知能(AI)とハードウェア(HW)は前例のない速度で進歩している。 このビジョンペーパーは、AI+HWの共同設計と共同開発のための10年間のロードマップをレイアウトし、アルゴリズム、アーキテクチャ、システム、持続可能性にまたがる。 主要な課題と機会を特定し、潜在的な障害や落とし穴を効果的に評価し、統合されたソリューションを提案する。
論文 参考訳(メタデータ) (Thu, 05 Mar 2026 14:36:33 GMT)
- ハードウェアを含む現状と少し先の未来に関する論文。「Key Questions and Answers」が適時あって読みやすい。
- 「 Establish dedicated AI+HW co-design and co-development programs that elevate hardware as a first-class driver of the next AI revolution, rather than treating it as a downstream optimization layer.」はまさにその通りではあるが、言うは易く行うは難しという印象。
- Modular Memory is the Key to Continual Learning Agents [100.1]
In-Weight Learning(IWL)の強みと、モジュラーメモリの設計を通じて新たに登場したIn-Context Learning(ICL)の機能を組み合わせることが、大規模に継続的適応するための欠片である、と我々は主張する。 我々は、ICLを高速適応と知識蓄積に活用するモジュール型メモリ中心アーキテクチャの概念的フレームワークと、モデル機能の安定した更新のためのIWLについて概説する。
論文 参考訳(メタデータ) (Mon, 02 Mar 2026 11:40:05 GMT)
- 「Here, we argue that the key to intelligent adaptation and knowledge accumulation lies in combining the strengths of the two learning mechanisms, ICL and IWL, under a modular memory architecture in which a pretrained core model is augmented with distinct memory modules: a working memory for active context and a long-term memory for rapid adaptation and knowledge accumulation. 」とIn Context Learning的なメモリ(作業用と長期メモリを含む)、とIn Weight Learning(低頻度、左記長期メモリのうち必要分を取り込む)の組み合わせが重要という主張で納得感がある。Memoryの現状も整理されている。
- CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.7]
カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。従来の方法に比べ、エージェントはスケーラブルなデータ合成パイプラインと自動検証環境を活用し、安定した訓練を実現した。KernelBenchの性能テストでは、torch.compileに対して最大40%の性能向上を達成。
論文 参考訳(メタデータ) (Fri, 27 Feb 2026 18:58:05 GMT)
- 「We introduced CUDA Agent, a large-scale agentic reinforcement learning system that endows large language models with the ability to generate and optimize CUDA kernels under realistic, execution-driven development workflows. By jointly scaling data synthesis, agent environments, and stability-oriented RL training, CUDA Agent moves LLMs beyond syntactic code generation toward hardware-aware performance optimization, achieving consistent gains over torch.compile and strong proprietary models on KernelBench.」とのこと。ベースモデルはSeed1.6、ここまでやらないと・・・という点、Skillsで結合するような構成も興味深い。
- プロジェクトサイトはCUDA Agent | Large-Scale Agentic RL for CUDA Kernel Generation