コンテンツへスキップ
- Interactive Benchmarks [45.7]
予算制約下でのインタラクティブなプロセスにおけるモデルの推論能力を評価する統一評価パラダイムであるInteractive Benchmarksを提案する。 このフレームワークを2つの設定でインスタンス化する: 対話的証明(Interactive Proofs) — モデルは判断者と相互作用し、論理と数学の客観的な真実や答えを推論する。
論文 参考訳(メタデータ) (Thu, 05 Mar 2026 02:18:26 GMT)
- 「By actively collecting information, the agent can update its beliefs and make better decisions under uncertainty. To evaluate a model’s ability to reason while actively acquiring information, we draw inspiration from the concept of Interactive Proofs in computational complexity theory (Goldwasser et al , 2019) and propose a unified evaluation paradigm, which we call Interactive Benchmarks.」という行動しながら答えを見出すタイプのベンチマーク。現実的に重要なタスク。(汎用モデルで)このような動作が可能になってきているのも感慨深いものがある。
- リポジトリはGitHub – interactivebench/InteractiveBench: Official Project Page for Interactive Benchmarks · GitHub
- SumTablets: A Transliteration Dataset of Sumerian Tablets [28.7]
SumTablets は Unicode 表現を 91,606 で組み合わせたデータセットである。 私たちは、Hugging FaceデータセットとしてSumTabletsをリリースし、GitHub経由でオープンソースのデータ準備コードを作成しました。 我々の微調整言語モデルは平均文字レベルFスコア(chrF)97.55を達成する。
論文 参考訳(メタデータ) (Wed, 25 Feb 2026 18:50:42 GMT)
- 「the absence of a comprehensive, accessible dataset pairing transliterations with a digital representation of the tablet’s cuneiform glyphs has prevented the application of modern Natural Language Processing (NLP) methods to the task of Sumerian transliteration. To address this gap, we present SumTablets, a dataset pairing Unicode representations of 91,606 Sumerian cuneiform tablets (totaling 6,970,407 glyphs) with the associated transliterations published by Oracc.」というデータセット。
- リポジトリはGitHub – colesimmons/SumTablets: SumTablets is a dataset designed for training Sumerian transliteration models.、データセットはcolesimmons/SumTablets · Datasets at Hugging Face
- FireRed-OCR Technical Report [30.0]
本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。 高品質な構造化データの不足に対処するため,Geometry + Semantics’s Data Factoryを構築した。 本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
論文 参考訳(メタデータ) (Mon, 02 Mar 2026 13:19:23 GMT)
- OCRの改善の発表が続く。本論文では「This curriculum includes: (1) Multi-task Pre-alignment to ground the model’s understanding of document structure; (2) Specialized SFT for standardizing full- image Markdown output; and (3) Format-Constrained Group Relative Policy Optimization (GRPO), which utilizes reinforcement learning to enforce strict syntactic validity and structural integrity (e g , table closure, formula syntax). 」というアプローチでMLLMを強化。
- リポジトリはGitHub – FireRedTeam/FireRed-OCR · GitHub
- ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments [135.0]
本稿では,空間推論,自律運転,体操を統一する一般基礎脳であるACE-Brain-0を紹介する。 我々の重要な洞察は、空間的知性は様々な物理的具体化の普遍的な足場として機能するということである。 そこで我々は,まず共有空間基盤を確立し,次にドメイン特化専門家を育成し,最後にデータフリーモデルマージにより調和させるScaffold-specize-Reconcile(SSR)パラダイムを提案する。
論文 参考訳(メタデータ) (Tue, 03 Mar 2026 17:53:45 GMT)
- 「we introduce ACE-Brain-0, a generalist foundation brain that unifies spatial reasoning, autonomous driving, and embodied manipulation within a single multimodal large language model (MLLM). Our key insight is that spatial intelligence serves as a universal scaffold across diverse physical embodiments: although vehicles, robots, and UAVs differ drastically in morphology, they share a common need for modeling 3D mental space, making spatial cognition a natural, domain-agnostic foundation for cross- embodiment transfer.」とのこと。何か共通要素で紐づけられるものとしてspatial intelligenceを上げている。
- プロジェクトサイトはACE-Brain Homepage
- A Very Big Video Reasoning Suite [155.7]
ビデオモデルの急速な普及は視覚的品質を捉えており、その推論能力は未解明のままである。 Very Big Video Reasoning(VBVR)データセットは、200のキュレートされた推論タスクにまたがる、前例のない大規模なリソースである。 VBVR-Benchは、ルールベースのヒューマンアライメントスコアラーによるモデルベースの判断を超えて、検証可能な評価フレームワークである。
論文 参考訳(メタデータ) (Tue, 24 Feb 2026 17:59:15 GMT)
- 「we present the VBVR suite, centered on an unprecedentedly large-scale and continually growing dataset for video reasoning, VBVR-Dataset, together with a verifiable, human-aligned evaluation toolkit, VBVR-Bench.」とのこと、とても規模が大きい。ベンチマークとしては「Proprietary models perform better overall, led by Sora 2 (0.546) and Veo 3.1 (0.480), particularly in Abstraction and Transformation categories. Fine-tuning Wan2.2-I2V-A14B on VBVR-Dataset yields VBVR-Wan2.2, which achieves a new state-of-the-art with an overall score of 0.685, representing an 84.6% relative improvement over its base model. 」とfine tuningの効果は大きいよう。
- プロジェクトサイトはA Very Big Video Reasoning Suite
- AI+HW 2035: Shaping the Next Decade [135.5]
人工知能(AI)とハードウェア(HW)は前例のない速度で進歩している。 このビジョンペーパーは、AI+HWの共同設計と共同開発のための10年間のロードマップをレイアウトし、アルゴリズム、アーキテクチャ、システム、持続可能性にまたがる。 主要な課題と機会を特定し、潜在的な障害や落とし穴を効果的に評価し、統合されたソリューションを提案する。
論文 参考訳(メタデータ) (Thu, 05 Mar 2026 14:36:33 GMT)
- ハードウェアを含む現状と少し先の未来に関する論文。「Key Questions and Answers」が適時あって読みやすい。
- 「 Establish dedicated AI+HW co-design and co-development programs that elevate hardware as a first-class driver of the next AI revolution, rather than treating it as a downstream optimization layer.」はまさにその通りではあるが、言うは易く行うは難しという印象。
- Modular Memory is the Key to Continual Learning Agents [100.1]
In-Weight Learning(IWL)の強みと、モジュラーメモリの設計を通じて新たに登場したIn-Context Learning(ICL)の機能を組み合わせることが、大規模に継続的適応するための欠片である、と我々は主張する。 我々は、ICLを高速適応と知識蓄積に活用するモジュール型メモリ中心アーキテクチャの概念的フレームワークと、モデル機能の安定した更新のためのIWLについて概説する。
論文 参考訳(メタデータ) (Mon, 02 Mar 2026 11:40:05 GMT)
- 「Here, we argue that the key to intelligent adaptation and knowledge accumulation lies in combining the strengths of the two learning mechanisms, ICL and IWL, under a modular memory architecture in which a pretrained core model is augmented with distinct memory modules: a working memory for active context and a long-term memory for rapid adaptation and knowledge accumulation. 」とIn Context Learning的なメモリ(作業用と長期メモリを含む)、とIn Weight Learning(低頻度、左記長期メモリのうち必要分を取り込む)の組み合わせが重要という主張で納得感がある。Memoryの現状も整理されている。
- CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.7]
カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。従来の方法に比べ、エージェントはスケーラブルなデータ合成パイプラインと自動検証環境を活用し、安定した訓練を実現した。KernelBenchの性能テストでは、torch.compileに対して最大40%の性能向上を達成。
論文 参考訳(メタデータ) (Fri, 27 Feb 2026 18:58:05 GMT)
- 「We introduced CUDA Agent, a large-scale agentic reinforcement learning system that endows large language models with the ability to generate and optimize CUDA kernels under realistic, execution-driven development workflows. By jointly scaling data synthesis, agent environments, and stability-oriented RL training, CUDA Agent moves LLMs beyond syntactic code generation toward hardware-aware performance optimization, achieving consistent gains over torch.compile and strong proprietary models on KernelBench.」とのこと。ベースモデルはSeed1.6、ここまでやらないと・・・という点、Skillsで結合するような構成も興味深い。
- プロジェクトサイトはCUDA Agent | Large-Scale Agentic RL for CUDA Kernel Generation
- Scaling Laws of Global Weather Models [57.3]
本稿では,モデル性能(検証損失)とモデルサイズ,データセットサイズ,計算予算の3つの主要な要因について検討する。 様々なモデルにおいて、Auroraは最も強力なデータスケーリングの挙動を示す。 我々の計算-最適分析は、固定された計算予算の下で、長いトレーニング期間にリソースを割り当てると、モデルサイズの増加よりもパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (Thu, 26 Feb 2026 12:57:38 GMT)
- 天気に関するScaling Laws、自然言語処理(transfomer)と似ている部分、異なる部分があるようで大変興味深い。
- SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.9]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。 SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。 キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。 自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (Fri, 13 Feb 2026 07:06:06 GMT)
- Skillsに関するベンチマーク。Findingsが「(1) curated Skills provide substantial but variable benefit (+16.2 percentage points average, with high variance across domains and configurations); (2) self-generated Skills provide negligible or negative benefit (–1.3pp average), demonstrating that effective Skills require human- curated domain expertise; (3) less is more—focused Skills with 2–3 modules outperform comprehensive documentation; and (4) Skills can partially substitute for model scale, enabling smaller models to match larger ones on procedural tasks.」が興味深く、(2)もそうだろうと思わなくはないが、今後の工夫でどうにかなるのかが気になるところ。