- EnvBench: A Benchmark for Automated Environment Setup [76.0]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。 環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。 このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 17:19:12 GMT) - 環境設定に関するベンチマーク。実用上はとても大事で状況によってはコード生成よりうれしいことがあるかもしれない。。
- エージェントを使ってなおスコアが低い難しいベンチマークのよう。
- リポジトリはGitHub – JetBrains-Research/EnvBench: [DL4C @ ICLR 2025] A Benchmark for Automated Environment Setup、🌱⚙️ EnvBench – a JetBrains-Research Collection
Cosmos World Foundation Model Platform for Physical AI
- Cosmos World Foundation Model Platform for Physical AI [136.1]
私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。 我々のプラットフォームは、ビデオキュレーションパイプライン、事前訓練された世界ファンデーションモデル、事前訓練された世界ファンデーションモデルのポストトレーニング例、ビデオトークン化ツールをカバーしています。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 16:59:07 GMT) - 物理世界の理解と推論のためのマルチモーダルモデル、Cosmos-Reason1の提案。「In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e g , next step action) in natural language through long chain-of-thought reasoning processes.」「With Physical AI SFT and RL, Cosmos-Reason1 can learn intuitive physics, such as the arrow of time and object permanence, which existing models struggle with.」とCoTなLRMに似た構成。確かにこの分野に対してReasoning modelは有効そう。
- リポジトリはGitHub – nvidia-cosmos/cosmos-reason1: Cosmos-Reason1 models understand the physical common sense and generate appropriate embodied decisions in natural language through long chain-of-thought reasoning processes.
- Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control [98.2]
複数の空間制御入力に基づいて世界シミュレーションを生成する条件付き世界生成モデルであるCosmos-Transferを導入する。 提案したモデルを解析し,ロボット2Realや自律走行車データ豊かさを含む物理AIへの応用を実証するために評価を行う。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 17:57:54 GMT) - こちらも注目の「diffusion-based conditional world model for multimodal controllable world generation」
- リポジトリはGitHub – nvidia-cosmos/cosmos-transfer1: Cosmos-Transfer1 is a world-to-world transfer model designed to bridge the perceptual divide between simulated and real-world environments.
An Expanded Massive Multilingual Dataset for High-Performance Language Technologies
- An Expanded Massive Multilingual Dataset for High-Performance Language Technologies [21.4]
高品質な多言語単言語コーパスと並列コーパスのコレクションであるHPLT v2を提案する。 データのモノリンガル部分は193言語をカバーする8Tトークンを含み、並列データは51言語をカバーする380万の文ペアを含む。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 11:24:09 GMT) - 「The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages.」という大規模データセットの提案。「We release HPLT v2 under the permissive Creative Commons Zero (CC0) license and provide the code to replicate our pipeline.」とライセンスはCC zero
- プロジェクトサイトはHPLT – High Performance Language Technologies、リポジトリはGitHub – hplt-project/HPLT-textpipes: Step-by-step schematic description of data processing in HPLT
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
- GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [134.0]
汎用ロボットには多目的体と知的な心が必要だ。 近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。 我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 21:06:21 GMT) - NVIDIAによるヒューマノイドロボットをターゲット(「GR00T N1, an open foundation model for generalist humanoid robots」)としたVison-Language-Actionモデルの提案。「We design a compositional model that integrates Vision-Language Model (VLM)-based reasoning module (System 2) and Diffusion Transformer (DiT)-based action module (System 1) in a unified learning framework;」という構成。
- リポジトリはGitHub – NVIDIA/Isaac-GR00T: NVIDIA Isaac GR00T N1 is the world’s first open foundation model for generalized humanoid robot reasoning and skills.、nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim · Datasets at Hugging Face
Mistral Small 3.1, Hunyuan-T1
週刊LLM、LRMという感じだが、先週も話題は多かった。Mistral Small 3.1 | Mistral AIは公開モデルでGemma 3などと競合する性能を主張。NVIDIAのllama-3.3-nemotron-super-49b-v1 Model by NVIDIA | NVIDIA NIMは高効率化の件で興味深い結果を出していた。
Tencentからは事前アナウンスの通りMamba hybridなLRM、Hunyuan-T1が発表された(腾讯混元、Hunyuan T1 – a Hugging Face Space by tencent、llm.hunyuan.T1)。Deepseek R1やo1と比べても十分な性能に見える。
AntropicからWeb検索との連動(Claude can now search the web \ Anthropic)、OpenAIからは新たな音声関連モデルが発表される(Introducing next-generation audio models in the API | OpenAI, OpenAI.fm)など、ビジネス上はLLM・LRMの提供だけでなく周辺領域を埋めていくことが重要になりそう。
Empowering LLMs in Decision Games through Algorithmic Data Synthesis
- Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.1]
意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。 データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。 我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 07:30:29 GMT) - 一般的に数学やコード生成を対象にLRM化が行われているがこの論文では「Through a suite of our designed techniques in data collection and training, we have developed MasterMind agents, demonstrating commendable performance in both Doudizhu and Go.」とゲームが対象。「Empirical experiments also serve to substantiate the potential of this approach in improving general reasoning capabilities of LLMs.」というのがとても興味深い。人間でいうところの「脳によい〇〇」的なタスクがあるのだろうか。(もっとも性能が落ちるタスクがあることも指摘されているが・・・)
- データセットが公開されている。OpenDILabCommunity/MasterMind · Datasets at Hugging Face
Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
- Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models [11.3]
ロングチェーン・オブ・ソート(Long CoT)特性は推論能力を高め、複雑な問題の解決を可能にする。 まず、Long CoTとShort CoTを区別し、現在の推論パラダイムを分類する新しい分類法を導入する。 次に,Long CoTの出現やオーバー思考,テストタイムスケーリングなど,これらの特徴について考察する。
論文 参考訳(メタデータ) (Wed, 12 Mar 2025 17:35:03 GMT) - LRMでキーとなっているLong Chain of thoughtのサーベイ。「We first distinguish Long CoT from Short CoT and introduce a novel taxonomy to categorize current reasoning paradigms.」と(通常の)Short CoTと Long CoTを分けている。
- リポジトリはTowards Reasoning Era: A Survey of Long Chain-of-Thought
Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models
- Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models [39.7]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)における幻覚を緩和する。 パラメトリック知識と検索コンテキストの対立は、RAGに課題をもたらす。 パラメトリックおよび文脈知識へのRAGの依存度を制御するためのプラグイン・アンド・プレイ方式である*CK-PLUG*を提案する。
論文 参考訳(メタデータ) (Thu, 20 Mar 2025 06:26:28 GMT) - LLM内部の知識(arametric knowledge )とRAGのRetirerverなどから与えられる知識(retrieved context)のバランスをとる手法、CK-PLUG (Controllable Knowledge Plug-in)の提案。
- リポジトリはGitHub – byronBBL/CK-PLUG: Official repository of paper “Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models”
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
- Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.4]
私たちはまず、長いCOT能力を欠いたモデルから始まる、長いCOTモデルをスクラッチからトレーニングすることに重点を置いています。 Qwen2.5-32B-Instructから2段階のSFTとセミオン・ポリティクスDPOからなるカリキュラムトレーニングレシピを用いて、我々のモデルであるLight-R1-32Bをトレーニングする。 AIME24と25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは32BモデルとDeepSeek-R1-Distill-Llama-70Bを抜いた。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 15:29:22 GMT) - 2ステージのSFT+DPO Optimization(+ model merge)で構築したモデル。「High-Quality Data is All You Need」の通りデータセット側のパイプラインも凝っている。他の研究成果でも近いことが指摘されているが「Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains.」は興味深い。
- リポジトリはGitHub – Qihoo360/Light-R1
Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions
- Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions [39.2]
検索・レコメンデーション(S&R)を伴う複雑なシステムにおけるユーザエクスペリエンス向上の課題は、学術と産業の両方から大きな注目を集めている。 本稿では,新しいマルチモーダル情報検索データセット,すなわちQilinを提案する。 データセットはXiaohongshuから収集されている。Xiaohongshuは3億人の月間アクティブユーザーがいて、平均的な検索浸透率は70%を超えている。
論文 参考訳(メタデータ) (Sat, 01 Mar 2025 14:15:00 GMT) - マルチモーダルなsearch and recommendationを対象としたデータセット
- リポジトリはGitHub – RED-Search/Qilin: Resources and code for the Qilin dataset.