- V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning [43.2]
現代のAIにとっての大きな課題は、世界を理解し、主に観察によって行動することを学ぶことである。 本稿では,インターネット規模のビデオデータと少量のインタラクションデータを組み合わせた自己教師型アプローチについて検討する。 我々は物理世界で理解し、予測し、計画できるモデルを開発する。
論文 参考訳(メタデータ) (Wed, 11 Jun 2025 17:57:09 GMT) - 「we show that joint-embedding predictive architectures learning from videos can be used to build a world model that enables understanding the physical world, predicting future states, and effectively planning in new situations; this is achieved by leveraging internet-scale video and a small amount of interaction data.」とのこと。
- プロジェクトサイトはIntroducing the V-JEPA 2 world model and new benchmarks for physical reasoning、リポジトリはGitHub – facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.
日: 2025年6月24日
AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy
- AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.3]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。 スケーリング戦略は 推理性能に顕著な改善をもたらします 我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 09:27:48 GMT) - LRM開発において重要なSFTとRLの関係を検証した論文。「Our results show that both scaling strategies substantially improve the reasoning abilities of large language models (LLMs).」とのこと。
- 「Interestingly, even strong SFT models with robust coding abilities benefit substantially from math-only RL training. This leads to further gains in coding performance.」のように隣接領域(?)での性能向上は、この分野だと色々なところで見られて興味深い性質だと思っている。
- リポジトリはnvidia/AceReason-Nemotron-1.1-7B · Hugging Face