コンテンツへスキップ
- Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.1]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。 当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。 我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 00:49:40 GMT)
- 「The core idea of Self-play SWE-RL (SSR) is to allow LLM agents to self-improve through an iterative cycle of solving self-generated bugs and creating more complex challenges. As shown in Figure 1, the same LLM policy is divided into two roles: a bug-injection agent and a bug-solving agent.」と対戦型の自己改善フレームワーク。GitHub – facebookresearch/cwm: Research code artifacts for Code World Model (CWM) including inference tools, reproducibility, and documentation.をベースモデルとして効果を確認とのこと。
- LongVie 2: Multimodal Controllable Ultra-Long Video World Model [94.9]
LongVie 2はエンドツーエンドの自動回帰フレームワークで、3段階でトレーニングされている。 LongVie 2は、長距離制御性、時間的コヒーレンス、視覚的忠実さにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 17:59:58 GMT)
- 「LongVie 2 achieves state-of-the-art performance in controllable long video generation and can autoregressively synthesize high-quality videos lasting up to 3–5 minutes, marking a significant step toward video world modeling.」とのこと
- プロジェクトサイトはLongVie 2
- The Role of Risk Modeling in Advanced AI Risk Management [33.4]
急速に進歩する人工知能(AI)システムは、新しい、不確実で、潜在的に破滅的なリスクをもたらす。 これらのリスクを管理するには、厳格なリスクモデリングの基盤となる成熟したリスク管理インフラストラクチャが必要です。 先進的なAIガバナンスは、同様の二重アプローチを採用するべきであり、検証可能な、確実に安全なAIアーキテクチャが緊急に必要である、と私たちは主張する。
論文 参考訳(メタデータ) (Tue, 09 Dec 2025 15:37:33 GMT)
- 「We conceptualize AI risk modeling as the tight integration of (i) scenario building— causal mapping from hazards to harms—and (ii) risk estimation—quantifying the likelihood and severity of each pathway. We review classical techniques such as Fault and Event Tree Analyses, FMEA/FMECA, STPA and Bayesian networks, and show how they can be adapted to advanced AI.」とのこと、他分野の例や分析方法など参考になる。
- The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality [70.5]
FACTS Leaderboardは、実際に正確なテキストを生成する言語モデルの能力を総合的に評価するオンラインのリーダーボードスイートである。 このスイートは、4つの異なるサブリーダーボード上でのモデルのパフォーマンスを集約することで、事実性の総合的な尺度を提供する。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 16:35:14 GMT)
- 「The FACTS Leaderboard introduced here is designed to address this need by providing a holistic evaluation suite. It aggregates performance across four specialized sub-leaderboards, each targeting a distinct dimension of factuality. 」というベンチマーク
- FACTS Multimodal tests a model’s ability to combine visual grounding with world knowledge to answer questions about an image.
- FACTS Parametric measures the model’s ability to use its internal knowledge accurately in factoid question use-cases.
- FACTS Search evaluates the practical and increasingly common use case of generating factual responses by interacting with a search tool.
- FACTS Grounding v2 is an updated version of FACTS Grounding, which tests grounding to a given document, with improved judges.
- プロジェクトサイトはFACTS Benchmark Suite Leaderboard | Kaggle、フロンティアなモデルはやはり強い。Gemini 3 Pro previewのSearchはさすが。最新モデルでの検証結果が知りたいところ。
- FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis [92.2]
時系列分析は、金融、医療、産業、気象学などの分野において重要な役割を果たす。 FusADは多様な時系列タスク用に設計された統合分析フレームワークである。
論文 参考訳(メタデータ) (Tue, 16 Dec 2025 04:34:27 GMT)
- 「we propose FusAD, a unified analysis framework designed for diverse time series tasks. FusAD features an adaptive time-frequency fusion mechanism, integrating both Fourier and Wavelet transforms to efficiently capture global-local and multi-scale dynamic features. With an adaptive denoising mechanism, FusAD automatically senses and filters various types of noise, highlighting crucial sequence variations and enabling robust feature extraction in complex environments. In addition, the framework integrates a general in- formation fusion and decoding structure, combined with masked pre-training, to promote efficient learning and transfer of multi- granularity representations」とのこと。なかなか取り扱いの難しい問題だと思うのだが、実際の性能に興味津々。
- プロジェクトサイトはGitHub – zhangda1018/FusAD: Code for “FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis”.
- Systematic Framework of Application Methods for Large Language Models in Language Sciences [23.8]
大規模言語モデル(LLM)は言語科学を変革している。 彼らの広範な展開は、現在、方法論的な断片化と体系的な健全性の欠如に悩まされている。 本研究では,言語科学におけるLLMの戦略的かつ責任ある適用を導くための2つの包括的方法論フレームワークを提案する。
論文 参考訳(メタデータ) (Wed, 10 Dec 2025 11:43:17 GMT)
- 「LLMs offer powerful capabilities for language sciences by enabling the anal- ysis of large corpora, providing quantitative measurements, and supporting investigations that were previously impractical. This study proposed two methodological frameworks for applying LLMs in the language sciences, organizing three complementary approaches: prompt-based interaction with closed-source models, fine-tuning of open-source models, and embedding- based quantitative analysis.」と整理されたサーベイ。
- Rethinking Expert Trajectory Utilization in LLM Post-training [35.0]
我々は,この景観を基盤として,プラスチック・シーリング・フレームワークを提案する。 逐次SFT-then-RLパイプラインを優れた標準として確立する。 本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (Fri, 12 Dec 2025 11:13:00 GMT)
- Post trainingで一般的に用いられるSupervised Fine-Tuning (SFT) とRe-inforcement Learning (RL)の組み合わせに関し「1) The sequential SFT-then-RL pipeline outperforms alternative paradigms in approaching the post-training perfor- mance ceiling. (2) Within this pipeline, RL should be initiated at SFT saturation, a point reliably predicted by validation loss minimization. (3) SFT data scale primarily determines the performance ceiling, and trajectory difficulty further optimizes the ceiling when data is limited.」と報告。
- リポジトリはGitHub – LINs-lab/RETU: [Preprint] Rethinking Expert Trajectory Utilization in LLM Post-training
- Are We on the Right Way to Assessing LLM-as-a-Judge? [16.3]
人間のアノテーションを必要とせずにLCM審査員の質を評価する新しい評価スイートであるSageを紹介する。 合理的選択理論の公理に触発されたセージは、LLM-as-a-Judgeを測定するための2つの新しいレンズ(局所的な自己整合性と大域的な論理的整合性)を導入した。 Sage に基づいて,現在最先端の LLM は,スコアリングとペアワイズの両方において,審査員として機能する場合に,重大な信頼性上の問題があることを明らかにした。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 23:49:55 GMT)
- LLM-as-a-Judgeを評価するベンチマークの提案、および「Our experiments reveal significant robustness deficiencies in current state-of-the-art models. We attribute these inconsistent judgments to a newly identified phenomenon called situational preference where models fail to maintain a stable internal gauging principle across different contexts. To address this, we demonstrate that implementing self-generated rubrics effectively mitigates situational preference and boosts judgment consistency. We also investigate the impact of fine-tuning and explanatory reasoning on evaluation performance.」との指摘。
- リポジトリはEntroplay.ai
- The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text [101.7]
Worldcanvasは、リッチでユーザ指向のシミュレーションを可能にする、プロンプト可能なワールドイベントのためのフレームワークである。 表現力のある世界イベント生成をサポートすることで、Worldcanvasは、受動的予測器からインタラクティブなユーザ形状のシミュレータまで、世界モデルを前進させる。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 18:59:59 GMT)
- 「World models [3, 12, 15, 22, 38, 46] are unlocking their true potential, evolving from passive simulators into interactive canvases for creation. A landmark step in this evolution is the introduction of “promptable world events,” a concept pioneered by models like Genie 3 [3], which transforms the world model into an interactive canvas where text prompts can trigger significant environmental changes.」という前提のもと、「By enabling users to precisely specify what, when, where, and who through intuitive motion trajectories, natural language and ref images, our approach supports semantic actions, complex interactions, object entry/exit and reference- guided appearance.」が可能なモデルを構築。
- プロジェクトサイトはThe World is Your Canvas
- OnCoCo 1.0: A Public Dataset for Fine-Grained Message Classification in Online Counseling Conversations [35.4]
OnCoCo 1.0は、オンラインカウンセリングにおけるきめ細かいメッセージ分類のための新しいパブリックデータセットである。 これは、精神社会的オンラインカウンセリング会話の自動分析を改善するために設計された、新たな統合されたカテゴリシステムに基づいている。
論文 参考訳(メタデータ) (Wed, 10 Dec 2025 16:18:20 GMT)
- 「Contribution With this publication we introduce OnCoCo 1.0 (Online Counseling Conversations), a new bi-lingual dataset (German and English) for rich content analysis in psychosocial online coun- seling. Our dataset extends current conversational corpora by providing a detailed and ethically cu- rated dataset for bilingual counseling contexts.」というオンラインカウンセリングのデータセット。かなり珍しいように思う。
- リポジトリはGitHub – th-nuernberg/oncoco_v1_dataset: OnCoCo 1.0 Dataset for Classification of Psycho-social Counseling Messages