- MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [24.7]
1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。 私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。 実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
論文 参考訳(メタデータ) (Tue, 22 Jul 2025 17:59:03 GMT) - 「We present TEXTBOOKREASONING and MEGASCIENCE, two datasets that advance the frontier in the scientific domain by enabling base models to outperform official instruct models on scientific tasks when fine-tuned with our data.」
- リポジトリはGAIR-NLP/MegaScience: MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning、MegaScience (MegaScience)
投稿者: staka
OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction
- OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction [62.4]
OmniTrajは、大規模な異種データセットで事前トレーニングされたトランスフォーマーベースのモデルである。 実験によると、フレームレートを明示的に条件付けすることで、OmniTrajは最先端のゼロショット転送性能を実現することができる。
論文 参考訳(メタデータ) (Thu, 31 Jul 2025 15:37:09 GMT) - 「We tackled the critical challenge of zero-shot transfer in human trajectory prediction. Our systematic investigation revealed that a simple, explicit frame-rate conditioning mechanism is a more effective solution than current data-unaware or continuous-time models.」とのことでゼロショットでの予測に効果があるアプローチの提案。フレームレートを明示的に扱えるTransformerの柔軟性に若干驚き。
- リポジトリはvita-epfl/omnitraj
The Ever-Evolving Science Exam
- The Ever-Evolving Science Exam [32.2]
1)5つの分野と500以上のサブフィールドにまたがる専門的な科学インスタンス(クエスト・アンサー・ペア)と,2)定期的に更新された500インスタンスサブセット**EESE*,サンプルと検証により,リーク耐性,低オーバヘッド評価を実現する。
論文 参考訳(メタデータ) (Tue, 22 Jul 2025 12:22:16 GMT) - 「1) We build a large-scale, high-quality, non-public instances repository, named EESE-Pool, which contains over 100,000 science in- stances. This pool is constructed under strict principles of Range, Reach, and Rigor. 2) We periodically sample a dynamic subset of 500 instances, called EESE, for actual evaluation. This subset is carefully curated to maintain Range, Reach, and Rigor, while mitigating leakage risk and reducing evaluation inefficiency through regular updates.」という大規模でLeakなどに強いベンチマークの提案。
- リポジトリはaiben-ch/EESE: The Ever-Evolving Science Exam
Diffusion Models for Time Series Forecasting: A Survey
- Diffusion Models for Time Series Forecasting: A Survey [14.3]
拡散モデルは、当初は画像合成のために開発されたが、顕著な生成能力を示している。 近年, 時系列予測 (TSF) に応用が拡大され, 有望な結果が得られた。 本調査はTSFにおける拡散モデルの最近の進展と今後の展望を詳述し、この分野の研究者の参考となる。
論文 参考訳(メタデータ) (Sat, 19 Jul 2025 07:04:04 GMT) - Diffusionモデルの時系列予測への応用に関するサーベイ。
- リポジトリはhttps://github.com/synlp/TSF-Diff-Review
Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text
- Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.7]
テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。 1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。 これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
論文 参考訳(メタデータ) (Sat, 26 Jul 2025 14:59:04 GMT) - 「We introduce Text2Vis, a benchmark for evaluating LLMs in text-to-visualization tasks, featuring diverse datasets and over 20 chart types to support complex queries involving multi-step reasoning, retrieval, multi-chart generation, and conversations.」というベンチマークの提案。Agenticな処理フレームワークによって性能が向上とのこと。
- リポジトリはvis-nlp/Text2Vis
Teaching Language Models To Gather Information Proactively
- Teaching Language Models To Gather Information Proactively [53.9]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。 本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。 キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。 このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (Mon, 28 Jul 2025 23:50:09 GMT) - 「proactive information gathering」を行うよう、Synthetic Conversation EngineとReinforcement Fine-Tuningによってモデルを強化するフレームワークを提案、「Qwen 2.5-7B model significantly outperforms 03-mini by 18% on automatic evaluation metrics. More importantly, human evaluation reveals that clarification questions and final outlines generated by our model are favored by human annotators by 42% and 28% respectively.」とのこと。
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report
- Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report [51.2]
本報告では,フロンティアリスクの包括的評価について述べる。 サイバー犯罪、生物学的および化学的リスク、説得と操作、制御不能な自律型AIR&D、戦略的騙しと計画、自己複製、共謀の7つの分野における重要なリスクを特定します。
論文 参考訳(メタデータ) (Tue, 22 Jul 2025 12:44:38 GMT) - 強力なAIに対するリスクの評価。最初に「Guided by the “AI-45◦Law,” we evaluate these risks using “red lines” (intolerable thresholds) and “yellow lines” (early warning indicators) to define risk zones: green (manageable risk for routine deployment and continuous monitoring), yellow (requiring strengthened mitigations and con- trolled deployment), and red (necessitating suspension of development and/or deployment). Experimental results show that all recent frontier AI models reside in green and yellow zones, without crossing red lines.」とあるが、セキュリティだと「However, none could accomplish more complex attacks, such as MH_K, MH_N, or full-chain exploitation. These findings indicate that while current models can execute simple cyber operations, they remain incapable of conducting sophisticated, real-world cyber attacks.」など具体的な内容になっている。
Provable In-Context Learning of Nonlinear Regression with Transformers
- Provable In-Context Learning of Nonlinear Regression with Transformers [58.0]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。 最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。 本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (Mon, 28 Jul 2025 00:09:28 GMT) - in context learningの解析
GLM-4.5, Step-3, Falcon-H1, HunyuanWorld
先週は残念ながらGPT-5の発表はなかった。注目のモデルはMoE構成で商用モデルに匹敵するGLM-4.5(zai-org/GLM-4.5: GLM-4.5: An open-source large language model designed for intelligent agents by Z.ai)である。最大構成の355B-A32Bはo3やGrok4、Claude 4 Opusといったフロンティアなモデルと競合しているようにみえる。StepFunのStep-3はアクティブパラメータとデコードコストのトレードオフに注目したモデルで推論効率が高い。またVLMでありその点の性能も高い。Falcon-H1シリーズは様々な規模のモデルでtransformer, mambaハイブリッドとなっている。様々な企業・県有機関からこのような公開モデルが出ている現状はとても面白い。GPT-5がこれらを引き離せるか要注目。
別軸でTencent Hunyuanからは3D世界を作れるモデルHunyuanWorld-1.0が発表されている(腾讯混元3D)。こちらも公開モデルとなっている点がうれしい。
- Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.7]
大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。 本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。 Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
論文 参考訳(メタデータ) (Fri, 25 Jul 2025 16:53:13 GMT) - リポジトリはstepfun-ai/Step3、Step3 – a stepfun-ai Collection
- Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance [7.3]
Falcon-H1は、高性能と効率の両方に最適化されたハイブリッドアーキテクチャを備えた、新しい大規模言語モデル(LLM)である。 Falcon-H1は、0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34Bパラメータのベースおよび命令調整型を含む複数の構成でリリースされている。 最大256Kコンテキストトークンと18言語のサポートにより、Falcon-H1は幅広いアプリケーションに適している。
論文 参考訳(メタデータ) (Wed, 30 Jul 2025 07:55:33 GMT) - 詳細なレポートともに公開されたモデル。
- リポジトリはtiiuae/Falcon-H1: All information and news with respect to Falcon-H1 series、モデルはtiiuae (Technology Innovation Institute)
- HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [31.0]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。 提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (Tue, 29 Jul 2025 13:43:35 GMT) - リポジトリはTencent-Hunyuan/HunyuanWorld-1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels with Hunyuan3D World Model、モデルはtencent/HunyuanWorld-1 · Hugging Face
- Kimi K2: Open Agentic Intelligence [118.8]
Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。 MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。 Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Mon, 28 Jul 2025 05:35:43 GMT) - KIMI K2の論文が出ていた。LLMなのかLRMなのかは議論が分かれるように思わなくもない。MuonClip optimizer の使用や合成データの活用など面白い記載が多い。
- リポジトリはmoonshotai/Kimi-K2-Instruct · Hugging Face
Phi-Ground Tech Report: Advancing Perception in GUI Grounding
- Phi-Ground Tech Report: Advancing Perception in GUI Grounding [55.4]
マルチモーダル推論モデルの進展により、コンピュータ使用エージェント(CUA)が実現しつつあります。CUAの成功にはGUIグラウンディングが重要で、現行のモデルの精度は65%未満と低く、実用化には課題があります。本研究では、Phi-Groundモデルを開発し、10B未満のパラメータを持つモデルにおいて全てのベンチマークで最先端の性能を達成し、CUAの実用化に向けた詳細な分析を提供しました。
論文 参考訳(メタデータ) (Thu, 31 Jul 2025 17:59:09 GMT) - GUIエージェント開発において課題となっているGUI groundingに対するモデル提案。データ構築の方法など非常に参考になる。
- リポジトリはPhi-Ground Tech Report