SynCity: Training-Free Generation of 3D Worlds 

  • SynCity: Training-Free Generation of 3D Worlds [107.7]
    テキスト記述から3次元世界を生成するためのトレーニング不要かつ最適化不要なアプローチであるSynCityを提案する。 3Dと2Dのジェネレータが組み合わさって、拡大するシーンを生成する方法を示す。
    論文  参考訳(メタデータ)   (Thu, 20 Mar 2025 17:59:40 GMT)
  • どこかで聞いたことのあるような論文タイトル。色々とうまく組み合わせている印象の手法だが、作例が面白い。
  • リポジトリはSynCity: Training-Free Generation of 3D Worlds

Analyzing the Usage of Donation Platforms for PyPI Libraries 

  • Analyzing the Usage of Donation Platforms for PyPI Libraries [92.0]
    本研究では,PyPIエコシステムにおける寄付プラットフォームの導入状況について分析した。 GitHub Sponsorsが支配的なプラットフォームであるが、多くのPyPIリストのリンクは時代遅れである。
    論文  参考訳(メタデータ)   (Tue, 11 Mar 2025 10:27:31 GMT)
  • Pythonライブラリへの寄付に関する分析。「From a library perspective, we discovered that donation platform links are mostly missing on PyPI project pages, with a clear tendency to list them on GitHub repositories instead. GitHub Sponsors stands out as the primary donation platform across PyPI and GitHub.」はそうだろうなーという感じ。
  • 「Recent research highlights the strong connection between OSS maintenance activities and financial support.」もあるが、便利に利用しているものについては寄付の文化が広がってほしいところ。

Measuring AI Ability to Complete Long Tasks 

  • Measuring AI Ability to Complete Long Tasks [6.0]
    人間が通常、AIモデルが達成できるタスクを完了するのに要する時間を50%の成功率で測定します。 Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。 AIモデルの時間的地平線の増加は、より信頼性が高く、ミスに適応する能力によって引き起こされているように思われる。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 17:59:31 GMT)
  • 「the time humans typically take to complete tasks that AI models can complete with 50% success rate」を定義とする「50%-task-completion time horizon」というメトリクスの提案と検討。「On these tasks, current frontier AI models such as Claude 3.7 Sonnet have a 50% time horizon of around 50 minutes」、「Furthermore, frontier AI time horizon has been doubling approximately every seven months since 2019, though the trend may have accelerated in 2024.」とのこと。
  • どのくらいの規模のソフトウェアを自動生成できるのか?という意味では参考になる指標だと思う。「Finally, we attempt to extrapolate the trend on our tasks to one-month (167 hours) AI (Section 7.1), finding that if both the trend continues and observed performance trends generalize to real-world tasks, an 80% confidence interval for the release date of AI that can complete 1-month long software tasks spans from late 2028 to early 2031」をどう評価するかは悩ましいが、人が一か月かけて開発するレベルのソフトウェアが自動生成できるようになるかも、というのはそうかもしれないという感覚もある。

A Survey on Trustworthy LLM Agents: Threats and Countermeasures

  • A Survey on Trustworthy LLM Agents: Threats and Countermeasures [67.2]
    大規模言語モデル(LLM)とマルチエージェントシステム(MAS)はLLMエコシステムの機能を大幅に拡張した。 本稿では,エージェントの信頼性に関する総合的研究であるTrustAgentフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 08:42:05 GMT)
  • LLM based Agentを intrinsic (brain, memory, and tool) とextrinsic (user, agent, and environment)な側面から見た信頼性のサーベイ 
  • リポジトリはGitHub – Ymm-cll/TrustAgent

MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

  • MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.5]
    MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。 本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。 5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 06:57:21 GMT)
  • 非常に凝った構成のRAG(AgenticRAG)
  • リポジトリはGitHub – aiming-lab/MDocAgent: MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation 

  • MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.5]
    MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。 我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 15:59:20 GMT)
  • 「MMLU-ProX extends the challenging MMLU-Pro benchmark to encompass 13 typologically diverse languages: English (EN), Chinese (ZH), Japanese (JA), Korean (KO), French (FR), German (DE), Spanish (ES), Portuguese (PT), Arabic (AR), Thai (TH), Hindi (HI), Bengali (BN), and Swahili (SW).」、「By carefully translating the same set of questions across all languages, MMLU-ProX facilitates direct comparison of model performance across linguistic boundaries while controlling for question difficulty.」というベンチマーク。多言語で評価可能なベンチマークを使うと言語間差異がよくわかる。
  • プロジェクトサイトはMMLU-ProX: A Multilingual Benchmark for Advanced LLM Evaluation

EnvBench: A Benchmark for Automated Environment Setup 

  • EnvBench: A Benchmark for Automated Environment Setup [76.0]
    大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。 環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。 このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 17:19:12 GMT)
  • 環境設定に関するベンチマーク。実用上はとても大事で状況によってはコード生成よりうれしいことがあるかもしれない。。
  • エージェントを使ってなおスコアが低い難しいベンチマークのよう。
  • リポジトリはGitHub – JetBrains-Research/EnvBench: [DL4C @ ICLR 2025] A Benchmark for Automated Environment Setup🌱⚙️ EnvBench – a JetBrains-Research Collection

Cosmos World Foundation Model Platform for Physical AI 

  • Cosmos World Foundation Model Platform for Physical AI [136.1]
    私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。 我々のプラットフォームは、ビデオキュレーションパイプライン、事前訓練された世界ファンデーションモデル、事前訓練された世界ファンデーションモデルのポストトレーニング例、ビデオトークン化ツールをカバーしています。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 16:59:07 GMT)
  • 物理世界の理解と推論のためのマルチモーダルモデル、Cosmos-Reason1の提案。「In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e g , next step action) in natural language through long chain-of-thought reasoning processes.」「With Physical AI SFT and RL, Cosmos-Reason1 can learn intuitive physics, such as the arrow of time and object permanence, which existing models struggle with.」とCoTなLRMに似た構成。確かにこの分野に対してReasoning modelは有効そう。
  • リポジトリはGitHub – nvidia-cosmos/cosmos-reason1: Cosmos-Reason1 models understand the physical common sense and generate appropriate embodied decisions in natural language through long chain-of-thought reasoning processes.

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies

  • An Expanded Massive Multilingual Dataset for High-Performance Language Technologies [21.4]
    高品質な多言語単言語コーパスと並列コーパスのコレクションであるHPLT v2を提案する。 データのモノリンガル部分は193言語をカバーする8Tトークンを含み、並列データは51言語をカバーする380万の文ペアを含む。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 11:24:09 GMT)
  • 「The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages.」という大規模データセットの提案。「We release HPLT v2 under the permissive Creative Commons Zero (CC0) license and provide the code to replicate our pipeline.」とライセンスはCC zero
  • プロジェクトサイトはHPLT – High Performance Language Technologies、リポジトリはGitHub – hplt-project/HPLT-textpipes: Step-by-step schematic description of data processing in HPLT

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots