The Translation Barrier Hypothesis: Multilingual Generation with Large Language Models Suffers from Implicit Translation Failure

  • The Translation Barrier Hypothesis: Multilingual Generation with Large Language Models Suffers from Implicit Translation Failure [25.0]
    生成のための暗黙的なタスク解決–>翻訳パイプラインの存在を実証する。 108言語対にわたる単語翻訳タスクに対して,この仮説を検証した。 全体的な失敗のかなりの部分は、翻訳失敗に起因していることが分かりました。
    論文  参考訳(メタデータ)   (Sat, 28 Jun 2025 02:09:21 GMT)
  • 「We find that a significant portion of overall failures indeed stems from translation failure, or the model’s inability to translate correctly solved intermediate concepts into the target language. This is especially true for low-resource target languages.」という指摘
  • 動作自体はBeyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?  – arXiv最新論文の紹介からもそうなんだろうと思いつつ、中間言語は学習の中心になった言語に影響されているんだろうなと思うとそれでよいのかという気がしなくはない。

FineWeb2: One Pipeline to Scale Them All — Adapting Pre-Training Data Processing to Every Language 

  • FineWeb2: One Pipeline to Scale Them All — Adapting Pre-Training Data Processing to Every Language [48.8]
    我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。 我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。 パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。
    論文  参考訳(メタデータ)   (Thu, 26 Jun 2025 01:01:47 GMT)
  • 大規模、マルチリンガル、高品質なデータセットの提案。重複データへの対応やフィルタリングによって他のデータセットよりも効率的な学習が可能とのこと
  • リポジトリはGitHub – huggingface/fineweb-2、データセットはHuggingFaceFW/fineweb-2 · Datasets at Hugging Face

Embodied AI Agents: Modeling the World 

  • Embodied AI Agents: Modeling the World [165.0]
    本稿では,視覚的,仮想的,物理的形態を具現化したAIエージェントの研究について述べる。 我々は,世界モデルの開発が,具体的AIエージェントの推論と計画の中心であることを提案する。 また,より優れた人間とエージェントのコラボレーションを実現するために,ユーザのメンタルワールドモデルを学ぶことを提案する。
    論文  参考訳(メタデータ)   (Fri, 27 Jun 2025 16:05:34 GMT)
  • 「We propose that the development of world models is central to reasoning and planning of embodied AI agents, allowing these agents to understand and predict their environment, to understand user intentions and social contexts, thereby enhancing their ability to perform complex tasks autonomously. World modeling encompasses the integration of multimodal perception, planning through reasoning for action and control, and memory to create a comprehensive understanding of the physical world.」という整理

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements 

Large Language Models in Argument Mining: A Survey

  • Large Language Models in Argument Mining: A Survey [15.0]
    Argument Mining (AM) はテキストから議論的構造を抽出することに焦点を当てている。 LLM(Large Language Models)の出現は、AMを大きく変化させ、高度な文脈内学習を可能にした。 本研究は, LLM駆動型AMの最近の進歩を体系的に合成する。
    論文  参考訳(メタデータ)   (Thu, 19 Jun 2025 15:12:58 GMT)
  • LLMを活用したArgument Mining のサーベイ

MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent

  • MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent [53.8]
    我々は,セグメント内のテキストを読み,上書き戦略を用いてメモリを更新する新しいエージェントワークフローであるMemAgentを紹介した。 MemAgentは、32Kテキストでトレーニングされた8Kコンテキストから3.5M QAタスクへの外挿が可能で、パフォーマンスが5%低下し、512K RULERテストで95%以上を実現している。
    論文  参考訳(メタデータ)   (Thu, 03 Jul 2025 03:11:50 GMT)
  • 長文を扱うためのAgenticなフレームワークの提案、下記が特徴とのこと(プロジェクトサイトより引用)
    • 1 Novel memory mechanism: The agent reads text in segments and efficiently updates memory through an overwriting strategy. This design enables the model to process arbitrarily long inputs within a fixed context window, fundamentally overcoming the window length limitations of traditional Transformer architectures.
    • 2 O(n) complexity: By decoupling computation from text length, the complexity of processing long texts is transformed from quadratic growth to linear growth.
    • 3 RL-driven extrapolation: We enhance the DAPO algorithm to support multi-turn training over context-independent conversations. Based on this, the trained model exhibits unprecedented extrapolation performance.
  • プロジェクトサイトはMemAgent: Reshaping Long-Context LLM with Multi-Conv RL based Memory Agent

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

  • SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning [27.2]
    SPIRALは、モデルをマルチターン、ゼロサムゲームで学習し、自身のバージョンを継続的に改善するセルフプレイフレームワークである。 SPIRALを用いることで、ゼロサムゲーム上でのセルフプレイは、広く移動する推論能力を生み出す。 分析により, この伝達は, 系統的分解, 期待値計算, ケース・バイ・ケース分析という3つの認知的パターンを通じて起こることが明らかとなった。
    論文  参考訳(メタデータ)   (Mon, 30 Jun 2025 17:58:13 GMT)
  • 人への依存を少なくするため「We introduce SPIRAL, a self-play framework where models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.」というフレームワークを提案、効果を確認とのこと。「Key Findings. Training on zero-sum games produces reasoning capabilities that transfer broadly.」としている。「Our empirical results show that training on Kuhn Poker alone improves mathematical reasoning by 8.7% average and Minerva Math by 18.1%, surpassing models trained on 25,000 expert demonstrations」とSFTを上回っているのは若干驚き。
  • リポジトリはGitHub – spiral-rl/spiral: SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities

Establishing Best Practices for Building Rigorous Agentic Benchmarks 

  • Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.7]
    多くのエージェントベンチマークではタスク設定や報酬設計が問題となっている。 このような問題は、相対的な用語で、過小評価または過大評価エージェントのパフォーマンスを最大100%向上させる可能性がある。 我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
    論文  参考訳(メタデータ)   (Thu, 03 Jul 2025 17:35:31 GMT)
  • 構築が難しいエージェント系ベンチマークの注意点をまとめた論文。
  • 「the issues found in τ-bench-Airline, some other example issues we found are: (1) an agent can score 100% on SWE-Lancer without resolving any tasks;」のような問題は相応にある気がするし、「Based on ABC, we assessed ten widely used agentic benchmarks and identified significant evaluation issues that cases up to 100% errors (in relative terms) when estimating agents’ performance.」も驚愕という感じではない。
  • リポジトリはGitHub – uiuc-kang-lab/agentic-benchmarks

MultiGen: Using Multimodal Generation in Simulation to Learn Multimodal Policies in Real 

  • MultiGen: Using Multimodal Generation in Simulation to Learn Multimodal Policies in Real [128.8]
    MultiGenは、大規模な生成モデルを従来の物理シミュレータに統合するフレームワークである。 容器や液体を注ぐ現実世界への効果的なゼロショット転送を実証する。
    論文  参考訳(メタデータ)   (Thu, 03 Jul 2025 17:59:58 GMT)
  • 「In this work, we introduced MULTIGEN, a novel framework for integrating generative multimodal simulation into robot learning. By augmenting physics-based simulators with large-scale generative models, we demonstrated that sim-to-real policy learning can leverage rich sensory feedback beyond vision and proprioception.」というフレームワークの提案
  • 音声合成データを併用するのが興味深いところ。