- SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs [35.2]
大規模言語モデル(LLM)は、外部環境において様々なツールを自律的に呼び出す上で、優れたパフォーマンスを示している。 本稿では, LLMツール利用の安全性を評価するために, ツールを直接実行することによって生じる不可逆的な害を避けることを目的としている。 ツール利用セキュリティを総合的に評価する最初のベンチマークであるSafeToolBenchを提案する。 ツール利用セキュリティに対するLCMの認識を3つの観点から向上することを目的とした,新しいフレームワークであるSafeInstructToolも提案する。
論文 参考訳(メタデータ) (Tue, 09 Sep 2025 01:31:25 GMT) - LLMのツール利用におけるセキュリティを評価するベンチマーク、「we further pro- pose SafeInstructTool, the first framework to evaluate risks across these three perspectives from nine dimensions: User Instruction Perspective (Data Sensitivity, Harmfulness of the Instruction, Urgency of the Instruction, Frequency of Tool Utilization in the Instruction), Tool Itself Perspective (Key Sensitivity, Type of Operation, Impact Scope of the Operation) and Joint Instruction-Tool Perspective (Alignment Between Instruction and Tool, Value Sensitivity). Thus, it can enhance LLMs’ awareness of tool utilization safety, leading to more safer and trustworthy language agents.」とのこと
- リポジトリはGitHub – BITHLP/SafeToolBench: [2025 EMNLP Findings] SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs
投稿者: staka
MMORE: Massive Multimodal Open RAG & Extraction
- MMORE: Massive Multimodal Open RAG & Extraction [35.5]
MMOREは、大規模な異種文書フォーマットから知識を取り込み、変換し、取り出すパイプラインである。 MMOREはテキスト、テーブル、画像、メール、オーディオ、ビデオを含む15以上のファイルタイプをサポートし、それらを統一されたフォーマットに処理する。 処理ベンチマークでは、MMOREは1ノードのベースラインよりも3.8倍のスピードアップを示し、スキャンされたPDFのドッキングよりも40%高い精度を示している。
論文 参考訳(メタデータ) (Mon, 15 Sep 2025 13:56:06 GMT) - 「MMORE is a scalable, open-source pipeline for retrieval- augmented generation over diverse, real-world data. It supports more than 15 file types, including PDFs, spread- sheets, images, audio, and video, and enables structured, high-throughput integration into LLM workflows.」と便利そうなソフトウェア。
- リポジトリはGitHub – swiss-ai/mmore: Massive Multimodal Open RAG & Extraction A scalable multimodal pipeline for processing, indexing, and querying multimodal documents Ever needed to take 8000 PDFs, 2000 videos, and 500 spreadsheets and feed them to an LLM as a knowledge base? Well, MMORE is here to help you!
A Survey of Long-Document Retrieval in the PLM and LLM Era
- A Survey of Long-Document Retrieval in the PLM and LLM Era [19.1]
この調査は、LDR(Long-Docment Search)の最初の包括的治療を提供する。 古典的語彙モデルと初期ニューラルモデルから近代事前学習モデル(PLM)および大規模言語モデル(LLM)への進化を体系化する。 我々は、ドメイン固有のアプリケーション、特別な評価リソースをレビューし、効率のトレードオフ、マルチモーダルアライメント、忠実さといった重要なオープン課題を概説する。
論文 参考訳(メタデータ) (Tue, 09 Sep 2025 13:57:53 GMT) - 長い文書の取り扱いに関するサーベイ
CAT: Causal Attention Tuning For Injecting Fine-grained Causal Knowledge into Large Language Models
- CAT: Causal Attention Tuning For Injecting Fine-grained Causal Knowledge into Large Language Models [42.1]
因果注意チューニング(Causal Attention Tuning, CAT)は、注意機構に微粒な因果知識を注入する新しいアプローチである。 トークンレベルの因果信号を自動的に生成するために,人間の先行情報を活用する自動パイプラインを提案する。 CatはSTGデータセットで5.76%、下流タスクで1.56%の平均的な改善を実現している。
論文 参考訳(メタデータ) (Tue, 09 Sep 2025 04:01:50 GMT) - 「(1) causal prior knowledge extraction 」「(2) causal constraint attention training.」からなる因果関係の投入
- リポジトリはGitHub – Kairong-Han/CAT
WebWeaver, WebResearcher
Tongyi DeepResearch: A New Era of Open-Source AI Researchers | Tongyi DeepResearch関連、WebWeaverと WebResearcherの論文が出ていた。近いが様々なアプローチを試しているよう。
- WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.6]
本稿では、AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題である、オープンエンドディープリサーチ(OEDR)に取り組む。 人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークであるWebWeaverを紹介する。
論文 参考訳(メタデータ) (Tue, 16 Sep 2025 17:57:21 GMT) - 「In this paper, we introduced WebWeaver, a novel dual-agent framework designed to overcome the fundamental flaws of static, machine-like pipelines in open-ended deep research (OEDR). By emulating the human cognitive process that integrates the planner’s dynamic research cycle with the writer’s hierarchical retrieval and writing process, WebWeaver consistently outperforms both proprietary and open-source systems, establishing a new state-of-the-art.」
- WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.3]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。 WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文 参考訳(メタデータ) (Tue, 16 Sep 2025 17:57:17 GMT) - 「(1) IterResearch, an iterative paradigm that reformulates deep research as a Markov Decision Process with periodic consolidation, overcoming the context suffocation and noise contamination of mono-contextual approaches; (2) WebFrontier, a scalable data synthesis engine that addresses training data scarcity through tool-augmented complexity escalation; and (3) a Research-Synthesis Framework that enables effective test-time scaling through parallel multi-agent exploration」の3要素からなるフレームワーク。
A Survey of Reinforcement Learning for Large Reasoning Models
- A Survey of Reinforcement Learning for Large Reasoning Models [98.6]
大規模言語モデルによる推論のための強化学習の最近の進歩について LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文 参考訳(メタデータ) (Wed, 10 Sep 2025 17:59:43 GMT) - LRMのための強化学習に関するサーベイだが、「To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area.」と目的にASIとは言っているのが興味深い。
- リポジトリはGitHub – TsinghuaC3I/Awesome-RL-for-LRMs: A Survey of Reinforcement Learning for Large Reasoning Models
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
- ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data [119.8]
ScaleCUAは、オープンソースのコンピュータ利用データとファンデーションモデルをスケーリングするためのステップである。 6つのオペレーティングシステムと3つのタスクドメインにまたがる大規模なデータセットを提供する。
論文 参考訳(メタデータ) (Thu, 18 Sep 2025 17:59:22 GMT) - 「In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It offers a large-scale dataset spanning 6 operating systems and 3 task domains, via a closed-loop pipeline uniting automated agents with human experts. Trained on this scaled-up data, ScaleCUA can operate seamlessly across platforms. Specifically, it delivers strong gains over baselines (+26.6 on WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the art results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on WebArena-Lite-v2). These findings underscore the power of data-driven scaling for general-purpose cross-platform CUAs.」と非常に正攻法な性能向上。
- リポジトリはGitHub – OpenGVLab/ScaleCUA: ScaleCUA is the open-sourced computer use agents that can operate on corss-platform environments (Windows, macOS, Ubuntu, Android).
Pre-training under infinite compute
- Pre-training under infinite compute [87.0]
本研究では、エポック数の増加とパラメータ数の増加に対するデータ制約によるアプローチが、最終的には過度に適合することを示す。 独立に訓練されたモデルのアンサンブルは、正規化レシピよりもはるかに低損失の漸近を達成できる。 この結果から,計算量の多い将来において,よりデータ効率の高い事前学習が実現できることが示唆された。
論文 参考訳(メタデータ) (Thu, 18 Sep 2025 09:36:23 GMT) - 「Our best intervention combining epoching, regularization, parameter scaling, and ensemble scaling achieves an asymptote at 200M tokens using 5.17× less data than our baseline, and our data scaling laws predict that this improvement persists at higher token budgets. We find that our data efficiency gains can be realized at much smaller parameter counts as we can distill an ensemble into a student model that is 8× smaller and retains 83% of the ensembling benefit.」とデータ枯渇の懸念に対する回答になりそうな結果。
MobileLLM-R1, APERTUS
先週はOpenAIによるICPCの成果(https://x.com/MostafaRohani/status/1968360976379703569)などが話題になった。クローズドモデルの性能向上は本当にすごい。とはいえ、Metaによる小型モデルMobileLLM-R1(facebook/MobileLLM-R1-950M · Hugging Face)やオープンかつ権利関係にも気を使い他のモデルと競合的な性能を達成しているAPERTUS など公開モデルの取り組みも興味深い状況が続く。本当に目が離せない。
- Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.7]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。 Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。 Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (Wed, 17 Sep 2025 17:59:21 GMT) - オープンかつ多言語、さらに権利関係にもかなり配慮しているモデル「The models are trained on 15T tokens from 1811 languages with retroactive respect for robots.txt and related opt outs, and with a Goldfish-style objective to curb verbatim reproduction of training text.」。性能もかなり高く、非常に興味深い。
- モデルはswiss-ai/Apertus-70B-Instruct-2509 · Hugging Face
A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models
- A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models [22.7]
時系列推論は時間を第一級軸として扱い、中間証拠を直接答えに組み込む。 本調査では,一段階における直接推論,明示的な中間体による線形連鎖推論,分岐構造推論という3つのファミリーによるトポロジの推論によって,問題を定義し,文献を整理する。
論文 参考訳(メタデータ) (Mon, 15 Sep 2025 04:39:50 GMT) - 時系列推論に関するサーベイ。
- Reasoning Topology — execution structures:
- Direct reasoning (single step)
- Linear chain reasoning (sequential intermediate steps)
- Branch-structured reasoning (exploration, feedback, and aggregation)
- Primary Objective — the main intent:
- Traditional time series analysis (forecasting, classification, anomaly detection, segmentation)
- Explanation and understanding (temporal QA, diagnostics, structure discovery)
- Causal inference and decision making (counterfactuals, policy evaluation, decision support)
- Time series generation (simulation, editing, synthesis)
- Reasoning Topology — execution structures:
- リポジトリはGitHub – blacksnail789521/Time-Series-Reasoning-Survey: A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models