コンテンツへスキップ
- Video models are zero-shot learners and reasoners [33.7]
Veo 3は、明示的にトレーニングされていないさまざまなタスクを解決できます。 Veoの創発的なゼロショット機能は、ビデオモデルが統一された一般的なビジョン基盤モデルへの道のりにあることを示している。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 17:17:27 GMT)
- 「We demonstrate that Veo 3 can solve a broad variety of tasks it wasn’t explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. 」、「Veo 3 shows emergent zero-shot perceptual abilities well beyond the training task. Just like LLMs replaced task-specific NLP models, video models will likely replace most bespoke models in computer vision—once they become sufficiently cheap and reliable.」という指摘。とても未来を感じると同時に直観的のは理解しがたい面もある。
- リポジトリはVideo models are zero-shot learners and reasoners
- State Space Models over Directed Graphs [38.8]
我々は、k-hop egoグラフを介して有向グラフを逐次化する革新的なアプローチを提案する。 これは、有向グラフ学習の分野への状態空間モデルの最初の体系的拡張である。 また,新しい有向グラフニューラルネットワークアーキテクチャであるDirGraphSSMを開発した。
論文 参考訳(メタデータ) (Wed, 17 Sep 2025 06:39:18 GMT)
- 状態空間モデルのグラフ構造への応用、「In this paper, we first propose DirGraphSSM, a novel graph state space model designed for large-scale sparse di- rected graph learning. Through two innovative components, namely DirEgo2Token and Digraph SSM Scan.」
- Causal Time Series Generation via Diffusion Models [97.0]
新しいTSGタスクファミリーとして因果時系列生成を導入し,Pearlの因果はしご内で定式化した。 これらのタスクをインスタンス化するために、統合拡散ベースのフレームワークであるCaTSGを開発した。 合成データセットと実世界のデータセットの両方の実験は、CaTSGが優れた忠実性を達成することを示している。
論文 参考訳(メタデータ) (Thu, 25 Sep 2025 07:34:46 GMT)
- 「Causal Expansion of Conditional TSG Paradigm. We formalize causal time series generation as an extension of conditional TSG along Pearl’s ladder, introducing two tasks beyond association, i.e., interventional (Int-TSG) and counterfactual (CF-TSG), to open up richer generative capabilities aligned with real-world decision-making needs.」と因果性に基づいた時系列データの生成手法の提案
- InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering [17.3]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の重要な限界に対処する,有望なアプローチとして登場した。 本稿では,検索した文書のコントリビューションを定量化し,回答生成の精度を高めるために,文書情報ゲイン(Document Information Gain, DIG)を提案する。 本稿では,DIGスコアを利用した特殊リランカの学習フレームワークInfoGain-RAGを紹介する。
論文 参考訳(メタデータ) (Tue, 16 Sep 2025 07:28:07 GMT)
- 「We introduce a novel metric called Document Information Gain (DIG), to quantify each retrieved document’s impact on the LLM’s generation confidence.」というメトリックの提案。rerankerとしての有効性を確認。
- Text2Mem: A Unified Memory Operation Language for Memory Operating System [33.0]
モデルエージェントのための統一メモリ操作言語であるText2Memを紹介する。 Text2Memは、自然な正確性を保証するための標準化されたパスを提供する。
論文 参考訳(メタデータ) (Sun, 14 Sep 2025 07:30:09 GMT)
- 「We propose Text2Mem, the first unified memory operation language for LLM-based agents. It defines a compact but expressive set of twelve operations, spanning encoding, storage, and retrieval, with clear semantic boundaries and support for higher-order controls.」とAgentic処理を前提としたメモリフレームワーク。
- リポジトリはGitHub – MemTensor/text2mem
- Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning [23.2]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、構造化されたシンボリックプランニングを実行する能力はまだ限られている。 論理的連鎖推論によりLLMのシンボリックプランニング能力を高めるために設計された新しい命令チューニングフレームワークPDDL-Instructを提案する。
論文 参考訳(メタデータ) (Sun, 14 Sep 2025 02:42:34 GMT)
- 「We have presented PDDL-INSTRUCT, a novel framework that significantly enhances the symbolic planning capabilities of Large Language Models through logical chain-of-thought instruction tuning. By decomposing the planning process into verifiable logical reasoning chains and providing explicit verification feedback, our approach enables LLMs to generate valid plans with unprecedented reliability across diverse planning domains.」と工夫した形の計画作成用PostTraining
- SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs [35.2]
大規模言語モデル(LLM)は、外部環境において様々なツールを自律的に呼び出す上で、優れたパフォーマンスを示している。 本稿では, LLMツール利用の安全性を評価するために, ツールを直接実行することによって生じる不可逆的な害を避けることを目的としている。 ツール利用セキュリティを総合的に評価する最初のベンチマークであるSafeToolBenchを提案する。 ツール利用セキュリティに対するLCMの認識を3つの観点から向上することを目的とした,新しいフレームワークであるSafeInstructToolも提案する。
論文 参考訳(メタデータ) (Tue, 09 Sep 2025 01:31:25 GMT)
- LLMのツール利用におけるセキュリティを評価するベンチマーク、「we further pro- pose SafeInstructTool, the first framework to evaluate risks across these three perspectives from nine dimensions: User Instruction Perspective (Data Sensitivity, Harmfulness of the Instruction, Urgency of the Instruction, Frequency of Tool Utilization in the Instruction), Tool Itself Perspective (Key Sensitivity, Type of Operation, Impact Scope of the Operation) and Joint Instruction-Tool Perspective (Alignment Between Instruction and Tool, Value Sensitivity). Thus, it can enhance LLMs’ awareness of tool utilization safety, leading to more safer and trustworthy language agents.」とのこと
- リポジトリはGitHub – BITHLP/SafeToolBench: [2025 EMNLP Findings] SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs
- MMORE: Massive Multimodal Open RAG & Extraction [35.5]
MMOREは、大規模な異種文書フォーマットから知識を取り込み、変換し、取り出すパイプラインである。 MMOREはテキスト、テーブル、画像、メール、オーディオ、ビデオを含む15以上のファイルタイプをサポートし、それらを統一されたフォーマットに処理する。 処理ベンチマークでは、MMOREは1ノードのベースラインよりも3.8倍のスピードアップを示し、スキャンされたPDFのドッキングよりも40%高い精度を示している。
論文 参考訳(メタデータ) (Mon, 15 Sep 2025 13:56:06 GMT)
- 「MMORE is a scalable, open-source pipeline for retrieval- augmented generation over diverse, real-world data. It supports more than 15 file types, including PDFs, spread- sheets, images, audio, and video, and enables structured, high-throughput integration into LLM workflows.」と便利そうなソフトウェア。
- リポジトリはGitHub – swiss-ai/mmore: Massive Multimodal Open RAG & Extraction A scalable multimodal pipeline for processing, indexing, and querying multimodal documents Ever needed to take 8000 PDFs, 2000 videos, and 500 spreadsheets and feed them to an LLM as a knowledge base? Well, MMORE is here to help you!
- A Survey of Long-Document Retrieval in the PLM and LLM Era [19.1]
この調査は、LDR(Long-Docment Search)の最初の包括的治療を提供する。 古典的語彙モデルと初期ニューラルモデルから近代事前学習モデル(PLM)および大規模言語モデル(LLM)への進化を体系化する。 我々は、ドメイン固有のアプリケーション、特別な評価リソースをレビューし、効率のトレードオフ、マルチモーダルアライメント、忠実さといった重要なオープン課題を概説する。
論文 参考訳(メタデータ) (Tue, 09 Sep 2025 13:57:53 GMT)
- 長い文書の取り扱いに関するサーベイ