OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM 

  • OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [128.4]
    我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。 モデルアーキテクチャでは、(i)OmniAlignNetで視覚とオーディオの埋め込みのアライメントを強化する方法、(ii)視覚と音声信号の時間的アライメントをキャプチャするための時間的エンベディンググループ、(iii)オムニモーダル埋め込みにおける絶対時間的情報をエンコードするための制約付きロータリー時間エンベディングという3つの重要なイノベーションを提示する。
    論文  参考訳(メタデータ)   (Fri, 17 Oct 2025 17:59:59 GMT)
  • 「we introduce a new framework to harmonize vision and audio embeddings in a unified omni-modal embedding space, featuring three new techniques: (i) OmniAlignNet that learns to construct a modality-shared space to align vision and audio embeddings from the same video; (ii) Temporal Embedding Grouping that divides the time dimension into multiple chunks and reorganizes the vision and audio embeddings according to their timestamps to align with the corresponding chunks; (iii) Constrained Rotary Time Embedding to directly insert periodic temporal information into vision-audio embeddings.」とマルチモーダルなLLMの提案
  • プロジェクトサイトはOmniVinci: Joint Visual-Audio Understanding

When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents

  • When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.6]
    Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。 AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。 GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる評価する。
    論文  参考訳(メタデータ)   (Mon, 13 Oct 2025 17:54:09 GMT)
  • トレーニングエージェント評価のための環境
  • プロジェクトサイトはFinAI

ShapeX: Shapelet-Driven Post Hoc Explanations for Time Series Classification Models 

  • ShapeX: Shapelet-Driven Post Hoc Explanations for Time Series Classification Models [111.3]
    時系列を意味のあるシェープレット駆動セグメントに分割する革新的なフレームワークであるShapeXを紹介する。 ShapeXの中核にはShapelet Describe-and-Detectフレームワークがあり、分類に不可欠なさまざまなシェイプレットを効果的に学習する。
    論文  参考訳(メタデータ)   (Thu, 23 Oct 2025 00:01:40 GMT)
  • 時系列分類に関する説明手法、「we introduce SHAPEX, a novel approach that segments the time series into meaningful subsequences and computes Shapley value [13] as saliency scores. Instead of distributing importance across individual timesteps, SHAPEX aggregates timesteps into cohesive, shapelet-driven segments that serve as “players” in the Shapley value computation. By measuring each segment’s marginal contribution to the black-box model’s prediction, this method clearly identifies which subsequences significantly influence classification outcomes.」
  • リポジトリはGitHub – BosonHwang/ShapeX: Shapelet-Driven Post Hoc Explanations for Time Series Classification Models

Outraged AI: Large language models prioritise emotion over cost in fairness enforcement 

  • Outraged AI: Large language models prioritise emotion over cost in fairness enforcement [13.5]
    我々は,大言語モデル (LLM) が感情を用いて罰を導いていることを示す。 不公平はより強い否定的な感情をもたらし、より多くの罰を導いた。 将来のモデルでは、人間のような感情的知性を達成するために、感情を文脈に敏感な推論と統合すべきである。
    論文  参考訳(メタデータ)   (Fri, 17 Oct 2025 08:41:36 GMT)
  • third-party punishment (TPP) gameを用いたLLMの分析。「This emotion–behaviour coupling was robust and even stronger than humans across reasoning models (o3-mini, DeepSeek-R1) and an advanced foundation model (DeepSeek-V3), with the older GPT-3.5 baseline showing a weaker and less consistent effect. Analyses of the model's rationales further corroborated that elicited emotions were invoked before punitive choices (e g , references to anger in DeepSeek-R1), consistent with emotion-guided decision processes.」、「reasoning LLMs reported stronger affect to unfairness, and prioritised emotion over fairness and cost, whereas humans weighted fairness and cost more heavily75. These dissociations indicate that current LLMs have not fully internalised the human-like cost–benefit calculus that tempers norm enforcement.」など面白い結果が多い。LLM/LRMを高度な分野に使っていくにあたっては人間との差異があることを大前提として注意深い評価が必要なんだろうと思う。
  • Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games, How large language models judge and influence human cooperation – arXiv最新論文の紹介」でも思ったがこの手の研究はとても興味深い。

Fundamentals of Building Autonomous LLM Agents 

  • Fundamentals of Building Autonomous LLM Agents [64.4]
    本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。 この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 10:32:39 GMT)
  • 「This paper is based on a seminar technical report from the course Trends in Autonomous Agents: Advances in Architecture and Practice offered at TUM.」とエージェント構築における教科書的な内容。

World-in-World: World Models in a Closed-Loop World

  • World-in-World: World Models in a Closed-Loop World [123.9]
    我々は,実エージェントと環境の相互作用を反映したクローズドループの世界において,世界モデルをベンチマークする最初のオープンプラットフォームであるWorld-in-Worldを紹介した。 多様なWMを厳格に評価し、タスク成功を主要な指標として優先順位付けし、視覚的品質に重点を置く4つのクローズドループ環境をキュレートする。 1)視覚的品質だけではタスクの成功は保証されないが、制御可能性の方が重要であること、2) 行動観測データによる後トレーニングのスケーリングは、事前訓練されたビデオジェネレータをアップグレードするよりも効果的であること、3) 推論時計算の割り当てにより、WMsは大幅にクローズドな改善が可能であること、の3つのサプライズを明らかにした。
    論文  参考訳(メタデータ)   (Mon, 20 Oct 2025 22:09:15 GMT)
  • World model としてのViusual Generationモデルに対してのベンチマーク。VisualなクオリティとWorld modelとしてのクオリティにはギャップがあるとの指摘。
    • We introduce World-in-World, the first comprehensive closed-loop benchmark that evaluates world models through the lens of embodied interaction, moving beyond the common focus on generation quality. • We propose a unified closed-loop planning strategy with a unified action API, allowing diverse world models to be seamlessly integrated and evaluated within a single framework across four embodied tasks.
    • We introduce World-in-World, the first comprehensive closed-loop benchmark that evaluates world models through the lens of embodied interaction, moving beyond the common focus on generation quality.
    • We propose a unified closed-loop planning strategy with a unified action API, allowing diverse world models to be seamlessly integrated and evaluated within a single framework across four embodied tasks.
    • We discover that high visual quality does not necessarily guarantee task success, and demon- strate how the performance of pretrained video generators can be substantially improved through training-time data scaling and inference-time scaling.
  • プロジェクトサイトはWorld-in-World: World Models in a Closed-Loop World

LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition

  • LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.8]
    本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。 静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 02:19:21 GMT)
  • 「Unlike static evaluations, LM Fight Arena provides a fully automated, reproducible, and objective assessment of an LMM’s strategic reasoning capabilities in a dynamic setting. This work introduces a challenging and engaging benchmark that bridges the gap between AI evaluation and interactive entertainment.」とのことだが、なぜにMortal Kombat…
  • Claude 3.5 Sonnetがとても強いらしい。

LightMem: Lightweight and Efficient Memory-Augmented Generation

  • LightMem: Lightweight and Efficient Memory-Augmented Generation [72.2]
    我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。 人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。 GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
    論文  参考訳(メタデータ)   (Tue, 21 Oct 2025 17:58:17 GMT)
  • 軽量かつ効率的なメモリーフレームワーク。「Inspired by the Atkinson–Shiffrin model of human memory, LightMem organizes memory into three complementary stages. First, cognition- inspired sensory memory rapidly filters irrelevant information through lightweight compression and groups information according to their topics. Next, topic-aware short-term memory consolidates these topic-based groups, organizing and summarizing content for more structured access. Finally, long-term memory with sleep- time update employs an offline procedure that decouples consolidation from online inference.」と3モジュール構成
  • リポジトリはGitHub – zjunlp/LightMem: LightMem: Lightweight and Efficient Memory-Augmented Generation

ChatGPT Atlas, Ring-1T, DeepSeek OCR, olmOCR 2

先週はChatGPT Atlas(ChatGPT Atlas)の話題が多かった。GUI Agent(より正確にはブラウザエージェント)のように人が操作しているようにUIを使うエージェントには期待大。

Ring-1TはAnt groupによるLRM、1TパラメータのMoE構成で性能も高い。

また、DeepSeek OCRもバズっていた。OCR性能というよりもコンテキストとして画像データを使う有効性が興味深い。OCRとしてはOlmoOCRのv2も出ていてOSSの動きも盛ん。

  • DeepSeek-OCR: Contexts Optical Compression [15.6]
    我々は,DeepSeek-OCRを,光学的2次元マッピングによる長期コンテキストの圧縮の実現可能性に関する最初の調査として紹介する。 DeepSeek-OCRはDeepEncoderとDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。 実験により、テキストトークンの数がビジョントークンの10倍以内であれば、モデルがデコード(OCR)精度を97%達成できることが示された。
    論文  参考訳(メタデータ)   (Tue, 21 Oct 2025 02:41:44 GMT)
  • ドキュメントの画像をコンテキストとした扱う構成のLLM、「In this technical report, we propose DeepSeek-OCR and preliminarily validate the feasibility of contexts optical compression through this model, demonstrating that the model can effectively decode text tokens exceeding 10 times the quantity from a small number of vision tokens. We believe this finding will facilitate the development of VLMs and LLMs in the future.」と効率的なよう。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-OCR: Contexts Optical Compression
  • olmOCR 2: Unit Test Rewards for Document OCR [29.5]
    olmOCR 2は、PDFのようなデジタル化された印刷文書を、クリーンで自然に順序付けられたプレーンテキストに変換する強力なOCRシステム群の最新版です。 olmOCR 2は、強化学習を用いて訓練された7B視覚言語モデル(VLM)であるolmOCR-2-7B-1025で駆動される。 これらのテストケースに対するRLトレーニングは、我々の英語OCRベンチマークであるolmOCR-Benchにおける最先端のパフォーマンスをもたらすことを示す。
    論文  参考訳(メタデータ)   (Wed, 22 Oct 2025 17:53:02 GMT)
  • こちらはOCR、olmOCRのバージョン2。「To scale unit test creation, we develop a pipeline for generating synthetic documents with diverse and challenging layouts, known ground-truth HTML source code, and extracted test cases.」と合成データを活用するアプローチ。
  • リポジトリはGitHub – allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training

A Definition of AGI

  • A Definition of AGI [208.3]
    人工知能の具体的な定義の欠如は、今日の専門的なAIと人間レベルの認知のギャップを曖昧にしている。 そこで本研究では,AGIを認知的多目的性と熟達度に適合するものとして,これに対応するための定量的枠組みを提案する。
    論文  参考訳(メタデータ)   (Tue, 21 Oct 2025 01:28:35 GMT)
  • AGIをよく教育された成人と同レベルの認知的な多様性と熟練度を持つものと定義、定量化のフレームワークを提案。「This paper introduces a quantifiable framework to address this, defining AGI as matching the cognitive versatility and proficiency of a well-educated adult. To operationalize this, we ground our methodology in Cattell-Horn-Carroll theory, the most empirically validated model of human cognition. The framework dissects general intelligence into ten core cognitive domains—including reasoning, memory, and perception—and adapts established human psychometric batteries to evaluate AI systems.」
  • 定義やスコア(GPT-4は27%、GPT-5は58%)に対する見解は様々だと思うが、「Long-Term Memory Storage (MS): The capability to continually learn new information (associative, meaningful, and verbatim).」が最大の課題となっているように見え、そこは納得。