注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

  • Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision [15.8]
    Sci-CoEは2段階の科学的共進化フレームワークであり、モデルが解法と検証器の両方として自己進化することを可能にする。 最初の段階では、モデルは注釈付きデータの小さなセットを使用して、検証器の正当性判定アンカーを確立する。 第2段階では、コンセンサス、信頼性、多様性を共同で考慮し、大規模な自己評価を促進する幾何学的報酬機構を導入する。
    論文  参考訳(メタデータ)   (Thu, 12 Feb 2026 16:46:00 GMT)
  • 「we introduce Sci-CoE, a scientific co-evolving framework that consists of a Solver and a Verifier, both implemented within a single LLM.」と協調的に進化していくタイプのモデル。ベースモデルよりも性能が向上。
  • リポジトリはGitHub – InternScience/Sci-CoE: Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

  • InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery [138.0]
    InternAgent-1.5は、エンドツーエンドの科学的発見を目的とした統合システムである。 このシステムは、生成、検証、進化のための3つの調整されたサブシステムで構成される構造化アーキテクチャ上に構築されている。 InternAgent-1.5をGAIA,HLE,GPQA,FrontierScienceなどの科学的推論ベンチマークで評価した。
    論文  参考訳(メタデータ)   (Mon, 09 Feb 2026 18:36:06 GMT)
  • 「A Unified Architecture for End-to-end Scientific Discovery: InternAgent-1.5 organizes the scientific discovery process into three coherent subsystems for Generation, Verification, and Evolution. These subsystems support the full cycle of hypothesis formulation, methodological evaluation, and evidence driven refinement through foundational capabilities for deep research, solution refinement, and long horizon memory.」と科学的な発見を目指したAgentic Frameworkの提案。
  • リポジトリはGitHub – InternScience/InternAgent: InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining 

  • QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining [24.8]
    QuantaAlphaは進化的アルファ・マイニング・フレームワークであり、各エンド・ツー・エンドのマイニング・ランを軌跡として扱う。 QuantaAlphaは、ターゲットリビジョンのための各トラジェクトリにおける最適以下のステップをローカライズする。 ファクタ生成の間、QuantaAlphaは仮説、因子表現、実行可能コードのセマンティック一貫性を強制する。
    論文  参考訳(メタデータ)   (Fri, 06 Feb 2026 08:08:04 GMT)
  • 「We present QuantaAlpha, a self-evolving framework for interpretable alpha mining that formulates factor discovery as a constrained multi-agent research process. Extensive experiments across both Chinese and U.S. equity markets show that QuantaAlpha consistently produces more stable and generalizable factors than all baselines.」とのこと。「(A) Diversified Planning Initialization to generate candidate hypotheses, (B) Factor Realization that iteratively instantiates hypotheses into executable factors with constraint gating, (C) Self-Evolution that applies mutation and crossover over evaluated trajectories, and (D) A Final Factor Pool that consolidates validated effective factors.」というプロセスで実現していて、テスト結果の通りのパフォーマンスであればとても興味深い。
  • リポジトリはGitHub – QuantaAlpha/QuantaAlpha: QuantaAlpha transforms how you discover quantitative alpha factors by combining LLM intelligence with evolutionary strategies. Just describe your research direction, and watch as factors are automatically mined, evolved, and validated through self-evolving trajectories.

LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction

  • LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.2]
    大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。 文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。 対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
    論文  参考訳(メタデータ)   (Sun, 25 Jan 2026 20:05:04 GMT)
  • LLMから文化的なナレッジグラフを引きだす手法の提案と検証。「Human evaluations show that while native languages convey richer cultural depth, English outputs are generally more coherent and preferred. Empirically, augmenting LLMs with CCKG improves performance on cultural commonsense reasoning and story generation.」というのは納得感がありつつ、日本語のLLM構築の重要性を示唆しているような気もする。
  • リポジトリはGitHub – JuniorTonga/Cultural_Commonsense_Knowledge_Graph: [EACL 2026 Main] Framework to construct a Cultural Commonsense Knowledge Graph( CCKG) that have geographical context.

OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks

  • OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks [37.0]
    ロングホライズンで反復的なタスクは、プロフェッショナルな設定で一般的である。 これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。 我々は2つのドメインにまたがる242の長期的反復的なタスクからなるOS-Marathonを構築し、SOTA(State-of-the-art)エージェントを評価する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 14:35:23 GMT)
  • 「OS-Marathon is specifically tailored to evaluate CUA performance in long- horizon, repetitive execution scenarios, comprising 242 tasks across 2 domains and 7 distinct execution environments. 」と長期かつ反復的なタスクがあるGUIエージェントベンチマーク。かなり難しいベンチマークに見える。
  • プロジェクトサイトはOS-Marathon Benchmark

Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs 

  • Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs [61.0]
    大規模視覚言語モデル(LVLM)は、クロスモーダルタスクにおいて顕著な能力を示すが、重大な安全性上の課題に直面している。 既存のベンチマークは、労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。 LVLMの安全性ベンチマークのための最初の自動システムであるVLSafetyBencherを提案する。
    論文  参考訳(メタデータ)   (Tue, 27 Jan 2026 11:51:30 GMT)
  • LVLMのための安全性評価ベンチマーク、「Ex-eriments validates that VLSafetyBencher can construct high-quality safety benchmarks within one week at a minimal cost. The generated benchmark effectively distinguish safety, with a safety rate disparity of 70% between the most and least safe models.」とのこと。
  • この手のベンチマークではGPT系モデルの優位性が目立つことが多いが、本論文ではClaude-Sonnet-4がトップ。LVLMとしての評価だからだろうか。

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

  • OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution [33.0]
    OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。 既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。 OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 08:45:17 GMT)
  • BaiduによるGUIエージェント、「We introduce OmegaUse, a general-purpose GUI agent built on a parameter-efficient MoE architecture for autonomous task execution. OmegaUse is trained using a decoupled two-stage paradigm, and we present a holistic framework for building GUI agents that jointly addresses data construction and model training.」とのことでモデル自体に手を入れていくのはさすが。grounding modelとnavigation modelは分けていて、このあたりの設計は他のエージェントとの共通性を感じる

The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data 

  • The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.9]
    大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。 本稿では,2次元から合成データを評価するためのフレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 25 Jan 2026 06:40:25 GMT)
  • 合成データに関するサーベイであり、「 the LLM Data Auditor framework, as shown in Figure 1 and 2. This framework organizes various data types through a unified structure encompassing 5 core components: LLM-based data generation methods, quality metrics, trustworthy metrics, evaluation gaps, and data usage」というフレームワークを通しての整理。
  • リポジトリはAnonymized Repository – Anonymous GitHub

DeepSeek-OCR 2: Visual Causal Flow 

  • DeepSeek-OCR 2: Visual Causal Flow [15.6]
    本稿では,新しいエンコーダ-ディープエンコーダV2の実現可能性を検討するためにDeepSeek-OCR 2を提案する。 DeepEncoder V2は、エンコーダに因果推論機能を持たせるように設計されており、コンテンツ解釈の前に視覚トークンをインテリジェントに並べ替えることができる。 本研究は,2次元因果推論構造を用いて2次元画像理解を効果的に実現できるか否かという,新しいパラダイムを探求する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 12:46:07 GMT)
  • DeepEncoder V2とDeepSeek-OCR 2の提案。強力な性能を達成。特にDeepEncode V2には「DeepEncoder V2, featuring several key innovations: (1) we replace the CLIP [37] component in DeepEncoder [54] with a compact LLM [48] architecture, as illustrated in Figure 1, to achieve visual causal flow; (2) to enable parallelized processing, we introduce learnable queries [10], termed causal flow tokens, with visual tokens prepended as a prefix—through a customized attention mask, visual tokens maintain global receptive fields, while causal flow tokens can obtain visual token reordering ability; (3) we maintain equal cardinality between causal and visual tokens (with redundancy such as padding and borders) to provide sufficient capacity for re-fixation; (4) only the causal flow tokens—the latter half of the encoder outputs—are fed to the LLM [24] decoder, enabling cascade causal-aware visual understanding.」とかなりの変更がなされている。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-OCR-2: Visual Causal Flow

MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation 

  • MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation [84.5]
    MALLOCは、メモリを意識したロングシーケンス圧縮のベンチマークである。 最先端のレコメンデータに統合され、再現性と評価のプラットフォームを可能にする。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 04:11:50 GMT)
  • 「In this work, we introduce MALLOC, the first comprehensive benchmark that systematically restructures the landscape of long- sequence compression through a novel taxonomy centered on memory allocation granularity. By categorizing existing compression techniques within a unified framework and evaluating them along the dimensions of predictive accuracy, computational cost, memory utilization, and scalability, we deliver a comprehensive view of the practical trade-offs underlying long-sequence recommendation.」とメモリ機能を意識したベンチマーク。本論文が対象としているのは、モデルそのものによる長文圧縮での扱いであり、AgenticRAGの派生形としてのAI Memoryとは異なる。
  • リポジトリはAnonymized Repository – Anonymous GitHub