注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

Visual Planning: Let’s Think Only with Images

  • Visual Planning: Let’s Think Only with Images [30.7]
    我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。 そこで本研究では,テキストから独立して,純粋に視覚的な表現によるプランニングを可能にする,ビジュアルプランニングという新たなパラダイムを提案する。 このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
    論文  参考訳(メタデータ)   (Fri, 16 May 2025 16:17:22 GMT)
  • 「By enabling models to operate entirely through visual state transitions without textual mediation, we demonstrate that purely visual representations can lead to more effective and intuitive planning,」とのこと。テキストは強力だが万能というわけではなくタスクによっては計画レベルで画像が有効なことがあるのは納得感がある。とても面白い。GRITでも思ったが画像の力を使っていくアプローチはとても有望に思える。
  • リポジトリはGitHub – yix8/VisualPlanning: Visual Planning: Let’s Think Only with Images
  • GRIT: Teaching MLLMs to Think with Images [22.7]
    Grounded Reasoning with Images and Texts (GRIT) はMLLMを画像で考えるための新しい手法である。 GRITは自然言語と明示的な境界ボックス座標をインターリーブする推論連鎖を生成する。 GRITは例外的なデータ効率を実現し、既存のデータセットから20のイメージクエスト・アンサートレットを必要とする。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 17:54:49 GMT)
  • プロジェクトサイトはGRIT: Teaching MLLMs to Think with Images

Think Only When You Need with Large Hybrid-Reasoning Models 

  • Think Only When You Need with Large Hybrid-Reasoning Models [121.6]
    LHRM(Large Hybrid-Reasoning Model) ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。 実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 05:17:34 GMT)
  • LLM, LRMハイブリッドな手法の提案。「We begin with a hybrid-formatted supervised fine-tuning stage named Hybrid Fine-Tuning (HFT) that integrates both reasoning-intensive (Thinking) and direct-answer (No-Thinking) data. This approach mitigates the instability often observed in cold-start scenarios [GYZ+25], and establishes a robust initialization for next stage reinforcement learning.」という第一ステージを挟んでいるのが面白い。
  • LHRMという略語が定着する可能性があるのかは若干気になる。
  • リポジトリはAdvancing AI for Humanity
  • Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.1]
    大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。 この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。 本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
    論文  参考訳(メタデータ)   (Tue, 20 May 2025 16:53:40 GMT)
  • 「we propose a novel endogenous approach, Self-Braking Tuning (SBT), to mitigating overthinking in large language models.」とtoken節約という意味では近い内容。
  • リポジトリはGitHub – ZJU-REAL/Self-Braking-Tuning: Let LLMs Break Free from Overthinking via Self-Braking Tuning

XRAG: Cross-lingual Retrieval-Augmented Generation

  • XRAG: Cross-lingual Retrieval-Augmented Generation [21.5]
    XRAGは,LLMの生成能力を評価するために設計されている。 XRAGは最近のニュース記事から構築されており、質問に答えるために外部の知識が必要であることを保証している。
    論文  参考訳(メタデータ)   (Thu, 15 May 2025 08:47:55 GMT)
  • クロスリンガル設定のRAGベンチマーク。LLMが内部知識からは答えられないように構築されている。
  • 「(3) We find that in the monolingual retrieval setting, all evaluated LLMs face issues with Response Language Correctness an issue that has received little attention from the research community. (4) In the multilingual retrieval setting, the primary challenge for LLMs does not lie in non- English generation, but in reasoning over retrieved information across languages.」と意外に難しく、興味深い結果になっている。
  • データを見てみたいところ。

NExT-Search: Rebuilding User Feedback Ecosystem for Generative AI Search

  • NExT-Search: Rebuilding User Feedback Ecosystem for Generative AI Search [108.4]
    NExT-Searchは、きめ細かいプロセスレベルのフィードバックを生成AI検索に再導入するために設計された次世代パラダイムである。 NExT-Searchは2つの補完モードを統合している。
    論文  参考訳(メタデータ)   (Tue, 20 May 2025 17:59:13 GMT)
  • 生成AI時代の検索(it disrupts the feedback-driven improvement loop that has historically powered the evolution of traditional Web search.)について、フィードバックの在り方の提案。

Large Language Models for Computer-Aided Design: A Survey

  • Large Language Models for Computer-Aided Design: A Survey [33.4]
    大規模言語モデル(LLM)は近年急速に進歩している。 現代のデザインの複雑さが増すにつれ、LLMがコンピュータ支援設計(CAD)を効率化し、効率化する可能性が高まっている。 本稿では,LLMとCADの交点を探索する最初の体系的な調査について述べる。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 00:19:04 GMT)
  • LLM & CADのサーベイ。

How Reliable is Multilingual LLM-as-a-Judge?

How Reliable is Multilingual LLM-as-a-Judge? [11.6]
25言語を含む5つの多種多様なタスクにおいて、異なるモデルファミリーから5つのモデルを評価する。 一貫性は言語によって大きく異なり、低リソース言語では特にパフォーマンスが劣っていることが分かりました。 実世界のアプリケーションにおける多言語判断の整合性を改善するアンサンブル戦略を提案する。
論文  参考訳(メタデータ)   (Sun, 18 May 2025 02:32:35 GMT)

マルチリンガル設定でのLLM as a judgeの性能評価。GPT-4oも苦労している印象の結果。「we find that powerful open-source models, such as Qwen- 2.5, achieve comparable performance to OpenAI models in multilingual judgment tasks.」や「Aya fails to demonstrate noticeable improvements. This suggests that fine- tuning with multilingual data may not directly enhance a model’s ability to perform accurate multi- lingual judgments.」など興味深い記載も多い。

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories

  • DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories [120.3]
    DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。 私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 04:55:39 GMT)
  • 「This pipeline is designed to be general-purpose across different robots, environments, and tasks. (1) We fine-tune video world models on a target robot to capture the dynamics and kinematics of the specific embodiment; (2) we prompt the model with pairs of initial frames and language instructions to generate large volumes of robot videos, capturing both familiar behaviors from fine-tuning and novel ones in unseen settings; (3) we then extract pseudo-actions using either a latent action model [13] or an inverse dynamics model (IDM)[14]; (4) finally, we use the resulting video-action sequence pairs, dubbed neural trajectories, for training downstream visuomotor policies.」と動画生成モデルを活用したデータ合成手法の提案。イメージトレーニングのようで面白い。
  • プロジェクトサイトはDreamGen

GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

  • GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.3]
    MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。 本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
    論文  参考訳(メタデータ)   (Thu, 22 May 2025 16:01:06 GMT)
  • 「(a) Automatically constructing function-aware exploration goals by analyzing structural information from the GUI environment, followed by systematic exploration to collect diverse function- aware trajectories. (b) Extracting effective screen-operation logic through unsupervised analysis of structured interaction triples (observation, action, outcome), enabling unsupervised knowledge extraction. (c) Performing visual-semantic retrieval between screen visuals and the knowledge vector store to construct Dynamic Guidance achieves dual objectives: preventing UI misinterpretation and ensuring action proposals align with actual UI states.」というメカニズムの提案。SPA-Bench、AndroidWorldのスコアを改善。
  • リポジトリはGitHub – JiuTian-VL/GUI-explorer: [ACL 2025] GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

BAT: Benchmark for Auto-bidding Task 

  • BAT: Benchmark for Auto-bidding Task [67.6]
    本稿では,最も普及している2種類のオークション形式を含むオークションベンチマークを提案する。 我々は,新しいデータセットに基づいて,一連の堅牢なベースラインを実装した。 このベンチマークは、研究者や実践者が革新的なオートバイディングアルゴリズムを開発し、洗練するための、ユーザフレンドリで直感的なフレームワークを提供する。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 12:12:34 GMT)
  • 「To address this deficiency, we present an auction benchmark en- compassing the two most prevalent auction formats. We implement a series of robust baselines on a novel dataset, addressing the most salient Real-Time Bidding (RTB) problem domains: budget pacing uniformity and Cost Per Click (CPC) constraint optimization.」と珍しいベンチマーク
  • リポジトリはGitHub – avito-tech/bat-autobidding-benchmark

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

  • ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.5]
    視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。 次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。 人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 17:59:27 GMT)
  • チャートQAなベンチマーク。Gemini-2.5-Pro、o4, o3, Calude 3.7, GPT-4.1もスコアが低い困難なタスク。
  • プロジェクトサイトはChartMuseum