NExT-Search: Rebuilding User Feedback Ecosystem for Generative AI Search

  • NExT-Search: Rebuilding User Feedback Ecosystem for Generative AI Search [108.4]
    NExT-Searchは、きめ細かいプロセスレベルのフィードバックを生成AI検索に再導入するために設計された次世代パラダイムである。 NExT-Searchは2つの補完モードを統合している。
    論文  参考訳(メタデータ)   (Tue, 20 May 2025 17:59:13 GMT)
  • 生成AI時代の検索(it disrupts the feedback-driven improvement loop that has historically powered the evolution of traditional Web search.)について、フィードバックの在り方の提案。

Large Language Models for Computer-Aided Design: A Survey

  • Large Language Models for Computer-Aided Design: A Survey [33.4]
    大規模言語モデル(LLM)は近年急速に進歩している。 現代のデザインの複雑さが増すにつれ、LLMがコンピュータ支援設計(CAD)を効率化し、効率化する可能性が高まっている。 本稿では,LLMとCADの交点を探索する最初の体系的な調査について述べる。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 00:19:04 GMT)
  • LLM & CADのサーベイ。

How Reliable is Multilingual LLM-as-a-Judge?

How Reliable is Multilingual LLM-as-a-Judge? [11.6]
25言語を含む5つの多種多様なタスクにおいて、異なるモデルファミリーから5つのモデルを評価する。 一貫性は言語によって大きく異なり、低リソース言語では特にパフォーマンスが劣っていることが分かりました。 実世界のアプリケーションにおける多言語判断の整合性を改善するアンサンブル戦略を提案する。
論文  参考訳(メタデータ)   (Sun, 18 May 2025 02:32:35 GMT)

マルチリンガル設定でのLLM as a judgeの性能評価。GPT-4oも苦労している印象の結果。「we find that powerful open-source models, such as Qwen- 2.5, achieve comparable performance to OpenAI models in multilingual judgment tasks.」や「Aya fails to demonstrate noticeable improvements. This suggests that fine- tuning with multilingual data may not directly enhance a model’s ability to perform accurate multi- lingual judgments.」など興味深い記載も多い。

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories

  • DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories [120.3]
    DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。 私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 04:55:39 GMT)
  • 「This pipeline is designed to be general-purpose across different robots, environments, and tasks. (1) We fine-tune video world models on a target robot to capture the dynamics and kinematics of the specific embodiment; (2) we prompt the model with pairs of initial frames and language instructions to generate large volumes of robot videos, capturing both familiar behaviors from fine-tuning and novel ones in unseen settings; (3) we then extract pseudo-actions using either a latent action model [13] or an inverse dynamics model (IDM)[14]; (4) finally, we use the resulting video-action sequence pairs, dubbed neural trajectories, for training downstream visuomotor policies.」と動画生成モデルを活用したデータ合成手法の提案。イメージトレーニングのようで面白い。
  • プロジェクトサイトはDreamGen

GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

  • GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.3]
    MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。 本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
    論文  参考訳(メタデータ)   (Thu, 22 May 2025 16:01:06 GMT)
  • 「(a) Automatically constructing function-aware exploration goals by analyzing structural information from the GUI environment, followed by systematic exploration to collect diverse function- aware trajectories. (b) Extracting effective screen-operation logic through unsupervised analysis of structured interaction triples (observation, action, outcome), enabling unsupervised knowledge extraction. (c) Performing visual-semantic retrieval between screen visuals and the knowledge vector store to construct Dynamic Guidance achieves dual objectives: preventing UI misinterpretation and ensuring action proposals align with actual UI states.」というメカニズムの提案。SPA-Bench、AndroidWorldのスコアを改善。
  • リポジトリはGitHub – JiuTian-VL/GUI-explorer: [ACL 2025] GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

BAT: Benchmark for Auto-bidding Task 

  • BAT: Benchmark for Auto-bidding Task [67.6]
    本稿では,最も普及している2種類のオークション形式を含むオークションベンチマークを提案する。 我々は,新しいデータセットに基づいて,一連の堅牢なベースラインを実装した。 このベンチマークは、研究者や実践者が革新的なオートバイディングアルゴリズムを開発し、洗練するための、ユーザフレンドリで直感的なフレームワークを提供する。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 12:12:34 GMT)
  • 「To address this deficiency, we present an auction benchmark en- compassing the two most prevalent auction formats. We implement a series of robust baselines on a novel dataset, addressing the most salient Real-Time Bidding (RTB) problem domains: budget pacing uniformity and Cost Per Click (CPC) constraint optimization.」と珍しいベンチマーク
  • リポジトリはGitHub – avito-tech/bat-autobidding-benchmark

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

  • ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.5]
    視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。 次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。 人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 17:59:27 GMT)
  • チャートQAなベンチマーク。Gemini-2.5-Pro、o4, o3, Calude 3.7, GPT-4.1もスコアが低い困難なタスク。
  • プロジェクトサイトはChartMuseum

Understanding Gen Alpha Digital Language: Evaluation of LLM Safety Systems for Content Moderation 

  • Understanding Gen Alpha Digital Language: Evaluation of LLM Safety Systems for Content Moderation [8.9]
    この研究は、AIシステムがジェネレーションアルファのデジタル言語をどのように解釈するかの独特な評価を提供する(Gen Alpha、2010年生まれ-2024年) Gen Alphaは、没入型のデジタルエンゲージメントと、進化するコミュニケーションと既存の安全ツールとのミスマッチの増加により、新たな形のオンラインリスクに直面している。 この研究は、ゲームプラットフォーム、ソーシャルメディア、ビデオコンテンツからの100の最近の表現のデータセットを使用して、オンラインの安全性に直接影響する重要な理解障害を明らかにしている。
    論文  参考訳(メタデータ)   (Wed, 14 May 2025 16:46:11 GMT)
  • デジタルネイティブ世代とのギャップに関する研究、「Most critically, protection systems consistently lagged behind the rapid evolution of expressions, creating windows of vulnerability where concerning interactions went undetected」で「The resulting trust gap led many Gen Alpha users to avoid reporting concerning interactions, believing adults would misunderstand or minimize their experiences.」とのこと。。
  • 生成AI時代はもっとギャップが広がるのだろうか・・・
  • リポジトリはGitHub – SystemTwoAI/GenAlphaSlang

Google I/O, Claude 4 Sonnet / Opus

Google I/Oで発表されたGemini 2.5 Proの性能(含DeepThink)、Imagen 4やVeo 3といった画像生成・動画生成モデル及び同時期に発表された拡散モデルなGemini DiffusionはGoogleが全方位で生成AIに取り組み、かつ、高い成果を出している証拠でさすがGoogleという感じ。

GoogleはIt’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization  – arXiv最新論文の紹介などNext Transformerな研究も積極的に行っておりとても興味深い。このあたりもさすがGoogle。

AnthropicからはClaude 4が発表されている。Agenticな動作で重要となる機能やコード生成で高い性能を主張しており、期待大。

OpenAI一強の時代から一歩進んだ印象。オープンな取り組みも活発だが、商用モデルも立て続けに興味深い発表がされており非常に競争が激しい。

When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners

  • When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.5]
    言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。 トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 08:35:05 GMT)
  • 「Drawing inspiration from cognitive neuroscience, which suggests that human reasoning functions largely independently of language processing, we hypothesize that LLMs similarly encode reasoning and language as separable components that can be disentangled to enhance multilingual reasoning」に基づき、「Through targeted interventions in the LLMs’ activation space, we demonstrate that removing language-specific information significantly improves reasoning performance across languages.」とのこと。
  • 仮説も検証結果も非常に興味深い。LLMは人間の脳とは全く別のはずだが近い動き(機能分解)になっているのは何故なんだろう・・・