- DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories [120.3]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。 私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (Mon, 19 May 2025 04:55:39 GMT) - 「This pipeline is designed to be general-purpose across different robots, environments, and tasks. (1) We fine-tune video world models on a target robot to capture the dynamics and kinematics of the specific embodiment; (2) we prompt the model with pairs of initial frames and language instructions to generate large volumes of robot videos, capturing both familiar behaviors from fine-tuning and novel ones in unseen settings; (3) we then extract pseudo-actions using either a latent action model [13] or an inverse dynamics model (IDM)[14]; (4) finally, we use the resulting video-action sequence pairs, dubbed neural trajectories, for training downstream visuomotor policies.」と動画生成モデルを活用したデータ合成手法の提案。イメージトレーニングのようで面白い。
- プロジェクトサイトはDreamGen
GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent
- GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.3]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。 本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (Thu, 22 May 2025 16:01:06 GMT) - 「(a) Automatically constructing function-aware exploration goals by analyzing structural information from the GUI environment, followed by systematic exploration to collect diverse function- aware trajectories. (b) Extracting effective screen-operation logic through unsupervised analysis of structured interaction triples (observation, action, outcome), enabling unsupervised knowledge extraction. (c) Performing visual-semantic retrieval between screen visuals and the knowledge vector store to construct Dynamic Guidance achieves dual objectives: preventing UI misinterpretation and ensuring action proposals align with actual UI states.」というメカニズムの提案。SPA-Bench、AndroidWorldのスコアを改善。
- リポジトリはGitHub – JiuTian-VL/GUI-explorer: [ACL 2025] GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent
BAT: Benchmark for Auto-bidding Task
- BAT: Benchmark for Auto-bidding Task [67.6]
本稿では,最も普及している2種類のオークション形式を含むオークションベンチマークを提案する。 我々は,新しいデータセットに基づいて,一連の堅牢なベースラインを実装した。 このベンチマークは、研究者や実践者が革新的なオートバイディングアルゴリズムを開発し、洗練するための、ユーザフレンドリで直感的なフレームワークを提供する。
論文 参考訳(メタデータ) (Tue, 13 May 2025 12:12:34 GMT) - 「To address this deficiency, we present an auction benchmark en- compassing the two most prevalent auction formats. We implement a series of robust baselines on a novel dataset, addressing the most salient Real-Time Bidding (RTB) problem domains: budget pacing uniformity and Cost Per Click (CPC) constraint optimization.」と珍しいベンチマーク
- リポジトリはGitHub – avito-tech/bat-autobidding-benchmark
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models
- ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.5]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。 次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。 人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (Mon, 19 May 2025 17:59:27 GMT) - チャートQAなベンチマーク。Gemini-2.5-Pro、o4, o3, Calude 3.7, GPT-4.1もスコアが低い困難なタスク。
- プロジェクトサイトはChartMuseum
Understanding Gen Alpha Digital Language: Evaluation of LLM Safety Systems for Content Moderation
- Understanding Gen Alpha Digital Language: Evaluation of LLM Safety Systems for Content Moderation [8.9]
この研究は、AIシステムがジェネレーションアルファのデジタル言語をどのように解釈するかの独特な評価を提供する(Gen Alpha、2010年生まれ-2024年) Gen Alphaは、没入型のデジタルエンゲージメントと、進化するコミュニケーションと既存の安全ツールとのミスマッチの増加により、新たな形のオンラインリスクに直面している。 この研究は、ゲームプラットフォーム、ソーシャルメディア、ビデオコンテンツからの100の最近の表現のデータセットを使用して、オンラインの安全性に直接影響する重要な理解障害を明らかにしている。
論文 参考訳(メタデータ) (Wed, 14 May 2025 16:46:11 GMT) - デジタルネイティブ世代とのギャップに関する研究、「Most critically, protection systems consistently lagged behind the rapid evolution of expressions, creating windows of vulnerability where concerning interactions went undetected」で「The resulting trust gap led many Gen Alpha users to avoid reporting concerning interactions, believing adults would misunderstand or minimize their experiences.」とのこと。。
- 生成AI時代はもっとギャップが広がるのだろうか・・・
- リポジトリはGitHub – SystemTwoAI/GenAlphaSlang
Google I/O, Claude 4 Sonnet / Opus
Google I/Oで発表されたGemini 2.5 Proの性能(含DeepThink)、Imagen 4やVeo 3といった画像生成・動画生成モデル及び同時期に発表された拡散モデルなGemini DiffusionはGoogleが全方位で生成AIに取り組み、かつ、高い成果を出している証拠でさすがGoogleという感じ。
- Google I/O 2025: Google DeepMind から Gemini 2.5 のアップデート
- Gemini アプリ: Google I/O 2025で発表した7アップデート
- Imagen 4, Veo 3: Googleの最新のメディア生成モデル
- Gemini Diffusion – Google DeepMind
GoogleはIt’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization – arXiv最新論文の紹介などNext Transformerな研究も積極的に行っておりとても興味深い。このあたりもさすがGoogle。
AnthropicからはClaude 4が発表されている。Agenticな動作で重要となる機能やコード生成で高い性能を主張しており、期待大。
OpenAI一強の時代から一歩進んだ印象。オープンな取り組みも活発だが、商用モデルも立て続けに興味深い発表がされており非常に競争が激しい。
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners
- When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.5]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。 トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (Wed, 21 May 2025 08:35:05 GMT) - 「Drawing inspiration from cognitive neuroscience, which suggests that human reasoning functions largely independently of language processing, we hypothesize that LLMs similarly encode reasoning and language as separable components that can be disentangled to enhance multilingual reasoning」に基づき、「Through targeted interventions in the LLMs’ activation space, we demonstrate that removing language-specific information significantly improves reasoning performance across languages.」とのこと。
- 仮説も検証結果も非常に興味深い。LLMは人間の脳とは全く別のはずだが近い動き(機能分解)になっているのは何故なんだろう・・・
Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought
- Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought [190.9]
Hunyuan-TurboSは、Transformer-Mamba Mixture of Expertsの大型ハイブリッドモデルである。 高いパフォーマンスと効率のバランスを保ち、推論コストを低く抑えている。
論文 参考訳(メタデータ) (Wed, 21 May 2025 12:11:53 GMT) - TencentによるMamba hybrid、MoE、Adaptive CoTと全部盛り感のあるモデル(Mistral Small 3.1, Hunyuan-T1 – arXiv最新論文の紹介にも関連)。
- Hunyuan-TurboS features an adaptive long-short chain-of-thought (CoT) mechanism, dynamically switching between rapid responses for simple queries and deep ”thinking” modes for complex problems, optimizing computational resources. Architecturally, this 56B activated (560B total) parameter model employs 128 layers (Mamba2, Attention, FFN) with an innovative AMF/MF block pattern.
- Mambaアーキテクチャ(ハイブリッド)モデルでベンチマークのスコアも非常に高い。「LMSYS Chatbot Arena with a score of 1356, outperforming leading models like Gemini-2.0-Flash-001 (1352) and o4-mini-2025-04-16 (1345)」とのこと。(LLM?LRM?という疑問はありつつ)個別タスクだと他のオープンソースモデルや商用モデルを超えているものもある。オープンな比較対象はLlama-4-Maverick, DeepSeek-V3 , Qwen3-235B-A22Bと最新のもの。
- 「The inference of the Hunyuan-TurboS model is powered by the AngelHCF Inference Acceleration Framework. For the Mamba Hybrid architecture of the TurboS model, we have implemented optimizations across folloing three key dimensions, ultimately achieving a 1.8x speedup compared to Hunyuan-Turbo, which is a pure Transformers MoE model」とMambaの有効性もしてしており、全般的に非常に先進的なモデルに見える。
LLMs unlock new paths to monetizing exploits
- LLMs unlock new paths to monetizing exploits [85.6]
大規模言語モデル(LLM)はすぐにサイバー攻撃の経済性を変えるだろう。 LLMは、敵がユーザーごとにカスタマイズされた攻撃を起動することを可能にする。
論文 参考訳(メタデータ) (Fri, 16 May 2025 17:05:25 GMT) - LLMの悪用可能性に関する報告。より適合的な攻撃ができるのはそうだろうと思う。
- 「To demonstrate this capability, we divide all emails from the Enron dataset into 150 (potentially overlapping) sets, grouped by the Enron employee who has sent or received that email. We then feed each of these collections of emails into a LLM (Claude 3.5 Sonnet) and ask it to describe everyone who this employee is emailing. Doing this identifies one Enron employee (John G.) who is having an extramarital affair with a coworker.」は大規模データ分析の点からも興味深い。
R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution
- R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution [60.8]
R&D-Agentは反復探索のための二重エージェントフレームワークである。 Researcherエージェントはパフォーマンスフィードバックを使用してアイデアを生成し、Developerエージェントはエラーフィードバックに基づいてコードを洗練する。 R&D-AgentはMLE-Benchで評価され、最高のパフォーマンスの機械学習エンジニアリングエージェントとして登場した。
論文 参考訳(メタデータ) (Tue, 20 May 2025 06:07:00 GMT) - GitHub – openai/mle-bench: MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineeringでSoTAを主張、「the framework employs two specialized agents – the “Researcher” and the “Developer” – which correspond to the two types of feedback provided in each exploration step: solution performance and execution error information.」という構成。現実に近いような。。。
- リポジトリはGitHub – microsoft/RD-Agent: Research and development (R&D) is crucial for the enhancement of industrial productivity, especially in the AI era, where the core aspects of R&D are mainly focused on data and models. We are committed to automating these high-value generic R&D processes through R&D-Agent, which lets AI drive data-driven AI. 🔗https://aka.ms/RD-Agent-Tech-Report