Gemini 2.5 Pro, Flash , 2.5 Flash-Lite, MiniMax-M1, Kimi-Dev-72B

Gemini 2.5 Proからpreviewが取れ、2.5 Flash Liteが出る(Gemini Pro – Google DeepMind)など先週も様々なニュースがあった。

高効率なモデルで知られるMiniMaxからはReasoningモデルが出ている。MoonshotからはKimi-Dev-72Bが公開されておりこちらも期待が大きい(GitHub – MoonshotAI/Kimi-Dev: open-source coding LLM for software engineering tasks)。テクニカルレポートは準備中とのこと。

  • MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention [90.7]
    MiniMax-M1は、オープンウェイトで大規模なハイブリッドアテンション推論モデルである。 コンテクストの長さは100万トークンで、DeepSeek R1のコンテクストサイズは8倍だ。 MiniMax-M1は大規模強化学習を用いて訓練されている。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 15:08:02 GMT)
  • 効率的なLightning Attentionを活用したモデル。Lightning Attentionの計算量はコンテキスト長に対し線形(ではあるが全体のバランスを考えてのハイブリッド構造)でLRMに向いていそう。加えて最近のモデルで多いMoEを採用している。
  • リポジトリはGitHub – MiniMax-AI/MiniMax-M1: MiniMax-M1, the world’s first open-weight, large-scale hybrid-attention reasoning model.

SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence 

  • SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence [28.0]
    自動エージェントシステム生成のためのフレームワークであるSwarmAgenticを提案する。 SwarmAgenticはエージェントシステムをスクラッチから構築し、エージェント機能とコラボレーションを共同で最適化する。 提案手法を,高レベル計画,システムレベルの調整,創造的推論を含む6つの実世界,オープンエンド,探索的タスクで評価する。
    論文  参考訳(メタデータ)   (Wed, 18 Jun 2025 17:54:55 GMT)
  • 「We propose SwarmAgentic, a framework for fully automated agentic system generation that constructs agentic systems from scratch and jointly optimizes agent functional- ity and collaboration as interdependent com- ponents through language-driven exploration. To enable efficient search over system-level structures, SwarmAgentic maintains a population of candidate systems and evolves them via feedback-guided updates, drawing inspiration from Particle Swarm Optimization (PSO).」というフレームワークの提案。
  • 各エージェントを粒子ととらえらParticle Swarm Optimization (PSO)的アプローチで他手法を超える性能とのこと。計算コストがどの程度かはやや気になるところ。
  • プロジェクトサイトはAcademic Project Page

Future of Work with AI Agents: Auditing Automation and Augmentation Potential across the U.S. Workforce

  • Future of Work with AI Agents: Auditing Automation and Augmentation Potential across the U.S. Workforce [45.3]
    作業員がAIエージェントの自動化や強化を望んでいるかを評価するための新しい枠組みを導入する。 我々のフレームワークは、ニュアンスな労働者の欲求を捉えるために、オーディオ強化されたミニインタービューを備えている。 我々はWORKBankデータベースを構築し、1500のドメインワーカーの好みとAI専門家の能力評価を収集する。
    論文  参考訳(メタデータ)   (Wed, 11 Jun 2025 21:25:21 GMT)
  • 「This paper presents the first large-scale audit of both worker desire and technological capability for AI agents in the context of automation and augmentation.」という調査報告。下記4象限で見ると希望しているものと研究の方向性があっているとは言い難そう。
    • Automation “Green Light” Zone: Tasks with both high automation desire and high capability. These are prime candidates for AI agent deployment with the potential for broad productivity and societal gains.
    • Automation “Red Light” Zone: Tasks with high capability but low desire. Deployment here warrants caution, as it may face worker resistance or pose broader negative societal implications
    • R&D Opportunity Zone: Tasks with high desire but currently low capability. These represent promising directions for AI research and development.
    • Low Priority Zone: Tasks with both low desire and low capability. These are less urgent for AI agent development.
  • 下記の研究結果ともあわせてAIを使い続けていくと傾向が変わったりするのか、気になるところ。
  • Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task [17.6]
    本研究は、教育文脈における大規模言語モデル(LLM)の使用が認知負荷に与える影響を調査しました。54人の参加者を対象に、LLM、検索エンジン、脳のみのグループに分け、脳波(EEG)を用いて神経活動を記録し、学習効果を測定しました。結果として、LLM群は他のグループと比較して認知的なネットワーク接続が弱く、学習スキルの低下が見られ、AIが学習環境に与える影響の理解に向けた初歩的な指針を提供することを目指しています。
    論文  参考訳(メタデータ)   (Tue, 10 Jun 2025 15:04:28 GMT)
  • AIの活用が人間にどのような影響を与えるか、教育関連の報告。「As the educational impact of LLM use only begins to settle with the general population, in this study we demonstrate the pressing matter of a likely decrease in learning skills based on the results of our study. The use of LLM had a measurable impact on participants, and while the benefits were initially apparent, as we demonstrated over the course of 4 months, the LLM group’s participants performed worse than their counterparts in the Brain-only group at all levels: neural, linguistic, scoring.」とやや怖い結果になっている。
  • プロジェクトサイトはYour Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task
  • Protecting Human Cognition in the Age of AI [2.1]
    ジェネレーティブAI(GenAI)の急速な普及は、人間の認知に大きな影響を及ぼしており、情報との関わり方や思考、学習の仕方を再構築しています。本稿では、特に学生などの初心者に焦点を当て、効果的な人間とAIの相互作用を理解する重要性を強調し、批判的思考を促進する教育体験の再設計について考察しています。また、GenAIが認知能力に与える影響や、情報過多などの社会的要因との相互作用についても探求しています
    論文  参考訳(メタデータ)   (Fri, 11 Apr 2025 21:14:29 GMT)
  • 短めだがSurvey的な論文。

Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning 

  • Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.5]
    我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists’ First Exam (SFE) ベンチマークを提示する。 SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。 実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
    論文  参考訳(メタデータ)   (Thu, 12 Jun 2025 09:29:16 GMT)
  • 「we introduce the Scientists’ First Exam (SFE) benchmark, designed to comprehensively evaluate the scientific cognitive capabilities of MLLMs through three cognitive levels (cog-levels): Scientific Signal Perception (L1) characterizes the capacity to discern critical components within visualizations of scientific raw data; Scientific Attribute Understanding (L2) demonstrates the ability to interpret domain-expert knowledge; Scientific Comparative Reasoning (L3) manifests the ability to derive phenomenological insights through structured comparison of multiple scientific visual sources. SFE encompasses 66 expert-curated, high-value multimodal tasks across five disciplines: Astronomy, Chemistry, Earth, Life, and Materials Sciences (Fig. 1b).」というベンチマーク。MLLM向け、VQAとして構成されている。
  • リポジトリはPrismaX/SFE · Datasets at Hugging Face、プロジェクトサイトはPrismaX

Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence 

  • Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.3]
    Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。 多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。 その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
    論文  参考訳(メタデータ)   (Wed, 18 Jun 2025 17:58:17 GMT)
  • 「we introduce EMBODIED WEB AGENTS as a new conceptual paradigm of AI systems that unify physical embodiment with web-scale knowledge access — capable of perceiving and acting in the real world while reasoning over dynamic, unstructured information from the web.」という提案。ベンチマークも構築されている。よくありそうなシチュエーションだが、現時点では先端モデルも苦戦する難しいタスクとなっている。
  • リポジトリはEmbodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

Counterfactual reasoning: an analysis of in-context emergence

  • Counterfactual reasoning: an analysis of in-context emergence [49.6]
    大規模ニューラルネットワークモデル(LM)は、文脈内学習において顕著な性能を示す。 この研究は、言語モデルにおける文脈内対実的推論、すなわち仮説的シナリオの下での変化の結果を予測することを研究する。
    論文  参考訳(メタデータ)   (Thu, 05 Jun 2025 16:02:07 GMT)
  • 「we provide insights into how in-context counterfactual reasoning is equivalent to transformations on in-context observations (Lemma 1). 」、「 we empirically show that language models can perform in-context counterfactual reasoning」とのこと。

GUIPilot: A Consistency-based Mobile GUI Testing Approach for Detecting Application-specific Bugs

Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy 

  • Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy [0.0]
    大規模言語モデル(LLM)は、財務文書の分析を通じて信用リスクの評価を可能にする。 本稿では、信用リスク推定におけるLSMに基づくアプローチに着目した、最初の体系的レビューと分類について述べる。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 10:24:40 GMT)
  • LLMを使った信用リスク評価のサーベイ

Agents of Change: Self-Evolving LLM Agents for Strategic Planning

  • Agents of Change: Self-Evolving LLM Agents for Strategic Planning [17.7]
    我々は、シンプルなゲームプレイングエージェントから、自身のプロンプトとプレイヤーエージェントのコードを自動で書き直すことができるシステムまで、LSMベースのエージェントの進歩をベンチマークする。 以上の結果から,特にClaude 3.7 や GPT-4o などのモデルによって駆動される自己進化型エージェントは,その戦略を自律的に採用することで,静的ベースラインを上回っていることがわかった。
    論文  参考訳(メタデータ)   (Thu, 05 Jun 2025 05:45:24 GMT)
  • カタンの開拓者を対象として Self-Evolving Agent Frameworkの提案と検証。
  • 「Through extensive experiments, we show that agents capable of prompt and code evolution achieve consistently higher performance than static baselines. The PromptEvolver, in particular, outperforms fixed agents across key metrics, and its gains are amplified when paired with stronger base models, seen in Claude 3.7’s 95% improvement from the BaseAgent」とのこと。PromptEvolverには「Evolver Agent: Provided with access to game results, evolution history, and tools to search the web, view local files, and edit the Player Agent’s prompt.」が含まれている。
  • プロンプトやコードといった思考能力たるWeight外のself-improveも十分効果的のよう。(ICLが有効と考えれば一定思考能力を改善しているともいえるのか・・・?)

Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

  • Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills [57.7]
    本稿では,知識不足の問題に対処するため,階層型マルチモーダルスキル(HMS)モジュールを提案する。 トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。 ドメインギャップを埋めるために,Skill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
    論文  参考訳(メタデータ)   (Thu, 12 Jun 2025 06:21:19 GMT)
  • 「Hierarchical Multimodal Skills (HMS) module for long-horizon planning」、「A Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm for knowledge exploration in online settings.」をキーとするcross-platform, plug-and-play GUI agent、Mirage-1の提案
  • プロジェクトサイトはMirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills