- R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution [60.8]
R&D-Agentは反復探索のための二重エージェントフレームワークである。 Researcherエージェントはパフォーマンスフィードバックを使用してアイデアを生成し、Developerエージェントはエラーフィードバックに基づいてコードを洗練する。 R&D-AgentはMLE-Benchで評価され、最高のパフォーマンスの機械学習エンジニアリングエージェントとして登場した。
論文 参考訳(メタデータ) (Tue, 20 May 2025 06:07:00 GMT) - GitHub – openai/mle-bench: MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineeringでSoTAを主張、「the framework employs two specialized agents – the “Researcher” and the “Developer” – which correspond to the two types of feedback provided in each exploration step: solution performance and execution error information.」という構成。現実に近いような。。。
- リポジトリはGitHub – microsoft/RD-Agent: Research and development (R&D) is crucial for the enhancement of industrial productivity, especially in the AI era, where the core aspects of R&D are mainly focused on data and models. We are committed to automating these high-value generic R&D processes through R&D-Agent, which lets AI drive data-driven AI. 🔗https://aka.ms/RD-Agent-Tech-Report
Hand-Shadow Poser
- Hand-Shadow Poser [119.0]
手影芸術は、創造的に手影を使って、壁の表現的な形を再現する、魅惑的な芸術形式である。 本研究では,対象の形状が与えられた場合,入力に類似した影を生成する左右の手のポーズを求める。 これらの課題に対処するために、3段階のパイプラインであるHand-Shadow Poserを設計し、(手で)解剖学的制約と(シャドー形状で)意味論的制約を分離します。
論文 参考訳(メタデータ) (Sun, 11 May 2025 15:15:35 GMT) - 手で作る影絵に関する研究。「This problem is nontrivial, since the design space of 3D hand poses is huge while be- ing restrictive due to anatomical constraints. Also, we need to attend to the input’s shape and crucial features, though the input is colorless and textureless.」と実行可能性まで考えると意外と難しいタスクらしい。
- リポジトリはGitHub – hxwork/HandShadowPoser: SIGGRAPH 2025
Benchmarking LLMs’ Swarm intelligence
- Benchmarking LLMs’ Swarm intelligence [50.5]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。 既存のベンチマークは、エージェントが不完全な時間的情報を扱うときに生じる分散調整のユニークな課題を完全には捉えないことが多い。 分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
論文 参考訳(メタデータ) (Wed, 07 May 2025 12:32:01 GMT) - 「we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks (Pursuit, Synchronization, For- aging, Flocking, Transport) within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k × k view) and local communication.」というベンチマークの提案。
- リポジトリはGitHub – RUC-GSAI/YuLan-SwarmIntell: 🐝 SwarmBench: Benchmarking LLMs’ Swarm Intelligence
EcoLANG: Efficient and Effective Agent Communication Language Induction for Social Simulation
- EcoLANG: Efficient and Effective Agent Communication Language Induction for Social Simulation [49.8]
大規模言語モデル(LLM)は、人間をロールプレイし、複雑な社会力学を再現する印象的な能力を実証している。 分散メカニズムやハイブリッドエージェントベースモデル(ABM)統合のような既存のソリューションは、推論コストや妥協精度、一般化可能性に対処できない。 社会シミュレーションのための効率的かつ効果的なエージェントコミュニケーション言語インジェクションであるEcoLANGを提案する。
論文 参考訳(メタデータ) (Sun, 11 May 2025 08:51:56 GMT) - LLM basedな社会シミュレーションでまずコミュニケーション方法を最適化してコストパフォーマンスを上げようという研究。「EcoLANG operates in two stages: (1) language evolution, where we filter synonymous words and optimize sentence-level rules through natural selection, and (2) language utilization, where agents in social simulations communicate using the evolved language.」という手順とのことで正確性を損なっていないとのことだが、本当にうまくいっているのだろうか・・・
- リポジトリはGitHub – xymou/EcoLANG
The Aloe Family Recipe for Open and Specialized Healthcare LLMs
- The Aloe Family Recipe for Open and Specialized Healthcare LLMs [0.5]
この研究は、データ前処理とトレーニングの重要な段階を最適化することで、オープン医療用LDMの分野に貢献する。 結果として得られたモデルは、最高のプライベートな代替品と競合することが示され、パーミッシブなライセンスでリリースされている。
論文 参考訳(メタデータ) (Wed, 07 May 2025 13:13:14 GMT) - ヘルスケア分野へのLLMの特化に関する報告。整理などを含めて参考になる。
Putting It All into Context: Simplifying Agents with LCLMs
- Putting It All into Context: Simplifying Agents with LCLMs [36.6]
足場やツールを含まないGemini-1.5-Proモデルでは,SWE-Bench-Verifiedでは38%を実現している。 Gemini-1.5-Proの非スキャフォールドアプローチは最も強力なエージェントアーキテクチャには及ばないが、同じ非スキャフォールドアプローチを使用するより有能なGemini-2.5-Proが直接50.8%の解率に達することを実証する。
論文 参考訳(メタデータ) (Mon, 12 May 2025 23:22:27 GMT) - ソフトウェア開発&LLMの分野ではAgenticなアプローチが流行っているが「the core of our workflow is the use of LCLMs that receive the entire code repository and directly outputs the solution (DIRECTSOLVE), analogous to standard zero-shot prompting tasks where LMs have demonstrated strong performance.」とlong context対応モデルの性能を信じたアプローチが有効であるとの報告。「We show that LCLMs can drastically simplify agent design on software engineering tasks, outperforming more complex pipelines by 3 – 6%, without any scaffolding or tools.」とのこと。
- RAG vs LCでもlong contextの有効性は知られていて、それとも整合的に見える。
- (とはいえRAGが必要な部分はある)
SITE: towards Spatial Intelligence Thorough Evaluation
- SITE: towards Spatial Intelligence Thorough Evaluation [121.1]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。 ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (Thu, 08 May 2025 17:45:44 GMT) - Spatial Intelligenceのベンチマーク。GPT-4oでも人間との差が大きい。(そしてInternVL-2.5-8Bのスコアが意外と高い)
- プロジェクトサイトはSITE: towards Spatial Intelligence Thorough Evaluation
Federated Learning for Cyber Physical Systems: A Comprehensive Survey
- Federated Learning for Cyber Physical Systems: A Comprehensive Survey [49.5]
近年,フェデレートラーニング(FL)が普及している。 この記事では、FLが、インテリジェントトランスポートシステム、サイバーセキュリティサービス、スマートシティ、スマートヘルスケアソリューションなど、重要なCPSアプリケーションでどのように利用されるのかを精査する。
論文 参考訳(メタデータ) (Thu, 08 May 2025 01:17:15 GMT) - 連合学習とサイバーフィジカルシステムに関するサーベイ
- 確かに相性はよさそう
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning
- J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [69.1]
このようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介する。 本手法は,判断バイアスを軽減し,思考にインセンティブを与える検証可能な報酬を用いて,検証可能なプロンプトと検証不可能なプロンプトの両方を判断タスクに変換する。 評価基準を概説し、自己生成した基準回答と比較し、モデル応答の正しさを再評価することにより、モデルがより良い判断を下すことが判明した。
論文 参考訳(メタデータ) (Thu, 15 May 2025 14:05:15 GMT) - Thinking-LLM-as-a-Judge modelsを構築するための強化学習レシピの提案。
- 「our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model.」とのこと。
- Assessing Judging Bias in Large Reasoning Models: An Empirical Study – arXiv最新論文の紹介など、LLM as a judgeなタスクでのLRM適用に効果があるという指摘はあったのでそれらと整合的な結果であるように思う。
Seed1.5-VL, Qwen3, MiMo, MiniMax-Speech, Aya Vision, BLIP3-o
BytedanceのSeek 1.5 VL、AlibabaのQwen3, XiaomiのMiMo、MiniMaxのMiniMaz-Speechと先週は中国の研究機関からの論文公開が多かった。また、CohereのAya Vision、SalesforceのBLIP3-o論文の公開もあり、LLM、MLLM関連はOpenAI一強という状態ではなくなっている。著者リストを見ると有力な研究者が複数所属する大規模なチームでモデル構築を行っているように見える。
- Seed1.5-VL Technical Report [237.8]
Seed1.5-VLは、汎用マルチモーダル理解と推論を促進するために設計されたビジョン言語基盤モデルである。 幅広いパブリックなVLMベンチマークと内部評価スイートで強力なパフォーマンスを提供する。 GUI制御やゲームプレイといったエージェント中心のタスクでは、Seed1.5-VLはOpenAI CUAやClaude 3.7など、主要なマルチモーダルシステムより優れている。
論文 参考訳(メタデータ) (Sun, 11 May 2025 17:28:30 GMT) - 「Despite its relatively compact architecture, it delivers strong performance across a wide spectrum of public VLM benchmarks and internal evaluation suites, achieving the state-of-the-art performance on 38 out of 60 public benchmarks. Moreover, in agent-centric tasks such as GUI control and gameplay, Seed1.5-VL outperforms leading multimodal systems, including OpenAI CUA and Claude 3.7.」を主張するMLLM
- Qwen3 Technical Report [138.0]
Qwenモデルファミリの最新バージョンであるQwen3を紹介します。 Qwen3は、性能、効率、多言語機能を向上させるために設計された一連の大規模言語モデル(LLM)から構成されている。
論文 参考訳(メタデータ) (Wed, 14 May 2025 13:41:34 GMT) - Qwen(Qwen3, Phi-4 reasoning, MiMo 7B, OLMo2 1B, Mellum 4B – arXiv最新論文の紹介)に関してarXivに投稿された論文
- リポジトリはGitHub – QwenLM/Qwen3: Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud.
- MiMo: Unlocking the Reasoning Potential of Language Model — From Pretraining to Posttraining [66.1]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。 最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (Mon, 12 May 2025 14:30:11 GMT) - リポジトリはGitHub – XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining
- Aya Vision: Advancing the Frontier of Multilingual Multimodality [16.0]
高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発した。 また,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。 我々の研究は、マルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げる技術に関する洞察を提供する。
論文 参考訳(メタデータ) (Tue, 13 May 2025 17:03:48 GMT) - リポジトリはCohere Labs Aya Vision – a CohereLabs Collection
- BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.2]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。 画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。 革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (Wed, 14 May 2025 17:11:07 GMT) - リポジトリはGitHub – JiuhaiChen/BLIP3o、BLIP3o/BLIP3o-Model · Hugging Face