コンテンツへスキップ
- GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [107.0]
大規模言語モデル(LLM)の適応には、強化学習(RL)手法が普及しており、特にGroup Relative Policy Optimization(GRPO)などが用いられます。しかし、これらの手法は数万回のロールアウトを必要とし、非効率的です。そこで提案されたGEPA(Genetic-Pareto)は、自然言語を活用して試行錯誤から高レベルのルールを学び、少数のロールアウトで質的な向上を達成し、GRPOやMIPROv2を平均して10%以上上回る性能を示しました。
論文 参考訳(メタデータ) (Fri, 25 Jul 2025 17:42:32 GMT)
- 「We introduced GEPA, a novel prompt optimizer for arbitrary LLM agents and workflows. GEPA leverages reflective prompt evolution and Pareto-based selection, showing superior sample efficiency compared to reinforcement learning (GRPO) alongside robust generalization, while outperforming leading prompt optimizers (MIPROv2).」、プロンプトチューニングを行うアプローチとGRPOを比べられるのかという疑問はありつつ、他のチューニング手法よりも性能が高いとのこと。
- Magentic-UI: Towards Human-in-the-loop Agentic Systems [34.5]
本稿では,ヒューマンエージェントインタラクションの開発と研究のためのオープンソースのWebインターフェースであるMagentic-UIを紹介する。 柔軟なマルチエージェントアーキテクチャに基づいて構築されたMagentic-UIは、Webブラウジング、コード実行、ファイル操作をサポートする。 エージェントベンチマークによる自律的なタスク補完、インタラクション機能のユーザテストのシミュレーション、実際のユーザとの質的研究、ターゲットとする安全性評価の4つの側面でMagentic-UIを評価した。
論文 参考訳(メタデータ) (Wed, 30 Jul 2025 03:49:14 GMT)
- 「Six interaction mechanisms designed to support low-cost, human-agent interaction in Magentic- UI: co-planning, co-tasking, action approval, answer verification, memory, and multi-tasking.」と人間と強調しながら動作するエージェント開発のためのフレームワーク。
- リポジトリはmicrosoft/magentic-ui: A research prototype of a human-centered web agent
- Your AI, Not Your View: The Bias of LLMs in Investment Analysis [55.3]
金融分野では、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違により、LLM(Large Language Models)は頻繁に知識紛争に直面している。 LLMに基づく投資分析において、確認バイアスの最初の定量的分析を行う。 われわれは、大口株に対する一貫した選好と、ほとんどのモデルにおけるコントラリアン戦略を観察する。
論文 参考訳(メタデータ) (Mon, 28 Jul 2025 16:09:38 GMT)
- LLMの投資に関するバイアスの定量的分析。
- 「The results show that LLMs are not neutral decision-makers, with distinct preferences for certain financial factors depending on the model. While sector preferences varied significantly across models, showing no overall trend, a common bias towards large- size stocks and a consistent preference for a contrarian investment view over momentum were observed.」というバイアスがあるというのと、「While the models correctly reversed their decisions when presented only with counter-evidence, their flexibility sharply decreased in situations where supporting and counter-evidence were mixed and conflicting.」とかなり頑固なよう。
- LLMに何かを判断させる際には細心の注意が必要。
- Yume: An Interactive World Generation Model [38.8]
Yumeは、画像やテキスト、ビデオを使って対話的でリアルでダイナミックな世界を作る。 入力画像から動的世界を生成し、キーボードアクションを使って世界を探索することができる。
論文 参考訳(メタデータ) (Wed, 23 Jul 2025 17:57:09 GMT)
- 「In this paper, we introduce a preview version of Yume, which is an interactive world generation model that allows the use of keyboard inputs to explore a dynamic world created by an input image. Moreover, it can do infinite video generation in an autoregressive manner.」と、いわゆる内心的なworld modelではなく、対話的に動画像を作っていくWorld generation modelの提案。
- リポジトリはstdstu12/YUME
- Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.6]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。 提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。 本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (Mon, 21 Jul 2025 13:19:09 GMT)
- 動画データからのVLAモデル構築、手の動作を離散的なトークンに変換して扱うなどパイプラインも興味深い。
- リポジトリはBeing-H0
- A Survey of Large Language Models in Discipline-specific Research: Challenges, Methods and Opportunities [33.7]
大規模言語モデル (LLM) は、多くの学際的な研究でその変容の可能性を示している。 本稿では,学際研究におけるLSMの適用について概観する。
論文 参考訳(メタデータ) (Fri, 11 Jul 2025 09:11:18 GMT)
- 「From the perspective of their applicability, this paper explores how LLMs are contributing to various disciplines including mathematics, physics, chemistry, biology, and the humanities and social sciences, demonstrating their role in discipline-specific tasks. The prevailing challenges are critically examined and the promising research directions are highlighted alongside the recent advances in LLMs.」というサーベイ。
- PPJudge: Towards Human-Aligned Assessment of Artistic Painting Process [15.4]
本研究では,絵画プロセスの人為的アセスメントのための新しい枠組みを提案する。 具体的には、実画像と合成画像からなる最初の大規模データセットであるペイントプロセスアセスメントデータセット(PPAD)を紹介する。 また、時間的に認識された位置符号化を付加したトランスフォーマーベースモデルPPJudgeを提案する。
論文 参考訳(メタデータ) (Sat, 12 Jul 2025 10:30:44 GMT)
- 「we introduce a dataset specifically designed for painting process assessment: the Painting Process Assessment Dataset (PPAD). It consists of approximately 15,000 real paintings and 10,000 synthetic paintings, each annotated by domain experts.」というデータセットと対応するモデルの提案。
- Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers [22.8]
本稿では,科学文献におけるスキーマ図の解釈能力を評価するための最初のベンチマークであるMIS-QAを紹介する。 MISS-QAは465以上の科学論文に1500の専門家が注釈を付けた例で構成されている。 我々は、o4-mini、Gemini-2.5-Flash、Qwen2.5-VLを含む18のフロンティアマルチモーダル基盤モデルの性能を評価する。
論文 参考訳(メタデータ) (Mon, 14 Jul 2025 20:35:25 GMT)
- 「We present MISS-QA, the first benchmark specifically designed to assess the ability of foundation models to comprehend schematic diagrams in scientific literature.」ということで、概念図等を理解するためのベンチマークの提案。o4-miniの性能が高めだが、人間との差は大きい。
- データはyale-nlp/MISS-QA · Datasets at Hugging Face、リポジトリはGitHub – yilunzhao/MISS-QA
- On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [55.0]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。 コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (Tue, 22 Jul 2025 13:40:26 GMT)
- コードの評価を対象としたLLM as a judgeの検証
- 「Our findings show that “small” LLMs struggle in judging tasks, with GPT-4-turbo being the model that achieves the best results. Still, even GPT-4-turbo frequently fails in assessing code correctness, while being a reliable judge of code summary quality.」とのこと。より新しいモデルでの結果が気になる。