- The Self-Execution Benchmark: Measuring LLMs’ Attempts to Overcome Their Lack of Self-Execution [13.6]
大規模言語モデル(LLM)は、知識や推論能力をテストするタスクで一般的に評価される。 本稿では、モデルが出力の特性を予測できる能力を測定するセルフ実行ベンチマークを紹介する。 私たちの実験では、モデルが一般的にこのベンチマークではパフォーマンスが悪く、モデルのサイズや能力が向上しても、常にパフォーマンスが向上するとは限らないことが示されています。
論文 参考訳(メタデータ) (Sun, 17 Aug 2025 07:57:58 GMT) - 「Since LLMs lack the ability to execute themselves, we introduce the Self-Execution Benchmark, which measures a model’s ability to anticipate properties of its output, such as whether a question will be difficult for it, whether it will refuse to answer, or what kinds of associations it is likely to produce. Our experiments show that models generally perform poorly on this bench- mark, and that increased model size or capability does not consistently lead to better performance.」という変わったベンチマーク。メタな視点になっていて結果を含めとても興味深い。
- リポジトリはGitHub – anon-researcher-2025/Self-Execution-Benchmark
投稿者: staka
PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs
- PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs [16.6]
PosterGenはプロのポスターデザイナーのワークフローを反映したマルチエージェントフレームワークである。 意味的に根拠があり、視覚的に魅力的であるポスターを制作する。 実験の結果,PosterGenはコンテントの忠実度に一貫して一致し,ビジュアルデザインの既存手法よりも優れていた。
論文 参考訳(メタデータ) (Sun, 24 Aug 2025 02:25:45 GMT) - 論文からポスターを生成するマルチエージェントフレームワークの提案
- リポジトリはGitHub – Y-Research-SBU/PosterGen: Official Code for PosterGen
Mimicking the Physicist’s Eye:A VLM-centric Approach for Physics Formula Discovery
- Mimicking the Physicist’s Eye:A VLM-centric Approach for Physics Formula Discovery [98.6]
VIPERR-aq1は、方程式推論のための視覚誘導を行うマルチモーダルモデルである。 視覚知覚、軌跡データ、象徴的推論を統合し、科学的発見過程をエミュレートする。 常に最先端のVLMベースラインを精度と解釈性で上回る。
論文 参考訳(メタデータ) (Sun, 24 Aug 2025 14:34:21 GMT) - 物理方程式発見タスクへの取り組み。PostTrainingによってフロンティアなモデルを超える性能。「Our framework draws inspiration from human scientific reasoning and follows a two-stage pipeline. In the first stage, Motion Structure Induction (MSI), the model undergoes Supervised Fine- Tuning (SFT), learning to interpret kinematic evidence under joint supervision of Chain-of-Thought (CoT) rationales and ground-truth equations, before producing initial symbolic hypotheses guided by causal CoT prompts. In the second stage, Reward-Guided Symbolic Calibration (RGSC), reinforcement learning with Group Relative Policy Optimization (GRPO) (Shao et al , 2024) re- fines these hypotheses using a structural reward function that favors topological correctness over」というフレームワークとのこと。
- プロジェクトサイトはVIPER-R1: Mimicking the Physicist’s Eye
A Survey on Large Language Model Benchmarks
- A Survey on Large Language Model Benchmarks [45.0]
一般的な能力ベンチマークは、中核言語学、知識、推論などの側面をカバーする。 ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てている。 ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
論文 参考訳(メタデータ) (Thu, 21 Aug 2025 08:43:35 GMT) - 「We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain- specific, and target-specific.」とベンチマークのサーベイ
- LLMの動きを広範に知るため様々なベンチマークが作られており、これら調査は非常にありがたい。
LiveMCP-101, MCP-Universe, MCP-Bench
MCPに関するベンチマークがでていた。両ベンチマークともGPT-5の性能が高いとのことだが、多くのMCPサーバや周辺ツール・ライブラリがGPT-4/4.1/4.5/5などに対してチューニングされている面もあるように思わなくもない。
- LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries [38.6]
提案するLiveMCP-101は,リアルタイムクエリを慎重にキュレートした101のベンチマークである。 実験により、フロンティアのLLMでさえ60%未満の成功率を達成することが示された。 LiveMCP-101は現実世界のエージェント能力を評価するための厳格な標準を設定している。
論文 参考訳(メタデータ) (Thu, 21 Aug 2025 17:55:54 GMT) - 「we present LiveMCP-101, a benchmark of 101 carefully curated real-world queries, refined through iterative LLM rewriting and manual review, that require coordinated use of multiple MCP tools including web search, file operations, mathematical reasoning, and data analysis.」というベンチマーク。
- GPT-5の性能が高い。
- MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.0]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。 私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。 GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (Wed, 20 Aug 2025 13:28:58 GMT) - こちらも「we introduce MCP-Universe, the first comprehensive benchmark specifically designed to evaluate LLMs in realistic and hard tasks through interaction with real-world MCP servers. Our benchmark encompasses 6 core domains spanning 11 different MCP servers: Location Navigation, Repository Management, Financial Analysis, 3D Design, Browser Automation, and Web Searching.」とMCPのベンチマーク、GPT-5の性能が高い。
- プロジェクトサイトはMCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers、リポジトリはGitHub – SalesforceAIResearch/MCP-Universe: MCP-Universe is a comprehensive framework designed for developing, testing, and benchmarking AI agents
- MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers [24.7]
MCP-Benchは、大規模言語モデル(LLM)を現実的なマルチステップタスクで評価するためのベンチマークである。 MCP-Bench は Model Context Protocol (MCP) 上に構築されており、金融、旅行、科学計算、学術検索などの分野にまたがる250のツールにまたがる28のライブ MCP サーバに LLM を接続している。
論文 参考訳(メタデータ) (Thu, 28 Aug 2025 05:58:57 GMT) - アクセンチュアによるベンチマーク。GPT-5、o3、GPT-OSS 120B、Gemini 2.5 Pro、Claude sonnet 4と続く結果。
- 感覚とかなり異なる印象でMCPサーバ側がGPT系モデルに寄せている気がする
- リポジトリはGitHub – Accenture/mcp-bench: MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
OneRec-V2 Technical Report
- OneRec-V2 Technical Report [93.9]
OneRecは、自己回帰生成タスクとしてレコメンデーションを再構築し、高いモデルFLOPの利用を達成する。 Lazy Decoder-Only Architecture: エンコーダボトルネックを排除し、全体の計算を94%削減し、トレーニングリソースを90%削減する。 現実のユーザインタラクションによる優先度調整: ユーザの好みに合うように、継続意識のリワードシェイピングとアダプティブ比クリッピングを組み込む。
論文 参考訳(メタデータ) (Thu, 28 Aug 2025 15:29:51 GMT) - ARモデルを用いたレコメンデーション
- 「Scaling: Although we observed a continuous decrease in loss as the model scaled from 0.1B to 8B, the downward trend does not strictly adhere to scaling laws (Kaplan et al , 2020)」とのことだが、それっぽい挙動は見えているのが面白い。
MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents
- MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents [123.1]
MoNaCoは、1,315の自然で複雑な質問のベンチマークであり、解決には数十、数百の中間ステップが必要である。 我々の結果は、現実世界の情報検索の複雑さと厳密さに対処する推論モデルの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (Fri, 15 Aug 2025 00:58:10 GMT) - 「we introduce MONACO, a benchmark of 1,315 natural and complex questions that require dozens, and at times hundreds, of intermediate steps to solve — far more than any existing QA benchmark.」というベンチマーク。ベンチマーク構築自体が大変になっているという印象。
- 結果としてはGPT-5よりもo3の性能の方が高いのが興味深い。
- リポジトリはGitHub – tomerwolgithub/monaco: https://huggingface.co/datasets/allenai/MoNaCo_Benchmark、データはallenai/MoNaCo_Benchmark · Datasets at Hugging Face
Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
- Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。 本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。 我々はエージェントモデルを,GAIA検証でトップ1に達するMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 13:32:12 GMT) - 「Memento formalises deep research agents as a memory-based Markov Decision Process (MDP) and implements it within a planner–executor framework, leveraging an episodic case bank to record and retrieve trajectories for continual policy improvement.」というメモリ機構を持つエージェントフレームワークの提案。
- リポジトリはGitHub – Agent-on-the-Fly/Memento: Official Code of Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit
- Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.8]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。 推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。 我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 03:17:17 GMT) - overthinking対策のため、</think>出現の監視は不十分として、推論終了ポイント Reasoning Completion Point (RCP)を検知するタスクを提案。推論過程をinsufficient exploration stage, compensatory reasoning stage, reasoning convergence stageに分類し、2ステージ目の終了時点をRCPとしている。
- 「We explicitly define the Reasoning Completion Point and propose a clear analytical framework for determining the optimal termination point in reasoning. Leveraging feature importance analysis via CatBoost models, we further mine common signals indicative of reasoning completion, from which we distill a concise and efficient set of heuristic rules named Reasoning Completion Point Detection. This rule set precisely identifies RCP with minimal computational over- head, effectively mitigating overthinking in LLMs.」とのこと。トークン数削減だけなく、推論性能上も有利なのが興味深い。
Grok 2.5, HERMES 4, InternVL3.5, VIBEVOICE
先週は公開モデルに関する話題が多かった。X.aiからはアナウンス通りGrok2のウェイトが公開された(https://x.com/elonmusk/status/1959379349322313920 / xai-org/grok-2 · Hugging Face)。Grok3も半年程度で公開とのこと。HERMES, InternVLからも新しいモデルが出ている。アプローチは様々とはいえ、着々とモデルを構築しフロンティアに追いついているのは凄いことである。Microsoft ResearchからはText-to-SpeechのOSSモデルが公開された(VibeVoice)。特化型を使う場面も多々残っていてありがたい。
- InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [245.9]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。 主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。 我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 17:58:17 GMT) - InternVLの最新版。LLM部分のベースモデルとしてQwen3シリーズとGPT-OSSを使用。GPT-OSS-20B, Qwen3-30B-A3Bの比較も興味深い。(パラメータサイズの差かQwen3の方が性能が高い。)
- リポジトリはOpenGVLab/InternVL3_5-241B-A28B · Hugging Face
- Hermes 4 Technical Report [7.6]
Hermes 4は、構造化されたマルチターン推論と幅広い命令追従能力を組み合わせたハイブリッド推論モデルのファミリーである。 データキュレーション、合成、トレーニング、評価で直面する課題について述べ、これらの課題を大規模に解決するためのソリューションの概要を述べる。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 17:45:06 GMT) - リポジトリはHermes 4 Collection – a NousResearch Collection
- VibeVoice Technical Report [90.1]
VibeVoiceは、複数の話者で長めの音声を合成するために設計されたモデルである。 本稿では,エンコーデックモデルと比較した場合,データ圧縮を80倍改善する新しい連続音声トークンを提案する。
論文 参考訳(メタデータ) (Tue, 26 Aug 2025 17:09:12 GMT) - リポジトリはGitHub – microsoft/VibeVoice: Frontier Open-Source Text-to-Speech