EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs

  • EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs [53.4]
    EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。 我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
    論文  参考訳(メタデータ)   (Sun, 23 Nov 2025 13:39:01 GMT)
  • MLLMのイベントに対する評価(understanding (i.e., detailed understanding), recognition (i.e., action recognition, gesture recognition, and event OCR)など)ベンチマーク。
  • リポジトリはEventBench

InnoGym: Benchmarking the Innovation Potential of AI Agents 

  • InnoGym: Benchmarking the Innovation Potential of AI Agents [74.6]
    InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGymは2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 16:03:04 GMT)
  • 「InnoGym consists of two complementary components: iBench, a benchmark designed to evaluate innovation capability, and iGym, a unified development and execution environment. iBench covers 18 carefully curated tasks drawn from real-world engineering and theoretical problems. We focus only on Improvable Tasks, which leave clear room for improvement in both solution quality and methodology.」というAIエージェントがイノベーションを起こせるかを計測しようとするベンチマーク
  • リポジトリはhttps://github.com/zjunlp/igym

H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons 

  • H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons [56.3]
    大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定 同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。 行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 15:32:14 GMT)
  • 「Our investigation reveals that a remarkably sparse subset of neurons – comprising less than 0.1% of the model’s total neurons – can accurately predict whether the model will produce hallucinated responses. We refer to these predictive neurons as H-Neurons.」、「Our neuron-centric investigation reveals that hallucinations are rooted in the model’s computational architecture and training objectives. 」など興味深い指摘。

Guided Self-Evolving LLMs with Minimal Human Supervision

  • Guided Self-Evolving LLMs with Minimal Human Supervision [53.1]
    無誘導の自己進化システムは、しばしば訓練として素早く、または劣化する。 R-Fewはガイド付きセルフプレイチャレンジャー(Self-Play Challenger)買収フレームワークで、コンテキスト内接地と混合トレーニングを通じて、軽量な人間の監視を取り入れている。 R-Fewは、数学と一般的な推論ベンチマークで一貫した反復的な改善を実現している。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 07:06:11 GMT)
  • 「we introduce R-FEW, a guided Self-Play Challenger–Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic ques- tion generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements.」と最近よく見る共同進化的なフレームワークの提案。とても流行っていて有効なアプローチなのだと思う。

Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning

  • Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning [102.1]
    ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。 並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 15:35:31 GMT)
  • 「(i) generate K diverse reasoning traces up to a delimiter token, e g </think> (ii) after the delimiter, decode one shared answer sequence by averaging the next- token logits across all K reasoning contexts at every autoregressive step.」という複数の思考を束ねるTHINKMERGEの提案、性能向上を確認とのこと。

EmoRAG: Evaluating RAG Robustness to Symbolic Perturbations

  • EmoRAG: Evaluating RAG Robustness to Symbolic Perturbations [58.0]
    Retrieval-Augmented Generation (RAG)システムは、ますます堅牢なAIの中心になっている。 今回の研究では、微妙な象徴的な摂動に対する感受性という、批判的で見落とされがちな脆弱性が明らかになりました。 一つのエモティコンをクエリに注入することで、意味的に無関係なテキストを100%検索できることを示す。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 06:53:49 GMT)
  • 絵文字、顔文字のようなデータがRAGに大きな影響を与えるとの指摘。
    •  (I) Single- Emoticon Disaster: Even a single emoticon can catastrophically affect RAG systems, causing nearly 100% retrieval of semantically irrelevant content.
    • (II) Widespread Effectiveness: Around 83% of tested emoticons can induce such nearly 100% retrieval failures as mentioned above.
    • (III) Positional Sensitivity: Placing a single emoticon at the beginning of a query can cause severe perturbation, with F1-Scores exceeding 0.92 across all datasets.
    • (IV) Parameter- Scale Vulnerability: Larger models are significantly more sensitive to emoticon-induced perturbations, with F1-Scores almost always reaching 1.00 under perturbation.
    • (V) No Cross-Triggering: Specific emoticons only retrieve content containing the same emoticon, which may provide an attack vector for potential adversaries. 
  • リポジトリはGitHub – EmoRAG-code/EmoRAG

Are Your Agents Upward Deceivers? 

  • Are Your Agents Upward Deceivers? [73.1]
    大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。 これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。 本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 14:47:05 GMT)
  • 「We evaluate 11 widely used LLM-based agents (e g , Deepseek-v3.1-terminus (DeepSeek-AI, 2024), GLM- 4.5 (Zeng et al , 2025), Gemini-2.5-pro (Comanici et al , 2025)) on our task suite, and the results are striking: agen- tic upward deception is pervasive across all agents. They frequently guess, simulate outcomes, or silently switch in- formation sources when a task cannot be completed, yet still return confident and seemingly valid answers without flagging any anomalies. Most concerningly, several models even fabricate a file locally and disguise it as a successfully downloaded one.」との指摘。生成AIを使っているとしばしば目にする動きではあるが、整理されるとなかなかに衝撃的。
  • リポジトリはQingyuLiu/Agentic-Upward-Deception · GitHub

ThetaEvolve: Test-time Learning on Open Problems

  • ThetaEvolve: Test-time Learning on Open Problems [110.6]
    In-context LearningとReinforcement Learning(RL)の両方をテスト時に効率的にスケールするために、AlphaEvolveを単純化し拡張するオープンソースのフレームワークであるThetaEvolveを紹介します。 テスト時にRLを使用するThetaEvolveは、推論のみのベースラインよりも一貫して優れています。
    論文  参考訳(メタデータ)   (Fri, 28 Nov 2025 18:58:14 GMT)
  • 「We introduce ThetaEvolve, an open-source framework that simplifies and extends AlphaEvolve to efficiently scale both in-context learning and Reinforcement Learning (RL) at test time, allowing models to continually learn from their experiences in improving open optimization problems. ThetaEvolve features a single LLM, a large pro- gram database for enhanced exploration, batch sampling for higher throughput, lazy penalties to discourage stagnant outputs, and optional reward shaping for stable training signals, etc.」とOSS版AlphaEvolve的な研究。「(2) Surprisingly, we show that when scaling test-time compute with ThetaEvolve, a single open-source 8B model, DeepSeek-R1-0528-Qwen3-8B (DeepSeek-AI, 2025), can improve the best-known bounds of two open problems considered in AlphaEvolve」と効果を確認している。
  • リポジトリはGitHub – ypwang61/ThetaEvolve: ThetaEvolve: Test-time Learning on Open Problems

On Evaluating LLM Alignment by Evaluating LLMs as Judges

  • On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.2]
    大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。 本研究では,LLMの生成能力と評価能力の関係について検討した。 モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
    論文  参考訳(メタデータ)   (Tue, 25 Nov 2025 18:33:24 GMT)
  •  generation-evaluation consistency (GE-consistency)に注目した評価ベンチマークの提案。
  • リポジトリはGitHub – yale-nlp/AlignEval

Mistral 3, Deepseek V3.2, OpenRouter State of AI, Poetiq

先週の大きな話題はMistral3の発表(XユーザーのMistral AIさん: 「Introducing the Mistral 3 family of models: Frontier intelligence at all sizes. Apache 2.0. Details in 🧵 https://t.co/lsrDmhW78u」 / XIntroducing Mistral 3 | Mistral AI)とDeepSeek v3.2(deepseek-ai/DeepSeek-V3.2-Speciale · Hugging Face)だった。いずれも強力な公開モデルであり、フロンティアモデルに近い性能を主張している。新たなモデル発表が相次ぎ、実際の性能検証はこれからという感じではあるが、着実に研究が進展している感がある。

OpenRouterから発表されたState of AI | OpenRouterも興味深いレポートだった。(バイアスはあるのだろうが)コード生成によく用いられている点、多様なモデルが利用されている点など興味深い。

PoetiqからのARC-AGI-2のSoTA(XユーザーのPoetiqさん: 「Poetiq has officially shattered the ARC-AGI-2 SOTA 🚀 @arcprize has officially verified our results: – 54% Accuracy – first to break the 50% barrier! – $30.57 / problem – less than half the cost of the previous best! We are now #1 on the leaderboard for ARC-AGI-2! https://t.co/a8tPtCynVY」 / X)に関する発表も興味深かった。詳細な検証(他チームのものを含む)待ちの面はあるのだろうが、Agenticな処理や複数のLLMの組み合わせには現在でも効果があるように思える。

  • Introducing Mistral 3
    Mistral 3が発表され、14B、8B、3Bの3種類の小型モデルと、41Bのアクティブパラメータを持つ最強のMistral Large 3が公開されました。これらはすべてApache 2.0ライセンスのもとオープンソース化され、開発者コミュニティに強い基盤を提供します。また、Mistral Large 3は、最新のNVIDIA GPUを用いて訓練され、マルチモーダル・マルチリンガル処理において高い性能を発揮します。
  • Introducing Mistral 3 | Mistral AI
  • DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models [219.6]
    本稿では,より優れた推論とエージェント性能で高い計算効率を調和させるモデルであるDeepSeek-V3.2を紹介する。 計算複雑性を大幅に低減する効率的な注意機構であるDSAを導入する。 DeepSeek-V3.2は、堅牢な強化学習プロトコルを実装し、訓練後の計算をスケールすることにより、GPT-5と同等に動作する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 09:25:14 GMT)
  • DeepSeek Sparse Attentionなど、内部構造にも踏み込んだ論文。
  • 「(3) Large-Scale Agentic Task Synthesis Pipeline: To integrate reasoning into tool-use scenarios, we developed a novel synthesis pipeline that systematically generates training data at scale. This methodology facilitates scalable agentic post-training, yielding substantial improvements in generalization and instruction-following robustness within complex, interactive environments.」とAgenticな処理強化に力を入れている点にも注目。
  • State of AI | OpenRouter
    この一年は大規模言語モデル(LLM)の進化と実世界での利用において重要な転機となった。2024年12月に最初の広く採用された推論モデルo1が公開され、多段階の推論が可能になり、開発や実験が加速した。実際の使用に関するデータ分析により、オープンウェイトモデルの普及や創造的なロールプレイの人気など、多様な利用パターンが浮かび上がった。
  • State of AI | OpenRouter
  • Poetiq Shatters ARC-AGI-2 State of the Art at Half the Cost
    Poetiqは最新のGemini 3とGPT-5.1モデルを迅速に統合し、低コストで高精度な結果を実現しました。このシステムは、ARC-AGI-1およびARC-AGI-2において新しいパレートフロンティアを築き、従来を上回る性能を発揮しています。Poetiqはまた、運用の柔軟性を活かし、最適なモデルの組み合わせを自動的に選択する能力を持つメタシステムを開発しました。
  • Poetiq | ARC-AGI-2 SOTA at Half the Cost
  • Poetiq | Traversing the Frontier of Superintelligenceによれば「The prompt is an interface, not the intelligence: Our system engages in an iterative problem-solving loop. It doesn’t just ask a single question; it uses the LLM to generate a potential solution (sometimes code as in this example), receives feedback, analyzes the feedback, and then uses the LLM again to refine it. This multi-step, self-improving process allows us to incrementally build and perfect the answer.Self-Auditing: The system autonomously audits its own progress. It decides for itself when it has enough information and the solution is satisfactory, allowing it to terminate the process. This self-monitoring is critical for avoiding wasteful computation and minimizing costs.」とのこと。
  • リポジトリが公開されている、GitHub – poetiq-ai/poetiq-arc-agi-solver: This repository allows reproduction of Poetiq’s record-breaking submission to the ARC-AGI-1 and ARC-AGI-2 benchmarks.