コンテンツへスキップ
- EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs [53.4]
EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。 我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
論文 参考訳(メタデータ) (Sun, 23 Nov 2025 13:39:01 GMT)
- MLLMのイベントに対する評価(understanding (i.e., detailed understanding), recognition (i.e., action recognition, gesture recognition, and event OCR)など)ベンチマーク。
- リポジトリはEventBench
- InnoGym: Benchmarking the Innovation Potential of AI Agents [74.6]
InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGymは2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 16:03:04 GMT)
- 「InnoGym consists of two complementary components: iBench, a benchmark designed to evaluate innovation capability, and iGym, a unified development and execution environment. iBench covers 18 carefully curated tasks drawn from real-world engineering and theoretical problems. We focus only on Improvable Tasks, which leave clear room for improvement in both solution quality and methodology.」というAIエージェントがイノベーションを起こせるかを計測しようとするベンチマーク
- リポジトリはhttps://github.com/zjunlp/igym
- H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons [56.3]
大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定 同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。 行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 15:32:14 GMT)
- 「Our investigation reveals that a remarkably sparse subset of neurons – comprising less than 0.1% of the model’s total neurons – can accurately predict whether the model will produce hallucinated responses. We refer to these predictive neurons as H-Neurons.」、「Our neuron-centric investigation reveals that hallucinations are rooted in the model’s computational architecture and training objectives. 」など興味深い指摘。