Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning 

  • Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.7]
    Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。 Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
    論文  参考訳(メタデータ)   (Thu, 24 Apr 2025 12:32:13 GMT)
  • 「We introduce Plasticine, the first open-source framework for benchmarking plasticity optimization in deep RL.」というベンチマーク。
    • 「plasticity loss, a phenomenon in which neural networks in RL agents gradually lose their ability to adapt and incorporate new information as training progresses (Dohare et al , 2024; Klein et al , 2024), thus significantly impeding the development of truly lifelong learning agents (Lyle and Pascanu, 2024).」
  • リポジトリはGitHub – RLE-Foundation/Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning.

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

  • VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.0]
    VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。 これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。 ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
    論文  参考訳(メタデータ)   (Mon, 21 Apr 2025 17:59:53 GMT)
  • 「We propose a challenging visual reasoning benchmark that is inherently difficult to articulate using language, providing a more rigorous evaluation of the visual reasoning capabilities of MLLMs.」というベンチマークの提案。商用APIのスコアも良くなく、非常に難しいベンチマークになっている。
  • リポジトリはVisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities

  • UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.8]
    UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。 本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。 複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
    論文  参考訳(メタデータ)   (Tue, 29 Apr 2025 13:18:58 GMT)
  • マルチモーダルなRAGに対応するため「UniversalRAG dynamically determines the most suitable knowledge source to retrieve from, based on the modality requirement of the given query, then routes the retrieval process to the corresponding modality-specific corpus.」というアプローチ。ルーターは「Training-free Router(実験ではGPT-4o)」と「Trained Router (実験ではDistilBERT 、T5-Large)」が試されていて平均的にはTrained Routerが優勢に見える。
  • プロジェクトサイトはUniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities