コンテンツへスキップ
- On Path to Multimodal Generalist: General-Level and General-Bench [154.0]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。 フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。 既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (Wed, 07 May 2025 17:59:32 GMT)
- 「This leads to a critical question: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI?」に対する評価フレームワーク。自動運転のような大きく5段階のレベル設定を行っている。現時点では「Our evaluation of over 100 existing top-performing LLM/MLLM systems has uncovered critical insights into their capabilities and rankings as multimodal generalists. The most notable finding is that most MLLMs lack the cross-task or cross-modal synergy ability required for higher-level classifications, with even advanced models like GPT-4V and GPT-4o not achieving top ranks.」とのことだが…
- プロジェクトサイトはPath to Multimodal Generalist、リーダーボードはPath to Multimodal Generalist
下記サーベイも注目
- Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption [52.0]
そこで本研究では,大規模な言語モデルにおいて,チェーン・オブ・ディフェンシブ・思想と呼ばれる単純な手法を用いて,参照破損に対するロバスト性を大幅に向上したことを示す。 特に、メソッドの単純さと適用性を考えると、この改善は驚くべきものです。
論文 参考訳(メタデータ) (Tue, 29 Apr 2025 13:50:05 GMT)
- 「Number the references (if they are not already). 2.Include additional task instructions to firstly identify relevant and reliable contexts. 3. Before responses, insert structured reasoning steps that enunciates the indices of the relevant contexts (Irelevant) and the indices of reliable contexts (Ireliable).」というChain of defensive thoughtの提案
- 「In particular, we show how a wide range of large language models exhibit significantly improved robustness against reference corruption using a simple method called chain-of-defensive-thought, where only a few exemplars with structured and defensive reasoning are provided as demonstrations.」とのこと。
- A Survey of AI Agent Protocols [35.4]
大きな言語モデル(LLM)エージェントが外部ツールやデータソースと通信する標準的な方法はありません。 この標準化されたプロトコルの欠如は、エージェントが協力したり、効果的にスケールするのを難しくする。 LLMエージェントの統一通信プロトコルは、これを変更できる。
論文 参考訳(メタデータ) (Wed, 23 Apr 2025 14:07:26 GMT)
- 「In this paper, we provide a systematic overview of existing communication protocols for LLM agents.」とAgent間の通信プロトコルのサーベイ。
- 様々なモチベーションで設計も様々。
- Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.6]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。 しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。 私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (Mon, 28 Apr 2025 01:46:35 GMT)
- 「(1) Mem0 implements a novel paradigm that extracts, evaluates, and manages salient information from conversations through dedicated modules for memory extraction and updation. The system processes a pair of messages between either two user participants or a user and an assistant. (2) Mem0 extends this foundation by incorporating graph-based memory representations, where memories are stored as directed labeled graphs with entities as nodes and relationships as edges.」というグラフ構造を活用しつつ”記憶”を管理するLLM用メモリアーキテクチャの提案。
- プロジェクトサイトはScalable Long-Term Memory for Production AI Agents | Mem0
- Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.7]
Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。 Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
論文 参考訳(メタデータ) (Thu, 24 Apr 2025 12:32:13 GMT)
- 「We introduce Plasticine, the first open-source framework for benchmarking plasticity optimization in deep RL.」というベンチマーク。
- 「plasticity loss, a phenomenon in which neural networks in RL agents gradually lose their ability to adapt and incorporate new information as training progresses (Dohare et al , 2024; Klein et al , 2024), thus significantly impeding the development of truly lifelong learning agents (Lyle and Pascanu, 2024).」
- リポジトリはGitHub – RLE-Foundation/Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning.
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.0]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。 これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。 ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (Mon, 21 Apr 2025 17:59:53 GMT)
- 「We propose a challenging visual reasoning benchmark that is inherently difficult to articulate using language, providing a more rigorous evaluation of the visual reasoning capabilities of MLLMs.」というベンチマークの提案。商用APIのスコアも良くなく、非常に難しいベンチマークになっている。
- リポジトリはVisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
- UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.8]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。 本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。 複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (Tue, 29 Apr 2025 13:18:58 GMT)
- マルチモーダルなRAGに対応するため「UniversalRAG dynamically determines the most suitable knowledge source to retrieve from, based on the modality requirement of the given query, then routes the retrieval process to the corresponding modality-specific corpus.」というアプローチ。ルーターは「Training-free Router(実験ではGPT-4o)」と「Trained Router (実験ではDistilBERT 、T5-Large)」が試されていて平均的にはTrained Routerが優勢に見える。
- プロジェクトサイトはUniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities
- Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning [93.3]
DeepSeek-R1同様の学習パラダイムを用いた一連のツール利用言語モデルを開発した。 Nemotron-Research-Tool-N1は、ツール呼び出しの構造的妥当性と機能的正確性のみを評価するバイナリ報酬で最適化されている。 実験により、Qwen-2.5-7B/14B-Instruct上に構築されたNemotron-Research-Tool-N1-7BとNemotron-Research-Tool-N1-14Bが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (Fri, 25 Apr 2025 02:55:21 GMT)
- 「We introduces Nemotron-Research-Tool-N1, a series of tool-using language models trained with a rule-based reinforcement learning.」とルールベースの強化学習の有効性を確認した報告。
- リポジトリはGitHub – NVlabs/Tool-N1
- SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.6]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。 SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文 参考訳(メタデータ) (Sun, 27 Apr 2025 08:45:06 GMT)
- 「In this paper, we propose a self-play critic with the ability of detecting step-level LLMs reasoning errors. Specifically, we design a sneaky generator to produce incorrect steps and a critic to assess the correctness of each step. Through the adversarial game between these two models, we can continuously generate positive and negative samples for reinforcement learning.」というアプローチの提案。GANっぽいなと思う。
- プロジェクトサイトはSPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning