コンテンツへスキップ
- PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.9]
視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。 本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。 以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 03:52:39 GMT)
- VLMが物理を理解しているかを測るベンチマークとAgenticな physical world understandingフレームワーク、PhysAgentの提案。
- 現状の結果は意外なことに(?) o1 > InternVL2.5-38B > InternVL2.5-78B > GPT-4o > Gemini-1.5-pro
- プロジェクトサイトはPhysBench、データセットはUSC-GVL/PhysBench · Datasets at Hugging Face
- Top Ten Challenges Towards Agentic Neural Graph Databases [56.9]
Neo4jやTigerGraphのようなグラフデータベース(GDB)は相互接続されたデータを扱うのが得意だが、高度な推論機能が欠けている。 本稿では,NGDBを3つのコア機能で拡張するエージェント型ニューラルネットワークデータベース(Agentic NGDB)を提案する。
論文 参考訳(メタデータ) (Fri, 24 Jan 2025 04:06:50 GMT)
- Agentic Neural Graph Databases 実現のための課題整理
- Wizard of Shopping: Target-Oriented E-commerce Dialogue Generation with Decision Tree Branching [39.5]
会話型商品検索(CPS)の目的は、インテリジェントなチャットベースのショッピングアシスタントを開発することである。 本稿では,大規模言語モデル(LLM)を利用して,現実的で自然な会話を生成する新しい手法TRACERを提案する。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 00:27:13 GMT)
- 「We leverage decision tree to explore the vast product search space, and construct a dialogue plan that minimizes the number of search steps required to retrieve a relevant product.」という会話生成手法の提案
- 直接生成せずに木構造を介すというアプローチはCondor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement – arXiv最新論文の紹介に近いのだろうか。
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.9]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。 通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (Fri, 24 Jan 2025 13:48:10 GMT)
- LLMの批判能力を評価するためのベンチマークの提案、「We investigate three distinct scenarios: self-critique, crosscritique, and iterative critique. Our findings reveal that in nearly all cases, the o1-mini model demonstrates the most impressive performance.」とのこと。
- リポジトリはGitHub – tangzhy/RealCritic
- TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8]
本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。 TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。 これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 05:51:25 GMT)
- 「TAID reduces the gap between teacher and student model throughout the training process by dynamically introducing an intermediate teacher that interpolates teacher and student models to provide a target distribution with a modest capability」という蒸留法の提案
- ニュースリリースは新手法「TAID」を用いた小規模日本語言語モデル「TinySwallow-1.5B」の公開、リポジトリはTinySwallow – a SakanaAI Collection
- Deepseek R1のようにライセンス上蒸留を許可しているLRM/LLMが出てきたことによるこの手の手法の重要性が上がっているように思う。
- Teaching Language Models to Critique via Reinforcement Learning [59.4]
我々は、CTRLでトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。 また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
論文 参考訳(メタデータ) (Wed, 05 Feb 2025 02:18:46 GMT)
- 「two-stage training approach: (1) synthesizing high-quality critiques by reasoning about execution feedback, then (2) refining the critic through reinforcement learning.」という2ステージ構成、強化学習(GRPO)を活用したcriticモデルの構築。
- プロジェクトサイトはCTRL: Critic Training via Reinforcement Learning
- Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.7]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。 我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (Thu, 06 Feb 2025 18:59:55 GMT)
- MLLMの公開モデル、既存の同規模のモデルと比較して性能が高く、マルチモーダルさも大きい(この論文ではOmni Modalと表現)
- プロジェクトサイトはOla、モデルはTHUdyh/Ola-7b · Hugging Face
- DeepRAG: Thinking to Retrieval Step by Step for Large Language Models [92.9]
我々はマルコフ決定過程(MDP)として検索強化推論をモデル化するDeepRAGを提案する。 クエリを反復的に分解することで、DeepRAGは外部知識を取得するか、あるいは各ステップでパラメトリック推論に依存するかを動的に決定する。 実験の結果、DeepRAGは解答精度を21.99%向上させ、検索強化推論の最適化の有効性を示した。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 08:22:45 GMT)
- 「(1) Binary Tree Search, (2) Imitation Learning, and (3) Chain of Calibration.」とかなり凝ったRAG。精度向上に効果があるのはそうだろうと思うが・・・。