- Top Ten Challenges Towards Agentic Neural Graph Databases [56.9]
Neo4jやTigerGraphのようなグラフデータベース(GDB)は相互接続されたデータを扱うのが得意だが、高度な推論機能が欠けている。 本稿では,NGDBを3つのコア機能で拡張するエージェント型ニューラルネットワークデータベース(Agentic NGDB)を提案する。
論文 参考訳(メタデータ) (Fri, 24 Jan 2025 04:06:50 GMT) - Agentic Neural Graph Databases 実現のための課題整理
投稿者: staka
Wizard of Shopping: Target-Oriented E-commerce Dialogue Generation with Decision Tree Branching
- Wizard of Shopping: Target-Oriented E-commerce Dialogue Generation with Decision Tree Branching [39.5]
会話型商品検索(CPS)の目的は、インテリジェントなチャットベースのショッピングアシスタントを開発することである。 本稿では,大規模言語モデル(LLM)を利用して,現実的で自然な会話を生成する新しい手法TRACERを提案する。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 00:27:13 GMT) - 「We leverage decision tree to explore the vast product search space, and construct a dialogue plan that minimizes the number of search steps required to retrieve a relevant product.」という会話生成手法の提案
- 直接生成せずに木構造を介すというアプローチはCondor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement – arXiv最新論文の紹介に近いのだろうか。
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.9]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。 通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (Fri, 24 Jan 2025 13:48:10 GMT) - LLMの批判能力を評価するためのベンチマークの提案、「We investigate three distinct scenarios: self-critique, crosscritique, and iterative critique. Our findings reveal that in nearly all cases, the o1-mini model demonstrates the most impressive performance.」とのこと。
- リポジトリはGitHub – tangzhy/RealCritic
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
- TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8]
本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。 TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。 これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 05:51:25 GMT) - 「TAID reduces the gap between teacher and student model throughout the training process by dynamically introducing an intermediate teacher that interpolates teacher and student models to provide a target distribution with a modest capability」という蒸留法の提案
- ニュースリリースは新手法「TAID」を用いた小規模日本語言語モデル「TinySwallow-1.5B」の公開、リポジトリはTinySwallow – a SakanaAI Collection
- Deepseek R1のようにライセンス上蒸留を許可しているLRM/LLMが出てきたことによるこの手の手法の重要性が上がっているように思う。
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
- MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.8]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 14:07:56 GMT) - Medical分野のベンチマーク。o1だけでなくDeepseek R1の結果も載っており、対応が速い。この結果だとo1はDeepseek R1より大幅にスコアが高い。
- リポジトリはGitHub – TsinghuaC3I/MedXpertQA: MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
Teaching Language Models to Critique via Reinforcement Learning
- Teaching Language Models to Critique via Reinforcement Learning [59.4]
我々は、CTRLでトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。 また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
論文 参考訳(メタデータ) (Wed, 05 Feb 2025 02:18:46 GMT) - 「two-stage training approach: (1) synthesizing high-quality critiques by reasoning about execution feedback, then (2) refining the critic through reinforcement learning.」という2ステージ構成、強化学習(GRPO)を活用したcriticモデルの構築。
- プロジェクトサイトはCTRL: Critic Training via Reinforcement Learning
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
- Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.7]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。 我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (Thu, 06 Feb 2025 18:59:55 GMT) - MLLMの公開モデル、既存の同規模のモデルと比較して性能が高く、マルチモーダルさも大きい(この論文ではOmni Modalと表現)
- プロジェクトサイトはOla、モデルはTHUdyh/Ola-7b · Hugging Face
DeepRAG: Thinking to Retrieval Step by Step for Large Language Models
- DeepRAG: Thinking to Retrieval Step by Step for Large Language Models [92.9]
我々はマルコフ決定過程(MDP)として検索強化推論をモデル化するDeepRAGを提案する。 クエリを反復的に分解することで、DeepRAGは外部知識を取得するか、あるいは各ステップでパラメトリック推論に依存するかを動的に決定する。 実験の結果、DeepRAGは解答精度を21.99%向上させ、検索強化推論の最適化の有効性を示した。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 08:22:45 GMT) - 「(1) Binary Tree Search, (2) Imitation Learning, and (3) Chain of Calibration.」とかなり凝ったRAG。精度向上に効果があるのはそうだろうと思うが・・・。
Large Language Model Critics for Execution-Free Evaluation of Code Changes
- Large Language Model Critics for Execution-Free Evaluation of Code Changes [5.2]
大規模言語モデル(LLM)は、ソフトウェアエンジニアリングタスクを自動化するための有望な方法を提供する。 ビルド状況や時折のログ分析などを評価するための既存のメトリクスは、変更の質を評価するのに必要な情報を提供するには不十分で制限されています。 本研究では,LLMをベースとした批判者に対して,コード変更の実行可能性に対する厳密で厳密な中間レベル/ステップレベルの,実行不要な評価プロキシを導出する設計を行った。
論文 参考訳(メタデータ) (Tue, 28 Jan 2025 02:38:56 GMT) - 「We introduce our test-centric framework utilizing isolated, test-aware LLM critics, which leverage a candidate patch against each associated test individually to predict whether the patch helps that test pass or not.」
- リポジトリはGitHub – amazon-science/code-agent-eval: Implemental for the paper “Large Language Model Critics for Execution-Free Evaluation of Code Changes”
Gemini 2.0: Flash, Flash-Lite and Pro, OpenAI deep research
毎週様々なニュースが発表されるが、先週はGoogleのGemini 2.0シリーズのニュースが大きかった。特にFlash Liteはdeepseek と競争的な価格のAPIであり価格競争の面でも大きなニュースだった。Gemini 2.0: Flash, Flash-Lite and Pro – Google Developers Blog、Xユーザーのswyx 🔜 @aidotEngineer NYCさん: 「With Gemini 2.0 GA pricing/benchs, it’s official: @GoogleDeepMind has the Mandate of Heaven. https://t.co/pfOlxb57Yx」 / X
OpenAIはDeep researchを発表、これもPerplexityなど競合するサービスはあるもののOpenAI自ら発表したこと、性能が高いことなどもあって大きな話題になった。Introducing deep research | OpenAI
APIは強烈な価格競争が起きていて、OpenAIもアプリレイヤで戦わざるを得ないのか、それとも大きな目標に必要な動きなのかなど詳細は不明だが、LLMのコスパ向上、便利なアプリケーションの登場はユーザサイドにとってはありがたい。(一方でスタートアップにとっては…)