Model Context Protocol (MCP), QwQ, OLMo 2

先週も様々なニュースがあったが、注目はAnthropicのModel Context Protocolである。 Introducing the Model Context Protocol \ AnthropicIntroduction – Model Context Protocol

ザックリとはLLMと外部データやツールを統合するためのプロトコルである。外部ツール利用やメモリの拡張利用などを前提としたLLMを構築する場合、この手の標準があるかないかは重要。MCPがデファクトスタンダードとなれるか興味津々。

公開モデル関連では極めて性能の高いQwen with Questions(QwQ)、以前取り上げたDolmaとOLMo – arXiv最新論文の紹介のver 2であるOLMo 2に要注目である。O1 Replication JurneyやTULU3もだが、どのような手法、アプローチで性能が上がるのかなどをオープンにした取り組みの価値は高い。

  • O1 Replication Journey — Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson? [30.9]
    本稿では,OpenAIのO1モデル機能を複製する現在のアプローチについて,批判的な考察を行う。 O1のAPIからの単純な蒸留と教師付き微調整を組み合わせることで、複雑な数学的推論タスクにおいて優れた性能が得られることを示す。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 15:31:27 GMT)
  • OpenAI o1に関する研究、Fugu-MT 論文翻訳(概要): O1 Replication Journey: A Strategic Progress Report — Part 1からのPart2。「While our previous work (Part 1 (Qin et al , 2024)) explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1’s API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks.」はまぁいいとして「Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning.」は驚き。
  • リポジトリはGitHub – GAIR-NLP/O1-Journey: O1 Replication Journey: A Strategic Progress Report – Part I
  • TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.1]
    我々は、完全にオープンな最先端の訓練後モデルであるT”ULU 3を紹介する。 T”ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
    論文  参考訳(メタデータ)   (Fri, 22 Nov 2024 18:44:04 GMT)
  • リポジトリはGitHub – allenai/open-instruct

Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

  • Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS [25.6]
    HiAR-ICLは特定の例から抽象的な思考パターンへとシフトする。 適切な思考カードと動的に一致する認知複雑性フレームワークを開発する。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 16:19:00 GMT)
  • 「(1) define atom reasoning actions, (2) construct thought cards via MCTS, (3) select reasoning patterns, and (4) solve and verify」からなるICLフレームワークの提案。(1)では「System Analysis (SA)」「One-Step Thought (OST)」「Chain-of-Thought (CoT)」「Divide and Conquer (DC)」「(a5) Self-Reflection and Refinement (SRR)」の5種類を定義。
  • 「HiAR-ICL, a High-level Automated Reasoning paradigm in ICL」という名称であるが、ICLというよりAgenticな動作に思える。もちろん性能は上がりそう。

VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models 

LLM Augmentations to support Analytical Reasoning over Multiple Documents

Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering 

  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering [51.3]
    検証工学は、基礎モデルの時代のために特別に設計された新しいポストトレーニングパラダイムである。 検証工学のプロセスは,検索,検証,フィードバックの3段階に分類する。
    論文  参考訳(メタデータ)   (Mon, 18 Nov 2024 12:04:52 GMT)
  • 「The essence of verifier engineering lies in extending the construction of supervision signals beyond traditional manual feature extraction and data annotation. Instead, it utilizes a suite of effective automated verifiers to perform verification tasks and provide meaningful feedback to foundation models.」というverifier engineering の提案。重要性が増している分野なのは間違いないと思う、
  • リポジトリはGitHub – icip-cas/Verifier-Engineering: Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering

Shortcut Learning in In-Context Learning: A Survey

  • Shortcut Learning in In-Context Learning: A Survey [17.2]
    ショートカット学習(英: Shortcut learning)とは、モデルが実践的なタスクにおいて、単純で非破壊的な決定ルールを採用する現象を指す。 In-Context Learning(ICL)におけるショートカット学習に関する関連研究をレビューするための新しい視点を提供する。
    論文  参考訳(メタデータ)   (Mon, 04 Nov 2024 12:13:04 GMT)
  • In-context learningにおけるショートカット学習のサーベイ。ニッチな分野のような気がしつつ、問題になることは多いので参考になる。

OASIS: Open Agents Social Interaction Simulations on One Million Agents 

  • OASIS: Open Agents Social Interaction Simulations on One Million Agents [147.3]
    実世界のソーシャルメディアプラットフォームに基づくスケーラブルなソーシャルメディアシミュレータを提案する。 OASISは最大100万人のユーザをモデリングできる大規模なユーザシミュレーションをサポートする。 我々は、情報拡散、グループ分極、XプラットフォームとRedditプラットフォーム間の群れ効果など、様々な社会現象を再現する。
    論文  参考訳(メタデータ)   (Mon, 18 Nov 2024 13:57:35 GMT)
  • 大規模ユーザシミュレーション環境の提案。「Using OASIS, we have reproduced several well-known social phenomena and uncovered unique behaviors emerging from LLM-driven simulations.」とのことで、現実環境の再現を行うにもLLM based Agentsは有効そう。
  • リポジトリはGitHub – camel-ai/oasis: 🏝️ OASIS: Open Agents Social Interaction Simulations with One Million Agents

Dynamic-SUPERB Phase-2

  • Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.8]
    命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。 第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。 評価結果から,どのモデルも良好に動作しなかったことが示唆された。
    論文  参考訳(メタデータ)   (Fri, 08 Nov 2024 06:33:22 GMT)
  • Dynamic-SUPERBのPhase2としてタスクが多様化・強化
  • 現時点ではデータなどは公開されていないようだが、とても重要なベンチマーク

Autoregressive Models in Vision: A Survey

CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval

  • CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [87.2]
    CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。 我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。 私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
    論文  参考訳(メタデータ)   (Tue, 19 Nov 2024 16:54:45 GMT)
  • Code RAGなどで重要になるが難しいタスクであるEmbeddingモデルの提案、「Our 7B model sets a new state-ofthe-art (SOTA) in code retrieval, outperforming the previous leading model, Voyage-Code, by over 20% on CoIR benchmark.」とのこと。2Bのベースモデルはgemma-2-2b-it、7BだとMistral-7B-Instruct-v0.3などベースは様々。
  • 現状モデルは公開されていないっぽいが、「By bridging the gap between text and code retrieval domains and releasing our models to the community, we aim to promote further research and innovation in developer tools and programming language understanding.」のと記載がある。