Model Context Protocol (MCP), QwQ, OLMo 2

先週も様々なニュースがあったが、注目はAnthropicのModel Context Protocolである。 Introducing the Model Context Protocol \ AnthropicIntroduction – Model Context Protocol

ザックリとはLLMと外部データやツールを統合するためのプロトコルである。外部ツール利用やメモリの拡張利用などを前提としたLLMを構築する場合、この手の標準があるかないかは重要。MCPがデファクトスタンダードとなれるか興味津々。

公開モデル関連では極めて性能の高いQwen with Questions(QwQ)、以前取り上げたDolmaとOLMo – arXiv最新論文の紹介のver 2であるOLMo 2に要注目である。O1 Replication JurneyやTULU3もだが、どのような手法、アプローチで性能が上がるのかなどをオープンにした取り組みの価値は高い。

  • O1 Replication Journey — Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson? [30.9]
    本稿では,OpenAIのO1モデル機能を複製する現在のアプローチについて,批判的な考察を行う。 O1のAPIからの単純な蒸留と教師付き微調整を組み合わせることで、複雑な数学的推論タスクにおいて優れた性能が得られることを示す。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 15:31:27 GMT)
  • OpenAI o1に関する研究、Fugu-MT 論文翻訳(概要): O1 Replication Journey: A Strategic Progress Report — Part 1からのPart2。「While our previous work (Part 1 (Qin et al , 2024)) explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1’s API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks.」はまぁいいとして「Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning.」は驚き。
  • リポジトリはGitHub – GAIR-NLP/O1-Journey: O1 Replication Journey: A Strategic Progress Report – Part I
  • TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.1]
    我々は、完全にオープンな最先端の訓練後モデルであるT”ULU 3を紹介する。 T”ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
    論文  参考訳(メタデータ)   (Fri, 22 Nov 2024 18:44:04 GMT)
  • リポジトリはGitHub – allenai/open-instruct

Llama-3.1-Nemotron-70B, Ministral, Baichuan-Omni 

NVidiaから「This model reaches Arena Hard of 85.0, AlpacaEval 2 LC of 57.6 and GPT-4-Turbo MT-Bench of 8.98, which are known to be predictive of LMSys Chatbot Arena Elo As of 1 Oct 2024, this model is #1 on all three automatic alignment benchmarks (verified tab for AlpacaEval 2 LC), edging out strong frontier models such as GPT-4o and Claude 3.5 Sonnet.」を主張するnvidia/Llama-3.1-Nemotron-70B-Instruct-HF · Hugging Face、Mistralからは小規模だが高性能なMinistralが発表されている(Un Ministral, des Ministraux | Mistral AI | Frontier AI in your hands)。Baichuan-Omni はテキスト、画像、動画、音声に対応したマルチモーダルモデルでOSSで公開するとのこと。商用非公開モデルの大きなニュースリリースが予定されているようでそれも楽しみだが、weightが公開されるモデルが増えるのはありがたい。

1つ目はLlama-3.1-Nemotron-70B-Reward と HelpSteer2-Preference prompts を用いてLlama-3.1-70B-Instruct modelをチューニングしたものとのこと。NVIDIAは高効率なアーキテクチャの研究も進めているなど要注目。

2つ目、3つ目のような小規模高性能モデルも様々出ており、性能も検証してみたいところ。

  • HelpSteer2-Preference: Complementing Ratings with Preferences [45.0]
    リワードモデルは、指示に従うためにモデルを整列させるのに不可欠である。 データに適切にマッチする場合、どちらのアプローチも他方よりも優れているという証拠が不足している。 そこで我々はBradley-Terry styleとRegression reward Modelingを組み合わせた新しい手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 06:05:52 GMT)
  • nGPT: Normalized Transformer with Representation Learning on the Hypersphere [23.7]
    我々は新しいニューラルネットワークアーキテクチャ、正規化トランスフォーマー(nGPT)を提案する。 nGPTはより高速に学習し、同じ精度を達成するために必要なトレーニングステップの数を4から20に削減する。
    論文  参考訳(メタデータ)   (Tue, 01 Oct 2024 23:50:09 GMT)

Agent S: An Open Agentic Framework that Uses Computers Like a Human 

  • Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.2]
    我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:43:51 GMT)
  • 人が操作するようにコンピュータを操作するエージェントフレームワークの提案
  • リポジトリはGitHub – simular-ai/Agent-S: Official codebase for Agent S, a open agentic framework that uses computers like a human

Loki: An Open-Source Tool for Fact Verification 

  • Loki: An Open-Source Tool for Fact Verification [49.5]
    Lokiは、誤情報の増加に対処するために設計されたオープンソースのツールだ。 長いテキストを個々のクレームに分割し、チェックの信頼性を評価し、クエリを生成し、エビデンスを取得し、クレームを検証する。 LokiはMITライセンスでリリースされており、GitHubから入手できる。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 17:52:41 GMT)
  • OSSのファクトチェックツール、チェックすべきファクト(主張)の分解後、WEB検索結果を用いてファクトチェックを行うアプローチ
  • リポジトリはGitHub – Libr-AI/OpenFactVerification: Loki: Open-source solution designed to automate the process of verifying factuality

Llama3.2, Molmo, EMOVA

先週はマルチモーダルで公開モデルであるLLMの話題が多かった。Llama 3.2はLlamaのアップデートであり90BでGPT-4o miniに匹敵、Molmoは72BでGPT-4oに競合するとのこと。商用モデルに公開モデルが追いつきつつある状況で今後が非常に楽しみである。

公開モデルではないようだが、複数のモデルを組み合わせたEMOVAはGemini Pro 1.5やGPT-4V以上、GPT-4oのスコアの95%以上を達成と主張している。

  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.2]
    Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。 私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。 近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
    論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 17:59:51 GMT)
  • プロジェクトサイトはmolmo.allenai.org/blog、「The best-inclass 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation.」。PixMo (Pixels for Molmo)というデータセットを構築、その品質が性能向上に寄与しているとのこと。
  • デモはMolmo by Ai2 (allenai.org)、リポジトリはMolmo – a allenai Collection (huggingface.co)、Apache-2のOSSであることも凄い。
  • EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [150.9]
    GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。 本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
    論文  参考訳(メタデータ)   (Thu, 26 Sep 2024 16:44:02 GMT)
  • マルチモーダルなモデル、「EMOVA exceeds both GPT-4V and Gemini Pro 1.5 significantly on 10 out of 14 benchmarks, while for GPT-4o, EMOVA outperforms on both SEEDBench-Image and OCRBench, reaching over 95% of GPT-4o’s performance on ALL evaluated benchmarks except RealWorldQA.」とのこと。LLaMA-3.1-8B +InternViT-6B+ Speechモデル(既存アーキテクチャをベースに著者らがpre train)なアーキテクチャ。
  • プロジェクトサイトはEMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion (emova-ollm.github.io)

OLMoE, Reflection-70B, Tanuki-8×8B, 8B

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル(リポジトリ:allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス)で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル(リポジトリ:mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス)、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

  • OLMoE: Open Mixture-of-Experts Language Models [180.2]
    OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
    論文  参考訳(メタデータ)   (Tue, 03 Sep 2024 17:08:20 GMT)
  • Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
    トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。 我々は「反射チューニング」と呼ばれる新しい手法を提案する。 このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 05:13:47 GMT)
  • Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
    最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。 本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。 この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
    論文  参考訳(メタデータ)   (Fri, 07 Jun 2024 20:23:21 GMT)
  • リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3

先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。

  • Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
    提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。 どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
    論文  参考訳(メタデータ)   (Thu, 22 Aug 2024 17:38:59 GMT)
  • TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。(データの差かもしれないが。。)
  • リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)
  • xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
    本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。 このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。 私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 17:57:01 GMT)
  • xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
  • プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

  • RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.7]
    大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。 現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
    論文  参考訳(メタデータ)   (Wed, 21 Aug 2024 07:20:48 GMT)
  • RAGに関するモジュール型フレームワーク、「open-source tools such as LlamaIndex and LangChain employ high-level abstractions, which results in a lack of transparency and limits the ability to develop novel algorithms and evaluation metrics.」とあるが、実利用でも抽象化しすぎて使いにくいことは多い印象…
  • リポジトリはGitHub – fate-ubw/RAGLAB: RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

Speech-MASSIVE

VITA: Towards Open-Source Interactive Omni Multimodal LLM