1 bit(1.58 bit)なLLMとHAWK・Griffin

LLMにおいて高速化は非常に重要。先週バズった「The Era of 1-bit LLMs」と「Griffin」は異なるアプローチではあるが今の標準レシピを改善していく取り組み。

  • Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models [101.7]
    我々は、ゲート線形再帰を持つRNNのHawkと、ゲート線形再帰と局所的な注意を混合したハイブリッドモデルGriffinを提案する。 ホークは下流でのマンバのパフォーマンスを上回り、グリフィンは6倍以上のトークンで訓練されているにもかかわらず、ラマ-2のパフォーマンスに匹敵する。 Griffinを14Bパラメータまで拡張し、効率的な分散トレーニングのためにモデルをシャーディングする方法を説明します。
    論文  参考訳(メタデータ)   (Thu, 29 Feb 2024 18:24:46 GMT)
  • RNNベースのHAWK、ハイブリッドアーキテクチャのGriffinの提案。HAWKは非常に高速だが、性能は同規模のTransformerと競合するレベル(Mambaより優れているよう)。Griffinはそれをoutperformしているように見える。7Bや14Bと大規模な検証をしているあたりさすがGoogle DeepMind。

LLM用金融ベンチマークと金融特化型LLM

LLMでも金融分野の研究は多い。

  • FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [20.0]
    FinTralは、Mistral-7bモデルに基づいて構築され、財務分析用に調整された、最先端のマルチモーダル言語モデル(LLM)のスイートである。 我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
    論文  参考訳(メタデータ)   (Fri, 16 Feb 2024 05:05:12 GMT)
  • こちらはMistralをベースにしたLLM
  • ドメイン特化であれば7BでGPT-4と十分戦える点は面白い

Benchmarking Retrieval-Augmented Generation for Medicine / Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE)

  • Benchmarking Retrieval-Augmented Generation for Medicine [30.4]
    大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 17:44:06 GMT)
  • ベンチマークを作成し医療分野でのRAGの有効性について検証、CoTとの比較や使用しているLLMごとの差異などとても興味深い結果になっている。BM25ってやはりかなり優秀なのでは。
  • リポジトリはMIRAGE:Teddy-XiongGZ/MIRAGE: Official repository of the MIRAGE benchmark (github.com)、MEDRAG:Teddy-XiongGZ/MedRAG: Code for the MedRAG toolkit (github.com)

Do Membership Inference Attacks Work on Large Language Models?

  • Do Membership Inference Attacks Work on Large Language Models? [145.9]
    メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。 我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。 様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 17:52:05 GMT)
  • LLMへのメンバシップ推論攻撃は有効ではないのでは?という報告。「We identify specific settings where LLMs have been shown to be vulnerable to membership inference and show that the apparent success in such settings can be attributed to a distribution shift, such as when members and non-members are drawn from the seemingly identical domain but with different temporal ranges.」と手厳しい。結論にも書いてあったが、こういった特性を理解せずに何かに応用するのは危険であると思う。
  • リポジトリはiamgroot42/mimir: Python package for measuring memorization in LLMs (github.com)

Large Language Models: A Survey

  • Large Language Models: A Survey [69.7]
    大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 05:37:09 GMT)
  • LLMのサーベイ。この分野のサーベイは多いが整理軸が様々で面白い。

PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability

  • PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability [24.2]
    これは$textbfpre$dictionと$textbfrea$soningと$textbfact$ionを統合したエージェントフレームワークです。 実験の結果,PreActは複雑なタスクを遂行する上でReActのアプローチよりも優れており,Reflexion法と組み合わせることでPreActを併用できることがわかった。
    論文  参考訳(メタデータ)   (Sun, 18 Feb 2024 10:15:38 GMT)
  • 名前の通りReActの改善提案、 予測を作成し実績の違いから計画を修正させる、ようにActionとObservationにPredictを追加。ベンチマークで効果を確認とのこと。
  • リポジトリはFu-Dayuan/PreAct (github.com)

Formal-LLMとStructured Chain-of-Thought Prompting

  • Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [42.4]
    大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。 しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。 本稿では,自然言語の表現性と形式言語の精度を統合することで,LLMをベースとしたエージェントのための新しいフォーマルLLM’フレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 4 Feb 2024 22:16:48 GMT)
  • LLMを用いたAIエージェントと形式言語の融合。「another important problem to explore in the future is LLM plan verification based on formal language.」と書かれている通り形式検証に持ち込めると面白いと思う。
  • リポジトリはagiresearch/Formal-LLM: Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents (github.com)
  • Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations [13.1]
    本稿では,構造化チェーン・オブ・シークレット (SCoT) を用いて,コンテントグラウンドによる質問応答会話を生成する手法を提案する。 実験の結果,SCoTによる幻覚の緩和は,文書の接地に対するエージェント忠実度を最大16.8%向上させることがわかった。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 01:49:53 GMT)
  • 「At the core of our proposal is a structured breakdown of the complex task into a number of states in a state machine, so that actions corresponding to various subtasks, e g , content reading and utterance generation, can be executed in their own dedicated states.」
  • 上記FormalLLMと組み合わさらないかなと思わなくもない。

GemmaとMistral next

先週もLLM界隈は盛り上がっていた。注目すべきはGoogleのオープンなモデルであるGemmaとMistralがステルスでリリースしたというMistral nextの話題。両方とも日本語を扱えそうで興味深々である。そろそろ翻訳ベンチマークを再開しようと思わなくもない。

Gemma: Google introduces new state-of-the-art open models (blog.google)
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。Gemmaモデルは、言語理解、推論、安全のための学術ベンチマーク全体で強力なパフォーマンスを示す。

mistral-next: First Impressions of Mistral’s Latest Stealth Release | by Ingrid Stevens | Feb, 2024 | Medium
Chat with Open Large Language Models (lmsys.org)のDirect chatからmistral-nextを使用可能。
Mediumの記事によると数学が得意とのこと。試した感じ日本語応答も可能そう。

GLAN: Generalized Instruction Tuning

  • Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models [153.1]
    GLAN(Generalized Instruction Tuning)は,Large Language Models(LLM)の汎用的かつスケーラブルなチューニング手法である。 GLANは、人間の知識と能力の事前分類を入力として利用し、あらゆる分野にわたる大規模な合成指導データを生成する。 サイラバスの全クラスセッションで詳述された、きめ細かい重要な概念により、私たちは、人間の知識とスキルの全範囲にわたって幅広い範囲をカバーする多様な命令を生成できる。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 15:00:35 GMT)
  • 大規模なinstruction data をLLM自身に合成させる研究。Self-InstrctやEovlve-Instructとは異なり、元データを必要としない。Mistral-7Bをベースとして複数のタスクで既存の結果を上回る。感覚的にはstudent modelを訓練する蒸留にちかいんやろうか。データを作る側を何らかの形で上回れたら面白いが。。
  • リポジトリはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents

  • What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents [41.7]
    コスモアジェント(CosmoAgent)は、人類と地球外文明の複雑な相互作用をシミュレートする人工知能の枠組みである。 目標は、善意の文明を脅かす可能性のあるリスクを考慮しつつ、平和的な共存の実現可能性を評価することである。 この興味深い研究分野のさらなる学術的な調査を可能にするために、コードとデータセットをリリースしました。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 17:49:46 GMT)
  • 人類と地球外文明とのコミュニケーションをシミュレーションする環境の提案。論文読んでいても思ったが「Our research faces limitations, including an Earth-centric bias in LLMs that may not capture the full range of alien ethics and decision-making.」はそうだろうと思いつつ、Earth-centric biasはなかなか見ないワード。
  • リポジトリはhttps://github.com/agiresearch/AlienAgentとのことだが現時点では404