CALM: Composition to Augment Language Models

  • LLM Augmented LLMs: Expanding Capabilities through Composition [56.4]
    CALM — 言語モデルの拡張のための構成 — は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。 低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 18:53:01 GMT)
  • 2つのモデルを融合的に使ってタスクを解く手法の提案。小規模特化型のPLM+LLMで特化した領域の性能が向上する使い方を想定しているよう。「That is, CALM is especially useful in scenarios where proprietary data and knowledge is stored in parametric models. 」ということで非常に有用そう。
  • 実験はPaLM-XXSの特化版+PaLM2-Sで行われているが、今はスマホ用っぽいGemini Nanoのfine tune版(だったり個人スマホで個人向けに特化した版)+Gemini Ultraみたいな構成も想定しているんだろうか。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です