CALM: Composition to Augment Language Models LLM Augmented LLMs: Expanding Capabilities through Composition [56.4]CALM — 言語モデルの拡張のための構成 — は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。 低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。論文 参考訳(メタデータ) (Thu, 4 Jan 2024 18:53:01 GMT) 2つのモデルを融合的に使ってタスクを解く手法の提案。小規模特化型のPLM+LLMで特化した領域の性能が向上する使い方を想定しているよう。「That is, CALM is especially useful in scenarios where proprietary data and knowledge is stored in parametric models. 」ということで非常に有用そう。 実験はPaLM-XXSの特化版+PaLM2-Sで行われているが、今はスマホ用っぽいGemini Nanoのfine tune版(だったり個人スマホで個人向けに特化した版)+Gemini Ultraみたいな構成も想定しているんだろうか。