CALM: Composition to Augment Language Models

LLM Augmented LLMs: Expanding Capabilities through Composition [56.4]
CALM — 言語モデルの拡張のための構成 — は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 18:53:01 GMT)
2つのモデルを融合的に使ってタスクを解く手法の提案。小規模特化型のPLM+LLMで特化した領域の性能が向上する使い方を想定しているよう。「That is, CALM is especially useful in scenarios where proprietary data and knowledge is stored in parametric models. 」ということで非常に有用そう。
実験はPaLM-XXSの特化版＋PaLM2-Sで行われているが、今はスマホ用っぽいGemini Nanoのfine tune版（だったり個人スマホで個人向けに特化した版）＋Gemini Ultraみたいな構成も想定しているんだろうか。

コメントを残す

コメントを残す コメントをキャンセル