2023年2月10日 – arXiv最新論文の紹介

FLAME: A small language model for spreadsheet formulas [12.4]
本稿では,Excel の式に基づいて訓練された T5 ベースのモデル FLAME について述べる。スケッチの重複を利用してトレーニングデータセットをキュレートし、Excel固有の式トークンを導入し、マスク付きスパン予測のドメイン固有のバージョンとノイズの多い自動エンコーディングを事前学習目的として使用する。 FLAME (60M) は、Codex-Davinci (175B)、Codex-Cushman (12B)、CodeT5 (220M) など、より大型のモデルよりも10セット中6セットで優れている。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 17:29:43 GMT)
Excelを対象にしたプログラム（？）用言語モデル。大規模言語モデルを用いた実装にくべて極めて小さなパラメータ数、データで構築を行っているにもかかわらずパフォーマンスは十分（6/10タスクで他を上回る）とのこと
巨大モデル全盛ではあるが、十分に使えるものを作るという点で興味深い。（FLAME自体小規模というにはやや抵抗が無いわけではないが。。。）

A Survey on Efficient Training of Transformers [72.3]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 13:58:18 GMT)
非常に広く用いられているTransformerについて効率的に学習を行うためのサーベイ。11ページ、引用数87と短め。
GPT-3の学習コストが335 GPU-year、$4.6Mと推測されているとのことで、巨大なモデルを作ろうと思う場合はこの手の手法をよく調査する必要がある。