2022年6月20日 – arXiv最新論文の紹介

ソースコードのNaturalizing

NatGen: Generative pre-training by “Naturalizing” source code [18.4]
我々は,ソースコードの「成熟化」という新たな事前学習目標を提案する。自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質により、意味論的に等価なコードを大規模に生成することができます。私たちは、CodeT5に匹敵する最先端のパフォーマンスを達成するために、3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整します。
論文参考訳（メタデータ） (Wed, 15 Jun 2022 15:08:29 GMT)
- ソースコードを同等でより自然なスタイルに変換するよう事前学習することでCodeT5より優れた結果を達成とのこと。
  - 汚いコードを綺麗にしてくれるようなモデルを作るときにも役立ちそうで非常に面白い。
- リポジトリはGitHub – natgen-team/NatGen

Emergent Abilities of Large Language Models [172.1]
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
論文参考訳（メタデータ） (Wed, 15 Jun 2022 17:32:01 GMT)
- 近年の巨大言語モデルはパラメータ数増加により性能が上がることが知られている。その中で一定のパラメータ数を超えた時に劇的な性能向上がみられる事例を扱った論文。これらは「Emergent abilities would not have been directly predicted by extrapolating a scaling law (i.e. consistent performance improvements) from small-scale models.」とのことで予測することが難しい。
- 論文で挙げられている実例、Beyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)を合わせて考えるとやはり総合的に人間の能力を抜くようなモデルは意外に早くできてしまうのかもしれない。

Language Models are General-Purpose Interfaces [109.5]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (Mon, 13 Jun 2022 17:34:22 GMT)
- マルチモーダル、マルチタスクに対応した言語モデルの提案。言語、画像のタスクで優れた性能を達成とのこと。エンコーダ部分でマルチモーダルに対応、実際タスクを「解く」のはsemi-causal language modelというデコーダのよう。この構造を汎用目的インタフェースといっている。
  - タスクに関する記述や出力は自然言語として書け、マルチモーダルな構造とも接続できるのであれば汎用インタフェースと言える気はする。そして、semi-causal language modelingというのは刺激的なワード。
- リポジトリはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities