UniSummとSummZoo

FCM: Forgetful Causal Masking

  • FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners [139.6]
    本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。 我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。 実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
    論文  参考訳(メタデータ)   (Mon, 24 Oct 2022 17:46:57 GMT)
    • インプットするトークン列の一部をマスクするForgetful Causal Masking (FCM)を提案、計算量を増やさずにZero/Few shot能力を向上できたとの報告 

Scaling Instruction-Finetuned Language Models

  • Scaling Instruction-Finetuned Language Models [126.5]
    命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。 命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
    論文  参考訳(メタデータ)   (Thu, 20 Oct 2022 16:58:32 GMT)
    • 1,836のタスクでfine tuning(instruction finetuning)することで様々なタスクに対する性能が向上したとする論文。PaLMに対してinstruction fine tuningを行ったFlan-PaLM 540BはもともとのPaLMを大幅に性能改善し、five-shot MMLUでSoTA。使用するタスクサイズが増えるほど性能向上傾向がみられるが、282タスクで概ね頭打ちになっている
      • それ以上増やしても新たな知識を提供していないのでは?もしくは言語モデル内の知識を表現するために一定以上のタスクは役に立たないのでは?との指摘があるが、新たな知識・情報を提供するための条件にめっちゃ興味がある。

CounTR:  Counting TRansformer

  • CounTR: Transformer-based Generalised Visual Counting [94.5]
    我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。 FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
    論文  参考訳(メタデータ)   (Mon, 29 Aug 2022 17:02:45 GMT)

言語モデルは説明文から学べるか?

  • Can language models learn from explanations in context? [21.7]
    大規模言語モデルは、いくつかのコンテキスト内例に適応することで、新しいタスクを実行することができる。 人間にとって、例からの素早い学習は、例とタスク原則を結びつける説明の恩恵を受けることができる。 少数例の説明によって言語モデルがより効果的に適応できるかどうかを考察する。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 16:33:44 GMT)
    • few-shot設定で例示される内容に説明を付与すると性能を向上可能という論文。大規模モデルにおいて効果的とのこと。近年の大規模モデルが例と説明の何らかの対応付けができる規模になっているのだとすると面白い。

PaLM: Pathways Language Model

  • PaLM: Scaling Language Modeling with Pathways [180.7]
    我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。 我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。 数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 16:11:45 GMT)
    • 540-billion parameterで780 billion tokens のデータ& 6144個のTPU v4 を用いて構築された大規模モデル。BIG-benchで平均的な人間のパフォーマンスを上回る。
    • Discontinuous improvementsとして報告された内容が興味深く、8B→62Bパラメータへの改善と62B→540Bへの改善においてよく報告される“power law”に沿った改善ではない、非連続的な改善が見られたとのこと。
    • 「First, the results presented here suggest that the improvements from scale for few-shot language understanding have not yet plateaued.」とある通りまだ発展が見込めるとのことで面白い。

小さなデータで効率的に学習するためのDataset distillation

  • Dataset Distillation by Matching Training Trajectories [75.9]
    そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。 ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。 本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
    論文  参考訳(メタデータ)   (Tue, 22 Mar 2022 17:58:59 GMT)

JoJoGAN: ワンショットな画像スタイル変換

  • JoJoGAN: One Shot Face Stylization [6.0]
    本研究は,細部を正確に把握したワンショット画像スタイリングを実現することを目的としている。 GANインバージョンと事前学習したStyleGANのファインチューンを用いて,参照スタイルの画像から実データを近似した。 次に、StyleGANを一般化して、学習したスタイルを他のすべての画像に適用できるように促します。
    論文  参考訳(メタデータ)   (Wed, 22 Dec 2021 03:13:16 GMT)

XGLM(multilingual Generative Language Models): 多言語モデルでのFew-shot

  • Few-shot Learning with Multilingual Language Models [66.5]
    多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。 私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。 本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
    論文  参考訳(メタデータ)   (Mon, 20 Dec 2021 16:52:35 GMT)
    • 多言語対応モデルを新たに構築、優れた性能を発揮。非常に広範なデータで検証を行っており興味深い結果となっている。
    • 日本語のデータも相応に入っており対応しているものと思われる。が、評価に使えるデータセットがXWinograd、PAWS-Xなど少なく状況が判別しにくい(モデルは公開されているようなので色々試してみるしかなさそう)
    • リポジトリはfairseq/examples/xglm at main · pytorch/fairseq · GitHub

CLUES(Constrained Language Understanding Evaluation Standard): Few-shot Leafningのベンチマーク

  • CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.6]
    我々は,NLUモデルのFewショット学習能力を評価するためのベンチマークであるCLUESを紹介する。 近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 00:43:15 GMT)
    • 近年、Few-shot学習用のベンチマークが発表されているが、すべてのタスクに人間の評価値があるものは珍しい気がする。
    • リポジトリはhttps://github.com/microsoft/CLUES