生成型マルチモーダルモデルへのPrompt Tuning

Delta Tuning: 事前学習モデルの効率的なチューニング

  • Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models [90.2]
    標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。 近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
    論文  参考訳(メタデータ)   (Mon, 14 Mar 2022 07:56:32 GMT)

NoisyTune: PLMのfinetuneをよくするノイズ付与

  • NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better [98.6]
    訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。 PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。 NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 24 Feb 2022 11:08:02 GMT)
    • 事前学習モデルのパラメータにノイズを加えるだけというシンプルな手法でfine tuning後の性能を向上させるという報告。ほんまかいなと思いつつ、一貫して性能が上がっているのが凄い。

効果的なfine-tuningデータの選択戦略

  • Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.1]
    対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。 近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。 本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 24 Nov 2021 06:18:32 GMT)
    • 近しいデータ(鳥画像分類データセットであるCUBにImageNetの鳥類を加えるなど)をfine tuningで使用すると最終性能を上げられることがある。ラベルがあればそれを利用すればよいが、ラベルがない場合は対象データに近いデータセット(サブセット)を選択する必要がある。この論文ではこの問題をunbalanced optimal transport (UOT) 問題として解く手法を提案、効果を検証している。
      • 自然言語処理な分野でも最適輸送を使った機械学習系の論文をちょくちょく見る気がする。とても興味深い。

教師無しのfine-tuning

  • Unsupervised Finetuning [80.6]
    ソースデータとターゲットデータを組み合わせて教師なしの微調整を行うための2つの戦略を提案する。 前者の戦略の動機は、事前訓練された表現空間を占有するために、少量のソースデータを追加することである。 後者の戦略の動機は、データ密度を高め、よりコンパクトな表現を学ぶことにある。
    論文  参考訳(メタデータ)   (Mon, 18 Oct 2021 17:57:05 GMT)
    • 教師無しのfine-tuning手法の提案、対象は画像処理。ドメイン適合と考えれば効果はありそうだが、実際にこの方針で性能が上がるのはすごい。

BitFit(Bias-terms Fine-tuning ): BERTのごく一部のfine tuning

  • BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models [51.5]
    我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。 ファインチューニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 18 Jun 2021 16:09:21 GMT)
    • バイアス項とタスク固有の分類層のみ、BERTの極一部(0.1%以下)を変更対象としてもベンチマークで十分な性能を出すfine tuningが可能という報告。処理の効率化という点でも重要なものだが、この程度の変更で様々なタスクに対応できるのは直感に反しており非常に興味深い。