2022年10月24日 – arXiv最新論文の紹介

Imagic: Text-Based Real Image Editing with Diffusion Models

Imagic: Text-Based Real Image Editing with Diffusion Models [19.1]
我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。実際のイメージで動作し、追加の入力を必要としない。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 17:27:32 GMT)
- 画像＋指示で画像編集ができる手法提案。「鳥の画像」＋「羽を広げる」で羽を広げた鳥の画像を生成可能。スタイル変換だけではなく物体の形も編集できているのが凄い。

Transcending Scaling Laws with 0.1% Extra Compute [128.1]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文参考訳（メタデータ） (Thu, 20 Oct 2022 16:46:41 GMT)
- 0.1 %と少ない計算量を使用するUL2Rで性能が大幅に向上するとの論文
  - 論文中の表記だとUL2: Uniﬁed language learner Restore ? R: Restore?
  - UL2 20B: An Open Source Unified Language Learner – Google AI Blog (googleblog.com)でdenoiserを混合するアプローチ
  - Fugu-MT 論文翻訳(概要): Unifying Language Learning Paradigms (fugumt.com)
- 処理を行ったU-PaLMは、英語のNLPタスク(例えば、常識推論、質問応答)、連鎖思考(eg、GSM8K)、多言語タスク(MGSM、TydiQA)、MMLU、BIG-Benchタスクなどでfew-shot PaLMよりも優れているとのこと。

Scaling Instruction-Finetuned Language Models [126.5]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文参考訳（メタデータ） (Thu, 20 Oct 2022 16:58:32 GMT)
- 1,836のタスクでfine tuning（instruction finetuning）することで様々なタスクに対する性能が向上したとする論文。PaLMに対してinstruction fine tuningを行ったFlan-PaLM 540BはもともとのPaLMを大幅に性能改善し、five-shot MMLUでSoTA。使用するタスクサイズが増えるほど性能向上傾向がみられるが、282タスクで概ね頭打ちになっている
  - それ以上増やしても新たな知識を提供していないのでは？もしくは言語モデル内の知識を表現するために一定以上のタスクは役に立たないのでは？との指摘があるが、新たな知識・情報を提供するための条件にめっちゃ興味がある。
- 下記にFlan-T5のチェックポイントが公開されている。PaLM 62Bよりfew-shot性能が優れているとのこと。
  - t5x/models.md at main · google-research/t5x (github.com)