2023年2月6日 – arXiv最新論文の紹介

Dreamix

Dreamix: Video Diffusion Models are General Video Editors [22.1]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 18:58:58 GMT)
ビデオに対してテキストで指示する事によるビデオ合成。デモを見るのが分かりやすいが、やっと画像で対してできるようになった感があることが動画に対して実現できている。また、画像→動画への変換も可能。
デモなどはDreamix: Video Diffusion Models are General Video Editors (dreamix-video-editing.github.io)
論文中には「VDMs are computationally expensive」と書かれているが、最近の状況を考えると早期にクリアされそうな予感がする。

Benchmarking Large Language Models for News Summarization [79.4]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 18:46:19 GMT)
GPT-3(.5)時代の自動要約に関する論文。「LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニング」「既存の研究は低品質の参照によって制限されている」など重要な指摘がある
リポジトリはhttps://github.com/Tiiiger/benchmark_llm_summarizationとのことだが、現時点では404

REPLUG: Retrieval-Augmented Black-Box Language Models [101.6]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文参考訳（メタデータ） (Wed, 1 Feb 2023 00:15:18 GMT)
外部コーパスを併用することで言語モデルの性能を上げる試み。類似度で使う情報を得る事もできるが、REPLUG LSR (REPLUG with LM-Supervised Retrieval)はRetrieval部分を調整（学習）可能なモジュールとする。GPT, OPT, BLOOMといった超巨大な言語モデルを含めて性能が向上するとのこと。（当然かもだが）REPLUG LSRの方が性能が高そう。
検索系手法との併用は結構な確率で嘘を混ぜ込む現状に対しての現実解な気がする。ただ、この手法を用いてさえ「REPLUG lacks interpretability as it is unclear when the model relies on retrieved knowledge or parametric knowledge」と書かれている。

The Flan Collection: Designing Data and Methods for Effective Instruction Tuning [118.7]
本研究は,Flan 2022の開発を壊し,一般公開された指導チューニング手法の設計決定について検討する。タスクバランスやエンリッチメントの手法は見過ごされがちだが、効果的な指導チューニングには不可欠である。インストラクションチューニングの研究を加速するために、データセット、テンプレート、メソッドのFlan 2022コレクションを公開しています。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 15:03:44 GMT)
instruction tuningに関するコレクションとそれと使って構築したモデルに関する論文。 Flan-T5 XL は過去のモデル（GLM 130BやOPT-175Bなど巨大モデル含）を超える性能。
リポジトリはFLAN/flan/v2 at main · google-research/FLAN · GitHub