- Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [78.2]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。 我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。 実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 07:34:11 GMT) - vid2vidというゼロショットでのビデオ編集、画像ではできていたが動画でしかもフレーム間の一貫性をもって編集ができているように見える
- GitHub – baaivision/vid2vid-zero: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Modelsがリポジトリ、デモも存在Vid2vid Zero – a Hugging Face Space by BAAI
タグ: Zero-shot
Your Diffusion Model is Secretly a Zero-Shot Classifier
- Your Diffusion Model is Secretly a Zero-Shot Classifier [83.3]
大規模なテキスト・画像拡散モデルからの密度推定は、追加の訓練をすることなくゼロショット分類を行うことができることを示す。 分類への我々の生成的アプローチは、様々なベンチマークにおいて強力な結果を得ることができ、拡散モデルから知識を抽出する代替手法よりも優れている。
論文 参考訳(メタデータ) (Tue, 28 Mar 2023 17:59:56 GMT) - Diffusion Modelを分類器として使えるという報告。結果には全く違和感はないが、Synthetic SD Data(Diffusion Modelからの合成データを用いるアプローチ)をはるかに超える性能を出しているのはすごい。
- リポジトリはDiffusion Classifier (diffusion-classifier.github.io)
Zero-shot Object Counting
- Zero-shot Object Counting [31.2]
クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。 現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。 テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 15:14:36 GMT) - ゼロショットでのオブジェクトカウンティング。カウンタがクラス名のみを使うことをもってゼロショットとしている。Generaterを用いるアプローチ。
- プロジェクトサイトはGitHub – cvlab-stonybrook/zero-shot-counting: CVPR2023 Zero-shot Counting (現在はComing soon)
FCM: Forgetful Causal Masking
- FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners [139.6]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。 我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。 実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文 参考訳(メタデータ) (Mon, 24 Oct 2022 17:46:57 GMT)- インプットするトークン列の一部をマスクするForgetful Causal Masking (FCM)を提案、計算量を増やさずにZero/Few shot能力を向上できたとの報告
CounTR: Counting TRansformer
- CounTR: Transformer-based Generalised Visual Counting [94.5]
我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。 FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
論文 参考訳(メタデータ) (Mon, 29 Aug 2022 17:02:45 GMT)- Few-shotのように事例を与えることで任意のオブジェクトをカウントできる手法の提案。 FSC-147でSoTAを主張。
- プロジェクトサイトはCounTR: Transformer-based Generalised Visual Counting (verg-avesta.github.io)
Socratic Model: モデル間の対話を通したマルチモーダル
- Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.8]
大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。 このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
論文 参考訳(メタデータ) (Fri, 1 Apr 2022 17:43:13 GMT)- 複数のモデルが通信をしてfine tuning無しでタスクを解く方法の提案。プロンプトが流行しているのを見るにこのようなことは可能なんだろうが、ゼロショットの組み合わせは汎用人工知能っぽい未来を感じる。
- リポジトリはSocratic Models: Composing Zero-Shot Multimodal Reasoning with Language
LaPraDoR(Large-scale Pretrained Dense Zero-shot Retriever): Zero-shotなText Retrieval
- LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval [55.1]
我々は、最近提案されたBEIRベンチマークで、9つのゼロショットテキスト検索タスクの18のデータセットを含むLaPraDoRを評価する。 実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能を達成した。
論文 参考訳(メタデータ) (Fri, 11 Mar 2022 18:53:12 GMT)- ゼロショットなtext retrievalモデル、BEIRでSoTAとのこと。
- 略称は無理やり感がすごい。そしてこの手の話題では毎回BM25って優秀だなー思う。
- ゼロショットなtext retrievalモデル、BEIRでSoTAとのこと。
ZeroGen: データ生成を通したZero-shot Learning
- ZeroGen: Efficient Zero-shot Learning via Dataset Generation [28.5]
柔軟で効率的なゼロショート学習手法であるZeroGenについて検討する。 ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。 テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。
論文 参考訳(メタデータ) (Wed, 16 Feb 2022 08:18:02 GMT)- 大規模生成モデルから知識を引き出し(データセットを作成し)それよりも小さなモデルで再現するアプローチの論文。Text classificationの結果は良いがSQuADなど教師有りとのパフォーマンス差があるタスクもあるとのこと。
- このアプローチが有望であるとの報告は多いが、上記ギャップの理由が知りたいところ。
- 大規模生成モデルから知識を引き出し(データセットを作成し)それよりも小さなモデルで再現するアプローチの論文。Text classificationの結果は良いがSQuADなど教師有りとのパフォーマンス差があるタスクもあるとのこと。
SuperGen: 言語モデルからのデータ生成
- Generating Training Data with Language Models: Towards Zero-Shot Language Understanding [35.9]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。 NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。 提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文 参考訳(メタデータ) (Wed, 9 Feb 2022 16:02:18 GMT)- GPT系のPLMをデータ生成に用い、双方向なBERT系PLMをfine tuningすることで優れた性能(Few(32)-shotを上回る性能)を達成とのこと。データ生成時の確率を使用したフィルタリング、ラベルスムージング・アンサンブル等が高精度な結果に寄与しているとのこと。
- アプローチとしてはGPT-3を用いた教師無しのニューラル機械翻訳 – arXiv最新論文の紹介 (devneko.jp)に近いが、生成モデルの情報をより活用している印象
- リポジトリはGitHub – yumeng5/SuperGen: Generating Training Data with Language Models: Towards Zero-Shot Language Understanding
- GPT系のPLMをデータ生成に用い、双方向なBERT系PLMをfine tuningすることで優れた性能(Few(32)-shotを上回る性能)を達成とのこと。データ生成時の確率を使用したフィルタリング、ラベルスムージング・アンサンブル等が高精度な結果に寄与しているとのこと。
T0: GPT-3の16分の1のサイズで強力なゼロショット性能
- Multitask Prompted Training Enables Zero-Shot Task Generalization [70.1]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。 様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。 このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (Fri, 15 Oct 2021 17:08:57 GMT)- PromptSourceという170以上のデータセットを用いて、T5をマルチタスクでfine tuning、9/11個のデータセットでGPT-3のパフォーマンスと一致 or 上回るスコア。大規模な言語モデルが苦手とするタスクを集めたBIG-bench(のサブセット)でもより大きな言語モデルよりも優れた性能を発揮。
- 25以上の組織から40人以上が関わっているとのことで本当にBigScience。
- リポジトリはhttps://github.com/bigscience-workshop/promptsource/、デモはhttps://huggingface.co/bigscience/T0pp、公式のtweet(https://twitter.com/BigscienceW/status/1450084553670938625)も参考になる。