Zero-shot Object Counting

  • Zero-shot Object Counting [31.2]
    クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。 現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。 テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 15:14:36 GMT)
  • ゼロショットでのオブジェクトカウンティング。カウンタがクラス名のみを使うことをもってゼロショットとしている。Generaterを用いるアプローチ。
  • プロジェクトサイトはGitHub – cvlab-stonybrook/zero-shot-counting: CVPR2023 Zero-shot Counting (現在はComing soon)

FCM: Forgetful Causal Masking

  • FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners [139.6]
    本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。 我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。 実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
    論文  参考訳(メタデータ)   (Mon, 24 Oct 2022 17:46:57 GMT)
    • インプットするトークン列の一部をマスクするForgetful Causal Masking (FCM)を提案、計算量を増やさずにZero/Few shot能力を向上できたとの報告 

CounTR:  Counting TRansformer

  • CounTR: Transformer-based Generalised Visual Counting [94.5]
    我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。 FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
    論文  参考訳(メタデータ)   (Mon, 29 Aug 2022 17:02:45 GMT)

Socratic Model: モデル間の対話を通したマルチモーダル

  • Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.8]
    大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。 このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
    論文  参考訳(メタデータ)   (Fri, 1 Apr 2022 17:43:13 GMT)
    • 複数のモデルが通信をしてfine tuning無しでタスクを解く方法の提案。プロンプトが流行しているのを見るにこのようなことは可能なんだろうが、ゼロショットの組み合わせは汎用人工知能っぽい未来を感じる。
    • リポジトリはSocratic Models: Composing Zero-Shot Multimodal Reasoning with Language

LaPraDoR(Large-scale Pretrained Dense Zero-shot Retriever): Zero-shotなText Retrieval

ZeroGen: データ生成を通したZero-shot Learning

  • ZeroGen: Efficient Zero-shot Learning via Dataset Generation [28.5]
    柔軟で効率的なゼロショート学習手法であるZeroGenについて検討する。 ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。 テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。
    論文  参考訳(メタデータ)   (Wed, 16 Feb 2022 08:18:02 GMT)
    • 大規模生成モデルから知識を引き出し(データセットを作成し)それよりも小さなモデルで再現するアプローチの論文。Text classificationの結果は良いがSQuADなど教師有りとのパフォーマンス差があるタスクもあるとのこと。
      • このアプローチが有望であるとの報告は多いが、上記ギャップの理由が知りたいところ。

SuperGen: 言語モデルからのデータ生成

T0: GPT-3の16分の1のサイズで強力なゼロショット性能

  • Multitask Prompted Training Enables Zero-Shot Task Generalization [70.1]
    本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。 様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。 このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 17:08:57 GMT)

VideoCLIP: 対照学習を用いたゼロショットでのビデオ/テキスト理解

  • VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
    我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 23:01:51 GMT)
    • 対照学習を使用したビデオ/テキストの事前学習モデル。fine tuningだとYouCook2でSoTA(に近い性能)、ゼロショットでも非常に優れた性能を発揮。データセットによってはゼロショットで既存のベースラインを超えるようなスコアを出している。
    • リポジトリはhttps://github.com/pytorch/fairseq/examples/MMPTとのことだが現時点では404

ゼロショットでのドキュメントレベルニューラル機械翻訳能力の転送

  • Multilingual Document-Level Translation Enables Zero-Shot Transfer From Sentences to Documents [19.6]
    ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。 本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 17:49:34 GMT)
    • Document-level Neural Machine Translationの実現には(文ではなく)文書のパラレルコーパスが不足しているという問題がある。文書レベルのコーパスが充実している言語のDocNMTとSenNMT(文レベルのニューラル機械翻訳)、文書レベルのコーパスが不足している言語のSenNMTを組み合わせて、文書レベルのコーパスが不足している言語のDocNMTが作成可能とした報告。
      • Docレベルの評価ではBLEUがうまく機能しないことを含めて面白い結果。