VideoCLIP: 対照学習を用いたゼロショットでのビデオ/テキスト理解

  • VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
    我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 23:01:51 GMT)
    • 対照学習を使用したビデオ/テキストの事前学習モデル。fine tuningだとYouCook2でSoTA(に近い性能)、ゼロショットでも非常に優れた性能を発揮。データセットによってはゼロショットで既存のベースラインを超えるようなスコアを出している。
    • リポジトリはhttps://github.com/pytorch/fairseq/examples/MMPTとのことだが現時点では404

ゼロショットでのドキュメントレベルニューラル機械翻訳能力の転送

  • Multilingual Document-Level Translation Enables Zero-Shot Transfer From Sentences to Documents [19.6]
    ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。 本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 17:49:34 GMT)
    • Document-level Neural Machine Translationの実現には(文ではなく)文書のパラレルコーパスが不足しているという問題がある。文書レベルのコーパスが充実している言語のDocNMTとSenNMT(文レベルのニューラル機械翻訳)、文書レベルのコーパスが不足している言語のSenNMTを組み合わせて、文書レベルのコーパスが不足している言語のDocNMTが作成可能とした報告。
      • Docレベルの評価ではBLEUがうまく機能しないことを含めて面白い結果。

FLAN(Finetuned LAnguage Net): 自然言語で命令可能なモデル

  • Finetuned Language Models Are Zero-Shot Learners [67.7]
    命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。 137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。 FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
    論文  参考訳(メタデータ)   (Fri, 3 Sep 2021 17:55:52 GMT)
    • 効率的に自然言語で命令を記載可能な事前学習モデルを構築、GPT-3のFew-shotを上回る性能を出したとの報告。62個のデータセットを12種類のタスククラスタに分類、自然言語で書かれた命令を使いタスクを記述するためのテンプレートを手動で作成して学習データを構築。137BパラメータのTransformer(2.81T BPE tokenのWebドキュメント、対話データ、Wikipediaで事前学習済み、10%が英語以外)でモデルを構築したとのこと。読解タスクではprompt engneering無しでfew-shotのGPT-3を上回る結果を出している。一方で翻訳タスクではfew-shotのGPT-3を下回っているようで事前学習モデルの言語の偏りに影響されているように見える。
      • 自然言語で指示可能とか未来を感じる結果、そして規模が非常に大きい。

ゼロショットでの文章リライト

  • Towards Universality in Multilingual Text Rewriting [9.0]
    本モデルでは、英語の見習いのみを用いて、非英語言語でゼロショットの感情伝達を行うことができることを示す。 次に、我々のモデルが複数の属性を同時に変更できることを示します。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 16:48:04 GMT)
    • 少ない英語の事例のみを用いることで英語以外の言語でテキストのリライトができるモデルを構築できたとの報告。論文中の日本語の例が興味深い。
    • 翻訳モデルを中間に挟むのは現実的ではあると思うが、このようにゼロショットで結果を出すマルチリンガルモデルには未来を感じる。

Cross-lingual Transferにおける英語以外の有効性

  • Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.4]
    ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。 人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。 ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
    論文  参考訳(メタデータ)   (Wed, 30 Jun 2021 16:05:57 GMT)
    • ゼロショットで多言語モデルを構築する場合は英語をベースにすることが多いがドイツ語やロシア語が有効なことがあるという興味深い報告。特にターゲットの言語が多様な場合に有効とのこと。機械翻訳を行ってなお有効とのことで意外な結果。事前学習モデルの性質なのか、言語特性によるものなのか非常に面白い。

Strokeに注目したCCR(Chinese character recognition)

  • Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.8]
    本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。 我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。 提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
    論文  参考訳(メタデータ)   (Tue, 22 Jun 2021 08:49:03 GMT)
    • 漢字をストロークに分解したうえで文字認識をする方法。zero shotでは既存手法より優れており、そうでない設定でも競争的な性能。
    • 論文中にもある通り日本語、韓国語などストロークに分解できる文字に対しては有効そう。