VideoCLIP: 対照学習を用いたゼロショットでのビデオ/テキスト理解

  • VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
    我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 23:01:51 GMT)
    • 対照学習を使用したビデオ/テキストの事前学習モデル。fine tuningだとYouCook2でSoTA(に近い性能)、ゼロショットでも非常に優れた性能を発揮。データセットによってはゼロショットで既存のベースラインを超えるようなスコアを出している。
    • リポジトリはhttps://github.com/pytorch/fairseq/examples/MMPTとのことだが現時点では404

RAFT(Realworld Annotated Few-shot Tasks): Few-shotなテキスト分類ベンチマーク

  • RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
    RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 22:35:31 GMT)
    • 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
      • ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
      • Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
      • NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
      • OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
      • Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
      • Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
      • Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
      • TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
      • Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
      • TweetEval Hate (TEH): ヘイトスピーチの検出タスク
      • Twitter complaints (TC): tweetに苦情を含むかを判別
    • プロジェクトサイトはhttps://raft.elicit.org/

OpenViDial 2.0: 大規模なマルチモーダル対話データセット

  • OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
    より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 28 Sep 2021 15:15:57 GMT)

自然言語処理におけるパラダイムシフト

  • Paradigm Shift in Natural Language Processing [66.6]
    ディープラーニングの時代、ほとんどのNLPタスクのモデリングは、いくつかの主流パラダイムに収束した。 近年, パラダイムシフトが増加傾向にあり, 一つのNLPタスクを別のタスクとして再構成することで解決している。 これらのパラダイムのいくつかは、多数のNLPタスクを統合する大きな可能性を示しており、多様なタスクを処理する単一のモデルを構築することができる。
    論文  参考訳(メタデータ)   (Sun, 26 Sep 2021 11:55:23 GMT)
    • 近年流行りのMLM+promptに至るまでのパラダイムを振り返る内容。タスクの整理など極めて参考になる内容。
      • 統合的なモデルが全てのタスクをうまく扱えるようになるかは謎だが、その可能性は低くないように思う。
    • プロジェクトサイトはhttps://txsun1997.github.io/nlp-paradigm-shift/

機械学習における安全性の未解決問題

  • Unsolved Problems in ML Safety [45.8]
    研究の準備ができている4つの問題、すなわち、ハザードを克服し、ハザードを特定し、MLシステムを操り、MLシステムの扱い方に対するリスクを低減する。 それぞれの問題のモチベーションを明確にし、具体的な研究指針を提供する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 17:59:36 GMT)
    • 機械学習利用時の問題を「Robustness: 敵対攻撃、異常な状況、レアなイベントに対する頑健性」「Monitoring: 悪意のある利用の検知、予測の監視、予期せぬ動きの検出」「Alignment:正しい (人間的な)目的の設定と安全な最適化」「External safety: サイバー攻撃への対策などMLシステム利用時のリスク低減」に分けて整理した論文。Appendix部分を含めてとても良い。

PASS(Pictures without humAns for Self-Supervision) : 著作権や個人情報に配慮したデータセット

  • PASS: An ImageNet replacement for self-supervised pretraining without humans [152.3]
    本稿ではPASS(Pictures without humAns for Self-Supervision)を提案する。 PASSは、CC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。 PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。 PASSは、例えばベンチマークに不十分なため、既存のデータセットを陳腐化しない。しかしながら、より安全なデータを使用して、モデル事前トレーニングがしばしば可能であることを示し、事前トレーニングメソッドをより堅牢に評価する基盤を提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 27 Sep 2021 17:59:39 GMT)
    • 著作権/ライセンスに問題がなく(Creative Commonsの CC BY)、人物画像を含まないデータセットの提案。ラベルが無いという制約はあるものの、このようなデータセットは実務上ありがたい。
    • プロジェクトサイトはhttps://www.robots.ox.ac.uk/~vgg/research/pass/

FewNLU: Few-Shotな自然言語理解タスクの評価フレームワーク

  • FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.9]
    本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。 評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
    論文  参考訳(メタデータ)   (Mon, 27 Sep 2021 00:57:30 GMT)
    • Few-shot性能を評価するためのフレームワークを提案。データ分割戦略、ハイパーパラメータの扱い(promptの扱い)など様々な側面で検討を行っている。
      • (k-fold CVよりMulti Splitの方が良いのはやや意外)
    • リポジトリはhttps://github.com/THUDM/FewNLU、プロジェクトサイトはhttps://fewnlu.github.io/でリーダーボードも存在。

XLM-K: multilingual Knowledgeを取り入れた多言語事前学習モデル

  • XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge [31.8]
    言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。 本稿では,事前学習に多言語知識を取り入れたクロス言語モデルXLM-Kを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Sep 2021 11:46:20 GMT)
    • 多言語プリトレーニングをMasked Entity Prediction TaskとObject Entailment Taskで強化、言語間の転移性能が向上したとの報告。mBERTやXLM-Rを上回る性能。

Automatic Essay Scoring(AES)システムの脆さの検証と保護モデル

  • AES Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.5]
    スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。BERT などのリッチなコンテキスト埋め込みを備えた “エンドツーエンド” モデルとして訓練されているにもかかわらず、Bag of Wordsのように振る舞うことを示唆している。これらの問題に対処するため過敏性と過大性を引き起こすサンプルを高精度で検出できる保護モデルを提案する。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 03:49:38 GMT)
    • Deep Learningを用いて文脈等も考慮する複雑なスコアリングモデルのはずが数個の単語に大きくスコアが影響されることがあるとの指摘。350単語のエッセイに3単語を追加することでスコアを50%変化させることができたとのこと。
    • 保護方法も提案しているとはいえ、このような問題を内包しているモデルが社会に受け入れられるかは謎。。。
      • 文脈すらとらえられるはずのDeep LearningモデルがBoWっぽく動くというのはそのようなこともあるんだろうなとは思う。特定の単語が採点基準上重要な事は人間による評価でもありがち。

CPT(Cross-modal Prompt Tuning / Colorful Prompt Tuning):画像/言語のプロンプトチューニング

  • CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5]
    我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。 総合的な実験結果から、VL-PTM(Pre-Trained Vision-Language Models)のプロンプトチューニングは、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 08:07:29 GMT)
    • 「画像中の参照領域を特定の色で塗りつぶす」+「テキスト部分にも対応する色を入れる」ことにより画像とテキストを結びつける事でvisual grounding問題を穴埋め問題に再構成しプロンプトを実現(論文の図を見るのが分かりやすい)。Few-shotとZero-shotの設定ではfine tuningを上回る性能とのこと。
      • 本当にできるのか?と思うくらい面白い成果。
    • データとコードが公開されるとのことで詳細はそれを確認したい。