Visual Parsing with Self-Attention for Vision-Language Pre-training

  • Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.5]
    Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。 本研究では,視覚関係をよりよく学習し,モーダル間アライメントを促進するために,VLPのためのフルトランスフォーマー視覚埋め込みを提案する。。
    論文  参考訳(メタデータ)   (Mon, 28 Jun 2021 04:42:48 GMT)
    • マルチモーダルな事前学習モデルのため画像認識部分にもself-attentionを導入、MLM(Masked Language Modeling)、ITM(Image- Text Matching)、MFR(Masked Feature Regression)を活用してモデルを構築し、UNITERSOHOを上回る性能を出したとのこと。

言語モデルを利用したマルチモーダルなFew Shotモデル

  • Multimodal Few-Shot Learning with Frozen Language Models [36.8]
    十分な規模でトレーニングを行うと、自動回帰言語モデルは、ほんの数例で促された後、新しい言語タスクを学習する顕著な能力を示す。 本稿では,このマイナショット学習能力をマルチモーダル環境(ビジョンと言語)に移すための,単純かつ効果的なアプローチを提案する。我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。 得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
    論文  参考訳(メタデータ)   (Fri, 25 Jun 2021 21:07:09 GMT)
    • 事前学習を行った言語モデルをマルチモーダル環境(画像とテキスト)に拡張する研究。言語モデルを構築しフリーズ。画像エンコーダをprompt作成用に構築。組み合わせるとマルチモーダルなFewShot可能なモデルとなるよう。
    • ほんとか?という感じで面白い結果。

DeltaLM: 多言語エンコーダ-デコーダモデル

  • DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders [92.9]
    本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。 具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己教師ありで事前学習する。 実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
    論文  参考訳(メタデータ)   (Fri, 25 Jun 2021 16:12:10 GMT)
    • こちらは事前学習された言語生成(機械翻訳)用のエンコーダ・デコーダアーキテクチャのモデル。パラメータが少ないにもかかわらずmBARTやmT5、M2M-100を上回る性能。
    • ∆LMは32 V100 GPUで1週間の計算コストと mBART(256 GPUで2.5週間)に比べ低コスト(?)での学習が可能とのこと。

LM4MT(Language Models for Machine translation): 翻訳のための言語モデル

  • Language Models are Good Translators [63.5]
    単一言語モデル(LM4MT)は,強力なエンコーダデコーダNMTモデルと同等の性能が得られることを示す。 ピボットベースおよびゼロショット変換タスクの実験により、LM4MTはエンコーダ・デコーダのNMTモデルよりも大きなマージンで優れていることが示された。
    論文  参考訳(メタデータ)   (Fri, 25 Jun 2021 13:30:29 GMT)
    • 現状のニューラル機械翻訳ではエンコーダ・デコーダ型のアーキテクチャが良く用いられるが言語モデルのアーキテクチャでも十分な性能が得られたとの報告。多言語間で統一的な内部表現であることからかmultilingual NMT のゼロショット翻訳ではtransformerより優れているとのこと。

事前学習した言語モデルからの社会的バイアス軽減

  • Towards Understanding and Mitigating Social Biases in Language Models [107.8]
    大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。 テキスト生成における社会的バイアスを軽減するためのステップを提案する。 我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
    論文  参考訳(メタデータ)   (Thu, 24 Jun 2021 17:52:43 GMT)
    • 偏見のような社会的バイアスを言語モデルから除去(緩和)する内容を扱った報告。社会的バイアスの定義を含め参考になる。提案手法はテキスト生成でバイアス緩和効果を示しているとのことだが、limitationには性能と公正さに強いトレードオフがあるとも書かれている。
    • コード等はhttps://github.com/pliang279/LM_biasにアップロードするとのこと。(現時点では入っていない)

Charformer: サブワード化をモデル中に取り入れたTransformer

  • Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.2]
    モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデルを提案する。 文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。 また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
    論文  参考訳(メタデータ)   (Wed, 23 Jun 2021 22:24:14 GMT)
    • GBST( Gradient-Based Subword Tokenization module)を提案、Transformerに統合してsub word化を行わず優れた性能を出したという報告。スピードも速い。
    • 英語のタスクでは以前紹介したByT5と比べても優れており、マルチリンガルな設定では性能は同等で高速とのこと。後者で性能差が縮まるという結果も興味深い。

VOLO(Vision OutLOoker)

  • VOLO: Vision Outlooker for Visual Recognition [148.1]
    視覚変換器 (ViTs) は ImageNet 分類法において自己注意型モデルの優れたポテンタイアを示す。 本研究では,パフォーマンスギャップを解消し,注意に基づくモデルがCNNよりも優れていることを示す。
    論文  参考訳(メタデータ)   (Thu, 24 Jun 2021 15:46:54 GMT)
  • outlook attentionという構造を取り入れたVOLOという構造を提案、Extra Training Data無しの条件下でImageNet画像分類のSOTAとのこと。
  • コードなどはhttps://github.com/sail-sg/voloから確認可能

アクティブラーニングによるラベリングコストの削減

  • Towards Reducing Labeling Cost in Deep Object Detection [61.0]
    本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。 提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 22 Jun 2021 16:53:09 GMT)
    • アクティブラーニングにおいてentropyのような尺度を用いるとレアなクラス(分類性能が低くなっているクラス)に対して適切なラベリングすべきサンプルを選ぶことができない。一貫性に基づくスコアを用いることによってこの問題に対処したとのこと。ラベル付けコストを最大82%削減するという結果は興味深い。

XAI-Bench:XAIの評価指標とベンチマークデータ

  • Synthetic Benchmarks for Scientific Research in Explainable Machine Learning [14.2]
    我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。 実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。 いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
    論文  参考訳(メタデータ)   (Wed, 23 Jun 2021 17:10:21 GMT)
    • XAIのベンチマークのため指標をまとめ、合成データセットを作成したとの報告。XAIの評価は難しくこのような取り組みは重要。リアルなデータではベンチマーク構築が難しいことから合成データを用いている。LIMEが良い結果になっていてやや意外ではあった。
    • データ、コード等はhttps://github.com/abacusai/xai-benchから確認可能

BARTScore: BARTを用いた評価方法

  • BARTScore: Evaluating Generated Text as Text Generation [89.5]
    我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。 我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。 本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
    論文  参考訳(メタデータ)   (Tue, 22 Jun 2021 03:20:53 GMT)
    • seq2seqなBARTを用いた評価指標。BERT Scoreなど(名前も)似た指標に比べても優位性があるとのこと。機械翻訳、機械要約ともに評価は悩ましい問題でありこのような手法は重要。