XGLM(multilingual Generative Language Models): 多言語モデルでのFew-shot

  • Few-shot Learning with Multilingual Language Models [66.5]
    多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。 私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。 本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
    論文  参考訳(メタデータ)   (Mon, 20 Dec 2021 16:52:35 GMT)
    • 多言語対応モデルを新たに構築、優れた性能を発揮。非常に広範なデータで検証を行っており興味深い結果となっている。
    • 日本語のデータも相応に入っており対応しているものと思われる。が、評価に使えるデータセットがXWinograd、PAWS-Xなど少なく状況が判別しにくい(モデルは公開されているようなので色々試してみるしかなさそう)
    • リポジトリはfairseq/examples/xglm at main · pytorch/fairseq · GitHub

KAT(Knowledge Augmented Transformer): 画像/言語用の外部知識活用

  • KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
    我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。 提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。 我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
    論文  参考訳(メタデータ)   (Thu, 16 Dec 2021 04:37:10 GMT)
    • Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
    • アプローチは論文4ページの図が分かりやすく(それでも複雑だが)、既存モジュールを組み合わせてパイプラインを組んでいる。

RAWイメージを介した敵対的攻撃の防御

  • All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines [31.0]
    画像と画像のマッピングのためのモデルに依存しない対角防御法を提案する。 この方法は、入力されたRGB画像をRAW空間にマッピングし、学習したカメラ画像信号処理パイプラインを用いて出力RGBにマッピングする。 その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 16 Dec 2021 21:54:26 GMT)
    • RAWイメージを介することでAdversarial Attackからの防御を行う手法の提案。自然なやり方に思える。