2022年1月12日 – arXiv最新論文の紹介

LSeg: 言語駆動型のセマンティックセグメンテーション

Language-driven Semantic Segmentation [88.2]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文参考訳（メタデータ） (Mon, 10 Jan 2022 18:59:10 GMT)
- BackboneとなるVisionのモデル（ViT or ResNet）にCLIPを組み合わせることでゼロショットでの（ラベルを任意に設定可能な）セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
- リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation

ConvNeXt: ResNetの近代化

A ConvNet for the 2020s [94.9]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文参考訳（メタデータ）参考訳（全文） (Mon, 10 Jan 2022 18:59:10 GMT)
- ResNetに最近の知見を入れ込んでいくことでどのくらい性能が上がるか確認した報告、最終的にSwin Transformersを上回る性能を達成できたとのこと。非常に面白い結果。
- リポジトリはGitHub – facebookresearch/ConvNeXt: Code release for ConvNeXt model

PAEG(Phrase-level Adversarial Example Generation) を用いた機械翻訳モデルの頑健性向上

Phrase-level Adversarial Example Generation for Neural Machine Translation [75.0]
エンドツーエンドのニューラルネットワーク翻訳(NMT)は目覚ましい進歩を遂げているが、ノイズの多い入力は通常、モデルが脆弱で不安定になる。拡張データとして逆例を生成することはこの問題を軽減するのに有用であることが証明された。本稿では,モデルの堅牢性を高めるために,句レベル逆例生成(PAEG)手法を提案する。
論文参考訳（メタデータ） (Thu, 6 Jan 2022 11:00:49 GMT)
- フェーズレベルの置き換えを用いたAdversarial Exampleを作成、その活用でモデルの頑健性向上を確認とのこと。生成にはBERTを活用。