IMFW(Indian Masked Faces in the Wild): マスクをした人の顔認識

  • Indian Masked Faces in the Wild Dataset [86.8]
    本研究では,ポーズ,照明,解像度,被検者の着用するマスクの多様さを特徴とする,IMFWデータセットを新たに提案する。 また,提案したIMFWデータセットにおいて,既存の顔認識モデルの性能をベンチマークした。
    論文  参考訳(メタデータ)   (Thu, 17 Jun 2021 17:23:54 GMT)
    • COVID-19で重要になったマスクをした状況での顔認識。既存の顔認識モデルだといろいろな限界があるとのこと。
    • データなどはhttp://www.iab-rubric.org/resources/imfw.htmlから参照可能。

対照学習(Contrastive Learning )への攻撃

  • Poisoning and Backdooring Contrastive Learning [26.1]
    CLIPのような対照的な学習方法は、ノイズの多いデータセットと未処理のデータセットでトレーニングする。 この慣行がバックドアや毒殺を重大な脅威にしていることを示す。
    論文  参考訳(メタデータ)   (Thu, 17 Jun 2021 17:20:45 GMT)
    • ノイジーなラベル無しデータでのContrastive Learningに対して非常に少数の事例を用いて攻撃が可能との報告。特定の入力に対する誤分類であればデータセットの0.0001%を制御することによって可能とのこと。
    • 論文中に記載された通り防御手段も存在するがインターネットからデータを集めてきての学習はリスクがある。

Eider: エビデンスで補強した文書間関係抽出

  • Eider: Evidence-enhanced Document-level Relation Extraction [56.7]
    文書レベルの関係抽出(DocRE)は、文書内のエンティティペア間の意味関係を抽出することを目的としている。 本稿では,共同関係と証拠抽出,エビデンス中心関係抽出(RE),抽出結果の融合からなる3段階のエビデンス強化DocREフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 16 Jun 2021 09:43:16 GMT)
    • joint relation and evidence extraction, evidence-centered relation extraction, fusion of extraction resultsの3ステージ構成のモデルを用いてDocREDで優れたパフォーマンス(BERTbaseではSOTA)を出したとの報告。

ニューラル機械翻訳での認証データ活用

  • Alternated Training with Synthetic and Authentic Data for Neural Machine Translation [49.4]
    ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。 従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。 中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
    論文  参考訳(メタデータ)   (Wed, 16 Jun 2021 07:13:16 GMT)
    • Back Translationのような合成データ利用では正しい対訳データとの混ぜ方が課題になっており最悪翻訳モデルの性能を劣化させていた。その対応のためタグを付与するテクニックがあった。この報告では学習時にノイジーな合成データによるずれを補正することで性能を向上させている。

SBIR(Sketch based image retrieval):フリーハンドスケッチを利用した検索

  • Compositional Sketch Search [91.8]
    フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。 シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
    論文  参考訳(メタデータ)   (Tue, 15 Jun 2021 09:38:09 GMT)
    • フリーハンドで書いたスケッチをもとに検索を行うシステムの報告。このような検索は便利。

Pre-Trained Models: 事前学習手法の整理

  • Pre-Trained Models: Past, Present and Future [8.5]
    大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。 AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。 本稿ではトランスファーラーニングと自己教師型学習との関係を深く考察しPTMの重要位置を明らかにしPTMの最新のブレークスルーを概観する。最後に, PTM の一連のオープンな問題と研究方向性について論じるとともに今後の研究に刺激を与え, 進展を期待する。
    論文  参考訳(メタデータ)   (Mon, 14 Jun 2021 02:40:32 GMT)
    • 事前学習モデルの現状をまとめた論文。広範な内容が整理されている。長めに見えるがそれぞれのパートは簡潔であり、この分野を概観するために非常に良い資料だと思う。

GPT3-to-plan: テキストからの計画抽出

  • GPT3-to-plan: Extracting plans from text using GPT-3 [24.6]
    GPT-3は現在行われている技術計画抽出手法に匹敵する計画抽出結果を生成することができることを示す。 本稿では,そのようなテキストから直接抽出を行う際の一般化言語モデルの有用性について検討する。
    論文  参考訳(メタデータ)   (Mon, 14 Jun 2021 01:45:47 GMT)
    • GPT-3を用いて自然言語で書かれたマニュアル等からアクションシーケンスを抽出しシステムによる自動化に使おうという研究。GPT-3はbefore, after, first, anytime, eventuallyなど順序性を認識しているように見えるとのこと。

LERG( local explanation of response generation): 対話応答の説明

  • Local Explanation of Dialogue Response Generation [77.7]
    反応生成の局所的説明(LERG)は、生成モデルの推論過程に関する洞察を得るために提案される。 LERGは、シーケンス予測を人間の応答の不確実性推定とみなし、入力を摂動させ、人間の応答に対する確実性の変化を計算することによって説明を作成する。 提案手法は, 提案手法を改良し, 提案手法の4.4~12.8%を改良した。
    論文  参考訳(メタデータ)   (Fri, 11 Jun 2021 17:58:36 GMT)
    • テキスト生成における説明に関する報告。分類モデルに対する説明が流行っている割に生成タスクに対する説明の研究が少ないというのはその通りという印象。

因果性を用いた敵対的攻撃対策

  • Adversarial Robustness through the Lens of Causality [105.5]
    ディープニューラルネットワークの敵対的脆弱性は、機械学習において大きな注目を集めている。 我々は、因果関係を敵対的脆弱性の軽減に組み込むことを提案する。 我々の手法は、敵の脆弱性を緩和するために因果性を利用する最初の試みと見なすことができる。
    論文  参考訳(メタデータ)   (Fri, 11 Jun 2021 06:55:02 GMT)
    • 因果グラフを敵対的攻撃の防御に用いるという報告。敵対的攻撃は自然なデータ分布に対する特定の介入とみなせる、というのはその通りでベンチマーク上も効果があるのが興味深い。

ImaginE: 想像力を持った評価指標

  • ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation [53.6]
    我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。 いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 17:59:52 GMT)
    • 文章生成タスクの評価指標としてマルチモーダル性を利用しようという研究。BERTScoreの発展形のようなもの。テキストから想像される画像を使っての評価が人の評価に近い場合があるというのは興味深い(BERT Scoreで良さそうだが・・・)。発想&論文中に出てくる画像は非常に面白い。