SBIR(Sketch based image retrieval):フリーハンドスケッチを利用した検索

  • Compositional Sketch Search [91.8]
    フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。 シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
    論文  参考訳(メタデータ)   (Tue, 15 Jun 2021 09:38:09 GMT)
    • フリーハンドで書いたスケッチをもとに検索を行うシステムの報告。このような検索は便利。

Pre-Trained Models: 事前学習手法の整理

  • Pre-Trained Models: Past, Present and Future [8.5]
    大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。 AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。 本稿ではトランスファーラーニングと自己教師型学習との関係を深く考察しPTMの重要位置を明らかにしPTMの最新のブレークスルーを概観する。最後に, PTM の一連のオープンな問題と研究方向性について論じるとともに今後の研究に刺激を与え, 進展を期待する。
    論文  参考訳(メタデータ)   (Mon, 14 Jun 2021 02:40:32 GMT)
    • 事前学習モデルの現状をまとめた論文。広範な内容が整理されている。長めに見えるがそれぞれのパートは簡潔であり、この分野を概観するために非常に良い資料だと思う。

GPT3-to-plan: テキストからの計画抽出

  • GPT3-to-plan: Extracting plans from text using GPT-3 [24.6]
    GPT-3は現在行われている技術計画抽出手法に匹敵する計画抽出結果を生成することができることを示す。 本稿では,そのようなテキストから直接抽出を行う際の一般化言語モデルの有用性について検討する。
    論文  参考訳(メタデータ)   (Mon, 14 Jun 2021 01:45:47 GMT)
    • GPT-3を用いて自然言語で書かれたマニュアル等からアクションシーケンスを抽出しシステムによる自動化に使おうという研究。GPT-3はbefore, after, first, anytime, eventuallyなど順序性を認識しているように見えるとのこと。

LERG( local explanation of response generation): 対話応答の説明

  • Local Explanation of Dialogue Response Generation [77.7]
    反応生成の局所的説明(LERG)は、生成モデルの推論過程に関する洞察を得るために提案される。 LERGは、シーケンス予測を人間の応答の不確実性推定とみなし、入力を摂動させ、人間の応答に対する確実性の変化を計算することによって説明を作成する。 提案手法は, 提案手法を改良し, 提案手法の4.4~12.8%を改良した。
    論文  参考訳(メタデータ)   (Fri, 11 Jun 2021 17:58:36 GMT)
    • テキスト生成における説明に関する報告。分類モデルに対する説明が流行っている割に生成タスクに対する説明の研究が少ないというのはその通りという印象。

因果性を用いた敵対的攻撃対策

  • Adversarial Robustness through the Lens of Causality [105.5]
    ディープニューラルネットワークの敵対的脆弱性は、機械学習において大きな注目を集めている。 我々は、因果関係を敵対的脆弱性の軽減に組み込むことを提案する。 我々の手法は、敵の脆弱性を緩和するために因果性を利用する最初の試みと見なすことができる。
    論文  参考訳(メタデータ)   (Fri, 11 Jun 2021 06:55:02 GMT)
    • 因果グラフを敵対的攻撃の防御に用いるという報告。敵対的攻撃は自然なデータ分布に対する特定の介入とみなせる、というのはその通りでベンチマーク上も効果があるのが興味深い。

ImaginE: 想像力を持った評価指標

  • ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation [53.6]
    我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。 いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 17:59:52 GMT)
    • 文章生成タスクの評価指標としてマルチモーダル性を利用しようという研究。BERTScoreの発展形のようなもの。テキストから想像される画像を使っての評価が人の評価に近い場合があるというのは興味深い(BERT Scoreで良さそうだが・・・)。発想&論文中に出てくる画像は非常に面白い。

DUO(Detecting Underwater Objects)のデータセット・ベンチマーク

  • A Dataset And Benchmark Of Underwater Object Detection For Robot Picking [29.0]
    我々は,すべての関連するデータセットの収集と再アノテーションに基づいて,データセット,水中オブジェクトの検出(DUO)およびそれに対応するベンチマークを紹介する。 DUOはより合理的な注釈を持つ多様な水中画像のコレクションを含んでいる。 対応するベンチマークは、学術研究および産業応用のためのSOTAの効率と精度の指標を提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 10 Jun 2021 11:56:19 GMT)
    • 水中での物体検出タスクのデータセット。代表的な手法のベンチマークも記載されている。水中での物体認識においては、深いネットワーク構造が役に立たないように見えるという指摘が興味深い。
    • データセットはhttps://github.com/chongweiliuで公開予定とのこと。

MusicBERT: 音楽を対象とした事前学習モデル

  • MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.9]
    シンボリック・ミュージックの理解とは、シンボリック・データから音楽を理解することを指す。 MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 10:13:05 GMT)
    • BERTを音楽を対象に利用、音楽理解タスクでSOTA。マスキング戦略など音楽特有の対応を行っている。

Decomposed attentionを使ったマルチリンガル表現

  • Learning Multilingual Representation for Natural Language Understanding with Enhanced Cross-Lingual Supervision [42.7]
    本稿では,MA(Mixed Attention)の代替として,DA(Decomposed attention)というネットワークを提案する。 DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。 様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
    論文  参考訳(メタデータ)   (Wed, 9 Jun 2021 16:12:13 GMT)
    • mBERTのようなマルチリンガルモデルによってゼロショットで他言語に対応可能なモデルを構築できることが知られている。バイリンガルな言語間コーパス(翻訳文によるコーパス)の情報を活用してより良い事前学習モデルを作ったという報告。

cLang-8: 文法誤り訂正タスクSOTA&データセット

  • A Simple Recipe for Multilingual Grammatical Error Correction [6.3]
    本稿では,最新の多言語文法的誤り訂正(GEC)モデルを学習するためのレシピを提案する。 まず,多数の合成例を生成するための言語に依存しない手法を提案する。 第2の要素は、大規模多言語言語モデルを使用することである。 
    論文  参考訳(メタデータ)   (Mon, 7 Jun 2021 17:47:04 GMT)
    • 大規模事前学習モデルmT5+データクリーニングによってGECでSOTA。データ数が一定以上であればクリーニングは効果的、モデル規模の増加は性能向上に効果的であったと意外性はないが重要な結果。
    • データセット等はhttps://github.com/google-research-datasets/clang8からアクセス可能とのこと。