Book Corpusのデータシート

  • Addressing “Documentation Debt” in Machine Learning Research: A Retrospective Datasheet for BookCorpus [1.3]
    BookCorpusは、大規模な言語モデルをトレーニングするための人気のテキストデータセットです。 BookCorpusは多くの書籍の著作権制限に違反している。 BookCorpusはジャンル表現において大きな歪みを見せている。
    論文  参考訳(メタデータ)   (Tue, 11 May 2021 17:59:23 GMT)
    • Book Corpusデータセットの問題を指摘する論文。正直、ライセンス的に大丈夫か不安になるデータセットは少なくないので注意すべき内容。

理由を説明するベンチマーク・モデル

  • e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.9]
    説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。 また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。 画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
    論文  参考訳(メタデータ)   (Sat, 8 May 2021 18:46:33 GMT)
    • 画像+自然言語の予測に対して、その理由を説明するためのデータセットとモデル。例えば、「人がぬいぐるみのライオンを抱えている画像」「男性はリアルなライオンを抱えている」「矛盾」という組み合わせに対し「説明:ぬいぐるみのライオンはリアルのライオンではない」がペアになっているよう。
    • https://github.com/maximek3/e-ViL

Transformer vs CNN

  • Are Pre-trained Convolutions Better than Pre-trained Transformers? [42.3]
    CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。 本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
    論文  参考訳(メタデータ)   (Fri, 7 May 2021 15:13:30 GMT)
    • 事前学習を用いた学習でCNNの方がTransformerより優れていることがあるとの報告。Transformer一択という今の雰囲気に一石を投じる内容。

Common Crawlの分析

  • What’s in the Box? An Analysis of Undesirable Content in the Common Crawl Corpus [77.3]
    言語モデルの訓練に広く使用されるwebコーパスであるcommon crawlを分析した。 ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
    論文  参考訳(メタデータ)   (Thu, 6 May 2021 14:49:43 GMT)
    • クリーニングしても残る問題コンテンツ。翻訳エンジン開発でも大きな課題。

AIベースシステムのソフトウェアエンジニアリング

  • Software Engineering for AI-Based Systems: A Survey [8.6]
    AIベースのシステムの構築、運用、保守のためのソフトウェアエンジニアリングのアプローチに関する合成知識は限られています。 AIベースのシステムのためのSEは、2018年以来、研究の2/3以上が出版されている新興研究領域です。 AIベースのシステムの最も研究された特性は信頼性と安全性です。
    論文  参考訳(メタデータ)   (Wed, 5 May 2021 11:22:08 GMT)
    • AIを組み込んだソフトウェアに対するソフトウェアエンジニアリングのサーベイ。50ページ超と長め。

絵文字の変遷

  • Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.3]
    絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。 絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。 絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 4 May 2021 08:28:06 GMT)

グラフ構造データ処理のサーベイ

  • Graph Learning: A Survey [38.2]
    本稿では,グラフ学習の現状について概観する。 グラフ信号処理,行列分解,ランダムウォーク,ディープラーニングなど,既存のグラフ学習手法の4つのカテゴリに特に注目されている。 テキスト,画像,科学,知識グラフ,最適化といった分野におけるグラフ学習アプリケーションについて検討する。
    論文  参考訳(メタデータ)   (Mon, 3 May 2021 09:06:01 GMT)
    • グラフ構造データに対するサーベイ論文。多岐にわたるアルゴリズムが考案されていることがわかる。node2vec, struc2vec, graph2vec, hin2vec, metapath2vecと2vec系だけでもいろいろある。

動画生成GODIVA

  • GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions [45.6]
    テキストから動画を自動レグレッシブに生成できるオープンドメインのテキスト・トゥ・ビデオプリトレーニングモデル「GODIVA」を提案する。 Howto100Mは、1億1600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。 実験により、GODIVAは下流のビデオ生成タスクでファインチューニングできるだけでなく、初見のテキストでも優れたゼロショット機能を持つことが示された。
    論文  参考訳(メタデータ)   (Fri, 30 Apr 2021 07:40:35 GMT)
    • テキストからの動画生成に関する論文。この手のモデルの高機能が進んでいる。ここでは(も)正しい評価は課題のよう。CLIPを用いた評価戦略に有効性が認められたのはBERT系手法を評価に用いる自然言語処理に似ている。ソースコード等は今後公開とのこと。

自然言語処理タスクをEntailmentタスクへ変換して解く

  • Entailment as Few-Shot Learner [20.7]
    プリトレーニング済みの小さな言語モデルを、より優れた少人数学習者に変える新しいアプローチを提案します。 このアプローチの鍵となる考え方は、潜在的NLPタスクをentailmentタスクに再構成し、モデルを8つの例で微調整することである。 提案手法は, (i) 教師なしのコントラスト学習に基づくデータ拡張法と自然に組み合わされ, (ii) 多言語限定学習に容易に拡張できることを示す。 18 の標準 NLP タスクの体系的評価は,既存の SOTA 数ショット学習手法を 12 % 改善し,GPT-3 などの500 倍のモデルで競合的な数ショット性能が得られることを示す。
    論文  参考訳(メタデータ)   (Thu, 29 Apr 2021 22:52:26 GMT)
    • 自然言語関連の様々なタスクをうまく変換し、含意タスクとして解くという論文。汎用的なエンジンに近づいていく方向性のように思える。

AIアルゴリズムからバイアスを見つける

  • Discover the Unknown Biased Attribute of an Image Classifier [39.8]
    最近の研究では、AIアルゴリズムはデータからバイアスを学習する。 AIアルゴリズムのバイアスを特定することは緊急かつ不可欠である。 以前のバイアス識別パイプラインは、潜在的なバイアスを推測するために人間の専門家に依存している。 人間の専門家がAIアルゴリズムのバイアスをよりよく見つけるのを助けるために、この研究で新しい問題を研究する。入力画像のターゲット属性を予測する分類器で、その未知のバイアス属性を発見する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 29 Apr 2021 17:59:30 GMT)