2021年5月 – ページ 3 – arXiv最新論文の紹介

Common Crawlの分析

What’s in the Box? An Analysis of Undesirable Content in the Common Crawl Corpus [77.3]
言語モデルの訓練に広く使用されるwebコーパスであるcommon crawlを分析した。ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文参考訳（メタデータ） (Thu, 6 May 2021 14:49:43 GMT)
- クリーニングしても残る問題コンテンツ。翻訳エンジン開発でも大きな課題。

Software Engineering for AI-Based Systems: A Survey [8.6]
AIベースのシステムの構築、運用、保守のためのソフトウェアエンジニアリングのアプローチに関する合成知識は限られています。 AIベースのシステムのためのSEは、2018年以来、研究の2/3以上が出版されている新興研究領域です。 AIベースのシステムの最も研究された特性は信頼性と安全性です。
論文参考訳（メタデータ） (Wed, 5 May 2021 11:22:08 GMT)
- AIを組み込んだソフトウェアに対するソフトウェアエンジニアリングのサーベイ。50ページ超と長め。

Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.3]
絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
論文参考訳（メタデータ）参考訳（全文） (Tue, 4 May 2021 08:28:06 GMT)
- 絵文字の変遷。面白い研究。
- https://emoji-semantic-change.herokuapp.com/　でインタラクティブなグラフ・関連語などがみられる。

Graph Learning: A Survey [38.2]
本稿では,グラフ学習の現状について概観する。グラフ信号処理,行列分解,ランダムウォーク,ディープラーニングなど,既存のグラフ学習手法の4つのカテゴリに特に注目されている。テキスト,画像,科学,知識グラフ,最適化といった分野におけるグラフ学習アプリケーションについて検討する。
論文参考訳（メタデータ） (Mon, 3 May 2021 09:06:01 GMT)
- グラフ構造データに対するサーベイ論文。多岐にわたるアルゴリズムが考案されていることがわかる。node2vec, struc2vec, graph2vec, hin2vec, metapath2vecと2vec系だけでもいろいろある。

GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions [45.6]
テキストから動画を自動レグレッシブに生成できるオープンドメインのテキスト・トゥ・ビデオプリトレーニングモデル「GODIVA」を提案する。 Howto100Mは、1億1600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。実験により、GODIVAは下流のビデオ生成タスクでファインチューニングできるだけでなく、初見のテキストでも優れたゼロショット機能を持つことが示された。
論文参考訳（メタデータ） (Fri, 30 Apr 2021 07:40:35 GMT)
- テキストからの動画生成に関する論文。この手のモデルの高機能が進んでいる。ここでは（も）正しい評価は課題のよう。CLIPを用いた評価戦略に有効性が認められたのはBERT系手法を評価に用いる自然言語処理に似ている。ソースコード等は今後公開とのこと。

Entailment as Few-Shot Learner [20.7]
プリトレーニング済みの小さな言語モデルを、より優れた少人数学習者に変える新しいアプローチを提案します。このアプローチの鍵となる考え方は、潜在的NLPタスクをentailmentタスクに再構成し、モデルを8つの例で微調整することである。提案手法は, (i) 教師なしのコントラスト学習に基づくデータ拡張法と自然に組み合わされ, (ii) 多言語限定学習に容易に拡張できることを示す。 18 の標準 NLP タスクの体系的評価は,既存の SOTA 数ショット学習手法を 12 % 改善し,GPT-3 などの500 倍のモデルで競合的な数ショット性能が得られることを示す。
論文参考訳（メタデータ） (Thu, 29 Apr 2021 22:52:26 GMT)
- 自然言語関連の様々なタスクをうまく変換し、含意タスクとして解くという論文。汎用的なエンジンに近づいていく方向性のように思える。