2021年9月9日 – arXiv最新論文の紹介

SeqCo (Sequence Level Contrastive Learning): 対称学習を用いた要約の改善

Sequence Level Contrastive Learning for Text Summarization [49.0]
教師付き抽象テキスト要約のためのContrastive学習モデルを提案する。 3つの異なる要約データセット上で、強いシーケンスからシーケンスへのテキスト生成モデル(すなわちBART)を改善する。また, 人的評価は, 比較対象を含まないモデルに比べて, 忠実度評価が優れていることを示す。
論文参考訳（メタデータ） (Wed, 8 Sep 2021 08:00:36 GMT)
- 画像で流行したContrastive Learningをテキスト要約に適用、BARTの性能を改善したとのこと。CNN/DailyMail でSOTAを改善しているよう。人間の評価でもBARTを上回る性能。CNN/DailyMailのR-1で45台はすごい。

NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.9]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。具体的には、プロトタイプベースの数字埋め込みを利用して、数字の仮数をエンコードし、個別の埋め込み方法によって数字の指数をエンコードする。数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文参考訳（メタデータ） (Tue, 7 Sep 2021 15:06:12 GMT)
- テキストの中の数値を通常の文字とは異なる扱いとする事前学習モデルの提案。数値関連のデータについて性能が向上したとのこと。
- 機械翻訳でも数値の取り扱いに苦労することが多い。機械的に対訳ペアを生成したデータセットの多くが数値関連の問題を抱えていることからも、数値を別扱いするというのは良い方法のように思える。
  - ニューラル機械翻訳モデルと対訳データの品質で示したように、対訳コーパス（WikiMatrixなど）によっては数値対応が取れていないデータをルールベースで削除することが精度向上につながることもある。

CX-ToM: Counterfactual Explanations with Theory-of-Mind for Enhancing Human Trust in Image Recognition Models [84.3]
我々は、深層畳み込みニューラルネットワーク(CNN)による決定を説明するための、新しい説明可能なAI(XAI)フレームワークを提案する。単発応答として説明を生成するXAIの現在の手法とは対照的に,我々は反復的な通信プロセスとして説明を行う。本フレームワークは,機械の心と人間の心の相違を媒介し,対話における説明文のシーケンスを生成する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 6 Sep 2021 07:00:34 GMT)
- 対話型のXAIフレームワークの提案。AIとユーザのインタラクションを通して説明を行っていくとのことで、「①AIが画像をシマウマと認識」「②ユーザがなぜ馬でないか質問」「③AIは縞模様の画像を表示、ユーザの認識を確認」「④AIは縞模様を重視していると回答」という例が挙げられていた。SHAPやLIMEよりユーザからの信頼性度数と満足度の双方で優れていたとのこと。
  - 人間同士でもQAをしながらモデルの理解を深めるわけで自然なフレームワークに見える。一方で論文中にはちょくちょく手作業が入っていて汎用的に完全自動化できるのかは疑問。

Datasets: A Community Library for Natural Language Processing [55.5]
データセットは、現代のNLPのためのコミュニティライブラリである。このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文参考訳（メタデータ） (Tue, 7 Sep 2021 03:59:22 GMT)
- みんな大好き（？）Huggingfaceとコミュニティが整備したデータセットライブラリ。幅広いデータセットが使いやすく整備されている。
- リポジトリはhttps://github.com/huggingface/datasets、「pip install datasets」はすごいコマンドだなとも。