Automatic Essay Scoring(AES)システムの脆さの検証と保護モデル

  • AES Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.5]
    スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。BERT などのリッチなコンテキスト埋め込みを備えた “エンドツーエンド” モデルとして訓練されているにもかかわらず、Bag of Wordsのように振る舞うことを示唆している。これらの問題に対処するため過敏性と過大性を引き起こすサンプルを高精度で検出できる保護モデルを提案する。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 03:49:38 GMT)
    • Deep Learningを用いて文脈等も考慮する複雑なスコアリングモデルのはずが数個の単語に大きくスコアが影響されることがあるとの指摘。350単語のエッセイに3単語を追加することでスコアを50%変化させることができたとのこと。
    • 保護方法も提案しているとはいえ、このような問題を内包しているモデルが社会に受け入れられるかは謎。。。
      • 文脈すらとらえられるはずのDeep LearningモデルがBoWっぽく動くというのはそのようなこともあるんだろうなとは思う。特定の単語が採点基準上重要な事は人間による評価でもありがち。

CPT(Cross-modal Prompt Tuning / Colorful Prompt Tuning):画像/言語のプロンプトチューニング

  • CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5]
    我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。 総合的な実験結果から、VL-PTM(Pre-Trained Vision-Language Models)のプロンプトチューニングは、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 08:07:29 GMT)
    • 「画像中の参照領域を特定の色で塗りつぶす」+「テキスト部分にも対応する色を入れる」ことにより画像とテキストを結びつける事でvisual grounding問題を穴埋め問題に再構成しプロンプトを実現(論文の図を見るのが分かりやすい)。Few-shotとZero-shotの設定ではfine tuningを上回る性能とのこと。
      • 本当にできるのか?と思うくらい面白い成果。
    • データとコードが公開されるとのことで詳細はそれを確認したい。

マルチタスク・マルチリンガルのための大規模・効率的なMoE(Mixture of Experts)学習

  • Scalable and Efficient MoE Training for Multitask Multilingual Models [56.0]
    我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。 また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
    論文  参考訳(メタデータ)   (Wed, 22 Sep 2021 00:57:46 GMT)
    • 極めて大規模なモデルを構築可能な手法に関する論文。既存手法に比べて同じハードウェアで8倍のモデルサイズの学習を実現。
    • 構築された機械翻訳モデルの学習効率と性能が凄い。denseなモデルに比べて10倍収束が速い。単純な個別のバイリンガルモデルにくらべてマルチリンガル設定でBLEU +4pt、M2M-100に比べてBLEU + 3pt。などすごい数値が並んでいる。
    • リポジトリはhttps://github.com/microsoft/DeepSpeed、チュートリアルへのリンクもあって非常に参考になる。

Fact Checkingのサーベイ

  • Automated Fact-Checking: A Survey [5.7]
    自然言語処理(NLP)の分野の研究者は、ファクトチェックデータセットを構築することで、このタスクに貢献している。 本稿では,クレーム検出とクレーム検証の両方を対象とする自動ファクトチェックについて検討する。
    論文  参考訳(メタデータ)   (Thu, 23 Sep 2021 15:13:48 GMT)
    • 以前紹介したものとは別チームによるFact-Checkingのサーベイ。データセットの名前が異なったりしていて興味深い(?)

MiRANews: 複数のソースを用いた単一ドキュメントの要約

  • MiRANews: Dataset and Benchmarks for Multi-Resource-Assisted News Summarization [19.1]
    我々は、新しいデータセットMiRANewsと既存の要約モデルをベンチマークする。 データ分析を通じて、責任を負うのはモデルだけではないことを示します。MiRANewsのゴールドサマリーで言及されている事実の27%以上は、メインソースの記事よりもドキュメントのアシストに重点を置いています。 MiRANewsで微調整された事前学習モデルから生成された要約の誤り解析により、これはモデルにさらに大きな影響を及ぼすことが明らかとなった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 22 Sep 2021 10:58:40 GMT)
    • 補助的なリソースを用いる要約タスクとデータセットを提案。multi-document summarizationとは異なり、補助的なリソースを用いながら、あくまで単一ドキュメントの要約を目指している点が特徴。データセットは150Kと規模が大きい。

NOAHQA(Numerical reasOning with interpretAble grapH QA dataset): 数値推論を必要とするバイリンガルQAデータセット

  • NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset [26.8]
    数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。 我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5のEMスコアしか達成できないことを示す。 また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 22 Sep 2021 09:17:09 GMT)
    • 算数の文章題のような数値推論を必要とするQAを含むバイリンガル(英語、中国語)のデータセットを提案。データ数は約20K。先端的な構造を使っても人間とのパフォーマンス差が大きいと報告。

TranslateLocally: CPUで動作する高速な機械翻訳

  • TranslateLocally: Blazing-fast translation running on the local CPU [11.0]
    translateLocallyは10年前のハードウェアでもクラウドのような翻訳速度と品質を提供する。 オープンソースソフトウェアはMarianをベースにしており、Linux、Windows、CPUで動作する。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 14:20:39 GMT)
    • Marian-NMTをベースにしたCPUで高速に動作可能な機械翻訳ソフトウェアの紹介。現状日本語は対応していなさそうなのでFuguMTで集めたコーパス使って参加してみようかと思わなくもない。

GPT-3+人間のフィードバックを用いた再帰的な要約モデル

  • Recursively Summarizing Books with Human Feedback [10.1]
    本論では,小説全体の抽象的要約の課題について述べる。 タスクの小さな部分でトレーニングされたモデルを使用して、より広範なタスクに対するフィードバックの提供を支援します。 書籍長要約のための最近のBookSumデータセットについて,最先端の成果を得た。
    論文  参考訳(メタデータ)   (Wed, 22 Sep 2021 17:34:18 GMT)
    • 本のセクションを要約、それらをさらに要約して本全体の要約を作成する方針の研究。それ自体はシンプルなアプローチだが、GPT-3(family)の使用、人間のラベラーのフィードバックを強化学習に利用など詳細な手法が興味深い。
    • 「We chose narrative fiction books due to our belief that they were the most difficult to summarize, which is supported by our later qualitative findings (Appendix J).」というのも面白い。ELYZA digestとかでも難しいとされていた気がする。

ゼロショットでのドキュメントレベルニューラル機械翻訳能力の転送

  • Multilingual Document-Level Translation Enables Zero-Shot Transfer From Sentences to Documents [19.6]
    ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。 本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 17:49:34 GMT)
    • Document-level Neural Machine Translationの実現には(文ではなく)文書のパラレルコーパスが不足しているという問題がある。文書レベルのコーパスが充実している言語のDocNMTとSenNMT(文レベルのニューラル機械翻訳)、文書レベルのコーパスが不足している言語のSenNMTを組み合わせて、文書レベルのコーパスが不足している言語のDocNMTが作成可能とした報告。
      • Docレベルの評価ではBLEUがうまく機能しないことを含めて面白い結果。

Transformerによる映像-言語の事前学習モデルのサーベイ

  • Survey: Transformer based Video-Language Pre-training [28.9]
    本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。 まず、注意機構、位置符号化などを含む背景知識を紹介する。 シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 21 Sep 2021 02:36:06 GMT)
    • 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。(注:残念ながらFuguMTが綺麗に訳せている事は意味しない)