RAVEN: モデルは新たに文書を作っているのか、学習データをコピーしているのか

  • How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.8]
    現在の言語モデルは高品質なテキストを生成することができる。 彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
    論文  参考訳(メタデータ)   (Thu, 18 Nov 2021 04:07:09 GMT)
    • 新規に出てきたn-gramに注目しテキストの新規性を評価する手法RAVENを開発。言語モデルが生成したテキストは学習データのコピーではないか?という疑問は昔から持っていて興味深い内容。局所的な構造では新規性が低め、全体的な構造では新規性が高め、GPT-2を対象とした解析では意味的問題が散見されたとのこと。
      • 非常に長い文を複製する(例外的な)事象がみられたとあり、この印象がコピーを行っている疑念につながっているのではないかと思う。
    • コード等は公開予定とのこと。

ビジネス文書を対象としたAI適用のサーベイ

  • Document AI: Benchmarks, Models and Applications [35.5]
    ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。 近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。 本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
    論文  参考訳(メタデータ)   (Tue, 16 Nov 2021 16:43:07 GMT)
    • ドキュメントを対象とした分析のサーベイ。レイアウト分析、情報抽出、Visual Question Answeringなど様々なタスクの概要とベンチマーク、モデル等を解説しており参考になる。できることは増えてきているので応用が進んでほしい。
    • サーベイ中、日本語のデータセットはGitHub – doc-analysis/XFUND: XFUND: A Multilingual Form Understanding Benchmarkのみ。ほとんど英語というのは残念。

大規模事前学習による自然言語処理のサーベイ

  • Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey [67.8]
    BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。 本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
    論文  参考訳(メタデータ)   (Mon, 1 Nov 2021 20:08:05 GMT)
    • 事前学習モデルを用いたNLPのサーベイ、本文30ページ。「事前学習+Fine-tuning」「Prompt-based learning 」「テキスト生成への帰着」の3つのパラダイムで整理している。加えてPLMによるデータ生成も扱われており非常に勉強になる。

文書スタイルの転送に関するサーベイ

  • From Theories on Styles to their Transfer in Text: Bridging the Gap with a Hierarchical Survey [10.8]
    スタイル転送は、既存のテキストを書き換え、望ましいスタイル特性を示すパラフレーズを作成することを目的としている。 少数の調査では、この分野の方法論的な概要が示されているが、研究者が特定のスタイルにフォーカスするのを支援していない。 それらを階層に整理し、それぞれの定義の課題を強調し、現在の研究状況のギャップを指摘します。
    論文  参考訳(メタデータ)   (Fri, 29 Oct 2021 15:53:06 GMT)
    • 文体の転送に関するサーベイで58ページと大規模。整理軸や分野の状況を概観するのに役立つ。

NLPの深層学習モデルに対する解釈のサーベイ

  • Interpreting Deep Learning Models in Natural Language Processing: A Review [33.8]
    ニューラルネットワークモデルに対する長年にわたる批判は、解釈可能性の欠如である。 本研究では,NLPにおけるニューラルモデルに対する様々な解釈手法について概説する。
    論文  参考訳(メタデータ)   (Wed, 20 Oct 2021 10:17:04 GMT)
    • 自然言語処理のモデルに対する説明方法のサーベイ。「Training-based: 予測時に影響が強い学習インスタンスの識別」「Test-based: テストデータのどこが予測値に影響を与えているか識別」や「joint: 学習時に解釈性を両立させる」「post-hoc:学習したモデルに対して別途解釈性を付与する 」といった観点で説明手法を分類しており分かりやすい。
    • 「Is attention interpretable?」という問いと不明瞭であるという記載は同感で、私個人としてはAttentionをもってinterpretableと呼ぶには違和感がある。解釈性の文脈でAttentionの有用性に対する反論、それに対する再反論などのやり取りは非常に参考になる。

GenNI(Generation Negotiation Interface): 構造化データを用いたテキスト生成

  • GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.1]
    Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。 GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
    論文  参考訳(メタデータ)   (Tue, 19 Oct 2021 18:07:07 GMT)
  • データからの文章生成は注目点や重要な数値など生成時に使われるべきデータを制御する観点が重要。このような観点でビジュアルなインタラクションを通じたモデル構築ができるのは有用だと思う。デモに期待大。
  • プロジェクトサイトはhttps://genni.vizhub.ai/、デモは11/21オープンとのこと。

Dict-BERT: レアワードの定義を活用する事前学習モデル

  • Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.1]
    事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。 本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。 入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
    論文  参考訳(メタデータ)   (Wed, 13 Oct 2021 04:29:14 GMT)
    • Wiktionaryを使用してレアなワードの定義をテキストの末尾に連結することで事前学習モデル(の下流タスクにおける)性能が向上したとの報告。実際に人間が辞書を引いているような動きであることが興味深い。

FLAN: 大規模テキストの正規化

  • A Fast Randomized Algorithm for Massive Text Normalization [26.6]
    大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。 本アルゴリズムは, 単語間のJaccard係数を利用して補正結果を提案する。 実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
    論文  参考訳(メタデータ)   (Wed, 6 Oct 2021 19:18:17 GMT)
    • 大規模なデータに対しても適用可能な正規化(ミススペルの修正など)手法の提案。機械学習を利用する手法ではなく単語(サブワード)間の Jaccard similarityに注目している。ノイズを加えたデータに対して既存手法より優れた性能を発揮するとのこと。
      • 有用な報告だと思うがFLAN(Finetuned LAnguage Net)と同じ略称でややこしい。こちらのFLANは何の略なんだろう?

マルチタスク・マルチリンガルのための大規模・効率的なMoE(Mixture of Experts)学習

  • Scalable and Efficient MoE Training for Multitask Multilingual Models [56.0]
    我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。 また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
    論文  参考訳(メタデータ)   (Wed, 22 Sep 2021 00:57:46 GMT)
    • 極めて大規模なモデルを構築可能な手法に関する論文。既存手法に比べて同じハードウェアで8倍のモデルサイズの学習を実現。
    • 構築された機械翻訳モデルの学習効率と性能が凄い。denseなモデルに比べて10倍収束が速い。単純な個別のバイリンガルモデルにくらべてマルチリンガル設定でBLEU +4pt、M2M-100に比べてBLEU + 3pt。などすごい数値が並んでいる。
    • リポジトリはhttps://github.com/microsoft/DeepSpeed、チュートリアルへのリンクもあって非常に参考になる。

STraTA(Self-Training with Task Augmentation): タスク拡張による自己学習

  • STraTA: Self-Training with Task Augmentation for Better Few-shot Learning [77.0]
    タスク拡張による自己学習のためのSTraTAを提案する。 実験の結果,STraTAは12個のベンチマークでサンプル効率を大幅に向上できることがわかった。 分析の結果,タスク強化と自己学習は相補的かつ独立的に有効であることが判明した。
    論文  参考訳(メタデータ)   (Mon, 13 Sep 2021 19:14:01 GMT)
    • まずはNatural Language Inference モデルを構築し大量の合成データを作成(Task augmentation)、ラベル付きデータと疑似的なラベル付きデータを用いて反復的にモデルを構築・改善する(Self-Training)方針。各イテレーションはTask Augmentaionによる補助モデルから始め、広い分布の疑似ラベルデータを使用するとのこと。
      • Task augmentaionのベースはT5-3Bとのこと。
    • SST-2で「ラベル付きデータがクラスごとに8つのSTraTA」が67Kサンプルのfine tuningに匹敵とのことで素晴らしい効果。Few-shotの設定(前述のクラスごとに8サンプル)だとprompt-baseなアプローチやEntailmentタスクに持ち込むアプローチに対しても勝率が高い。
    • リポジトリはhttps://github.com/google-research/google-research/tree/master/strata(現状はまだ404)