FCM: Forgetful Causal Masking

  • FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners [139.6]
    本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。 我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。 実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
    論文  参考訳(メタデータ)   (Mon, 24 Oct 2022 17:46:57 GMT)
    • インプットするトークン列の一部をマスクするForgetful Causal Masking (FCM)を提案、計算量を増やさずにZero/Few shot能力を向上できたとの報告 

BIG-Bench Hard

  • Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.5]
    我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。 BBHタスクへのチェーン・オブ・ソウト(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 17:08:26 GMT)
    • BIG-Benchで人のスコアを上回らなかった23タスクに焦点を当て、Chain of Thoughtの適用で10 or 17タスクで性能の改善が見られたとのこと。
      • CoTめっちゃ強力…
    • プロジェクトサイトはsuzgunmirac/BIG-Bench-Hard: BIG-Bench-Hard (github.com)

Transcending Scaling Laws with 0.1% Extra Compute 

  • Transcending Scaling Laws with 0.1% Extra Compute [128.1]
    言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。 本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。 ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
    論文  参考訳(メタデータ)   (Thu, 20 Oct 2022 16:46:41 GMT)
    • 処理を行ったU-PaLMは、英語のNLPタスク(例えば、常識推論、質問応答)、連鎖思考(eg、GSM8K)、多言語タスク(MGSM、TydiQA)、MMLU、BIG-Benchタスクなどでfew-shot PaLMよりも優れているとのこと。

Can Pretrained Language Models (Yet) Reason Deductively? 

  • Can Pretrained Language Models (Yet) Reason Deductively? [72.9]
    PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。 本研究の主目的は, PLMがまだ信頼性の高い導出的推論を行うことができないことである。 PLMは人間レベルの推論能力からは程遠いことがわかりました。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 17:44:15 GMT)
    • Pretrained Language Modelを詳細にテスト、演繹的な推論はできていないとの報告。言い換えや否定的な表現への変更などの変更に苦しんでいることが分かる。

An Empirical Study on Finding Spans

  • An Empirical Study on Finding Spans [31.4]
    エンド・ツー・エンドの情報抽出システムのトレーニングに活用できるアプローチに着目する。 タスク特性を考慮せずに、すべての下流タスクをうまく解決できる銀の弾丸がないことを認識します。
    論文  参考訳(メタデータ)   (Thu, 13 Oct 2022 08:15:48 GMT)
    • Named Entity Recognition (NER)、Event Extraction (EE)、Relation Extraction (RE)、Coreference Resolution (CR)といったスパンを発見するタスク(典型的には下記)に関するサーベイ
    • 当然かもだが銀の弾丸はない「we found that there is not a single recipe that is best for all scenarios」とのこと

CLIP also Understands Text

  • CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.6]
    Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。 本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
    論文  参考訳(メタデータ)   (Tue, 11 Oct 2022 23:35:18 GMT)
    • 自然言語と画像を結びつけるように使用されることが多い印象のCLIPが純粋なテキスト処理でもBERTなどを超える能力を持っているとの報告。モデルサイズが小さいにも関わらず良好な結果を出せているのが興味深い。
      • 画像とのペアでの学習が理解を助けるというのはめっちゃ人間っぽいし何となく納得感もあるが、詳細な理由が知りたいところ

Mega: Moving Average Equipped Gated AttentionとBART-LS

  • Mega: Moving Average Equipped Gated Attention [150.3]
    メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。 我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 20:52:17 GMT)
    • Transformerを用いたNLPが流行しているが、長文対応は依然として大きな課題。アテンションに移動平均を適用して優れた性能を達成という報告。
    • シンプルな構造だが結果は強力とのこと。なんかLSTMっぽい。
  • Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.6]
    我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。 長文QAタスク上での競合性能を実現するための長文モデルを構築した。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 00:41:07 GMT)
    • 同日に出ていた長文対応の論文。こちらでは様々な手法を比較したうえで「アテンションをpooling-augmented blockwise attentionに置き換え」「長短スパンを混合したT5 スタイルのdenoising loss」「C4をランダムに連結した長文の事前学習データ」を取り入れている。
    • リポジトリはhttps://github.com/facebookresearch/bart_lsとのことだが、現時点では404

SPACE-3: タスク指向の会話理解と生成

  • SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation [123.4]
    SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。 幅広いダウンストリームダイアログタスクを効果的に微調整できる。 その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 14:17:57 GMT)

F-COREF: 参照解決のためのソフトウェア

CommunityLM

  • CommunityLM: Probing Partisan Worldviews from Language Models [11.8]
    コミュニティ言語モデルであるCommunityLMを用いて,同じ質問に対するコミュニティ固有の回答を探索するフレームワークを使用している。 当社のフレームワークでは、Twitter上の各コミュニティメンバーと、彼らによって書かれたツイートに関する微調整LMを識別しています。 次に、対応するLMのプロンプトベース探索を用いて、2つのグループの世界観を評価する。
    論文  参考訳(メタデータ)   (Thu, 15 Sep 2022 05:52:29 GMT)
    • 支持政党のデータを用いて言語モデルを作り、そのモデルへの質問と回答を通して状況を探ろうという研究。デジタルツインっぽくて興味深い。GPT-3よりも特化してモデルを作った方が良い結果。