What’s the Meaning of Superhuman Performance in Today’s NLU?

  • What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
    我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。 より公平で透過的なベンチマークのためのレコメンデーションを提供します。
    論文  参考訳(メタデータ)   (Mon, 15 May 2023 07:48:31 GMT)
  • ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは?について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。

VALL-E

  • Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.6]
    テキストから音声合成(TTS)のための言語モデリング手法を提案する。 具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 15:37:15 GMT)
  • 最近の言語モデルと似たアーキテクチャを用いたText to Speechモデルの提案。この分野にもpromptを用いたモデルが出てきているのが興味深い。
  • リポジトリはunilm/valle at master · microsoft/unilm · GitHub、でもページがVALL-E (valle-demo.github.io)にある。高品質な合成ができているように思う。

BARTSmiles

自然言語処理へのバックドアアタックと防御のサーベイ

  • A Survey on Backdoor Attack and Defense in Natural Language Processing [18.3]
    NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。 ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 02:35:12 GMT)
  • NLPにおける攻撃と防御のサーベイ
  • 短めでざっくりと状況を知るのに良いサーベイ。自然言語一般かもしれないが、良いメトリクスが無いというのはつらいなーと思う(スコアリングモデル自体が攻撃対象になっているとめっちゃ大変そう)

BLOOMの論文

  • BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [266.0]
    大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。 BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。 BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
    論文  参考訳(メタデータ)   (Wed, 9 Nov 2022 18:48:09 GMT)
  • オープンなLLM、bigscience/bloom · Hugging Faceの論文
  • オープンな巨大モデルは貴重であり自然言語処理分野での重要な研究成果。関わっている研究者も非常に多い。使用したデータセットに日本語が入っていない点は残念。ただ、Codeとして含まれていな内容を通じてか日本語も一定レベルで処理が可能であるのは興味深い。

XY-LENT: X-Y bitext enhanced Language ENcodings using Transformers

  • Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning [99.4]
    我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
    論文  参考訳(メタデータ)   (Wed, 26 Oct 2022 17:16:52 GMT)
    • mBERTやXLM-Rより優れた多言語モデルの提案

FCM: Forgetful Causal Masking

  • FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners [139.6]
    本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。 我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。 実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
    論文  参考訳(メタデータ)   (Mon, 24 Oct 2022 17:46:57 GMT)
    • インプットするトークン列の一部をマスクするForgetful Causal Masking (FCM)を提案、計算量を増やさずにZero/Few shot能力を向上できたとの報告 

BIG-Bench Hard

  • Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.5]
    我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。 BBHタスクへのチェーン・オブ・ソウト(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 17:08:26 GMT)
    • BIG-Benchで人のスコアを上回らなかった23タスクに焦点を当て、Chain of Thoughtの適用で10 or 17タスクで性能の改善が見られたとのこと。
      • CoTめっちゃ強力…
    • プロジェクトサイトはsuzgunmirac/BIG-Bench-Hard: BIG-Bench-Hard (github.com)

Transcending Scaling Laws with 0.1% Extra Compute 

  • Transcending Scaling Laws with 0.1% Extra Compute [128.1]
    言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。 本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。 ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
    論文  参考訳(メタデータ)   (Thu, 20 Oct 2022 16:46:41 GMT)
    • 処理を行ったU-PaLMは、英語のNLPタスク(例えば、常識推論、質問応答)、連鎖思考(eg、GSM8K)、多言語タスク(MGSM、TydiQA)、MMLU、BIG-Benchタスクなどでfew-shot PaLMよりも優れているとのこと。

Can Pretrained Language Models (Yet) Reason Deductively? 

  • Can Pretrained Language Models (Yet) Reason Deductively? [72.9]
    PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。 本研究の主目的は, PLMがまだ信頼性の高い導出的推論を行うことができないことである。 PLMは人間レベルの推論能力からは程遠いことがわかりました。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 17:44:15 GMT)
    • Pretrained Language Modelを詳細にテスト、演繹的な推論はできていないとの報告。言い換えや否定的な表現への変更などの変更に苦しんでいることが分かる。