RAFT(Realworld Annotated Few-shot Tasks): Few-shotなテキスト分類ベンチマーク

  • RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
    RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 22:35:31 GMT)
    • 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
      • ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
      • Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
      • NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
      • OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
      • Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
      • Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
      • Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
      • TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
      • Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
      • TweetEval Hate (TEH): ヘイトスピーチの検出タスク
      • Twitter complaints (TC): tweetに苦情を含むかを判別
    • プロジェクトサイトはhttps://raft.elicit.org/

OpenViDial 2.0: 大規模なマルチモーダル対話データセット

  • OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
    より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 28 Sep 2021 15:15:57 GMT)

自然言語処理におけるパラダイムシフト

  • Paradigm Shift in Natural Language Processing [66.6]
    ディープラーニングの時代、ほとんどのNLPタスクのモデリングは、いくつかの主流パラダイムに収束した。 近年, パラダイムシフトが増加傾向にあり, 一つのNLPタスクを別のタスクとして再構成することで解決している。 これらのパラダイムのいくつかは、多数のNLPタスクを統合する大きな可能性を示しており、多様なタスクを処理する単一のモデルを構築することができる。
    論文  参考訳(メタデータ)   (Sun, 26 Sep 2021 11:55:23 GMT)
    • 近年流行りのMLM+promptに至るまでのパラダイムを振り返る内容。タスクの整理など極めて参考になる内容。
      • 統合的なモデルが全てのタスクをうまく扱えるようになるかは謎だが、その可能性は低くないように思う。
    • プロジェクトサイトはhttps://txsun1997.github.io/nlp-paradigm-shift/