Adversarial GLUE: NLPの頑健性(攻撃耐性)を評価するベンチマーク

  • Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.0]
    AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。 テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 4 Nov 2021 12:59:55 GMT)
    • 敵対的攻撃環境下で動作させることを目的としたベンチマーク、データセットの提案。「攻撃アルゴリズムの多くが無効または曖昧な例を生成する → 慎重なフィルタリング処理を実施」「言語モデルとトレーニングメソッドはAdvGLUEではパフォーマンスが悪く、スコアは大きく劣化」という攻撃する側、される側ともに課題がありそうなのが興味深い。
    • プロジェクトサイトはhttps://adversarialglue.github.io/

CLUES(Constrained Language Understanding Evaluation Standard): Few-shot Leafningのベンチマーク

  • CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.6]
    我々は,NLUモデルのFewショット学習能力を評価するためのベンチマークであるCLUESを紹介する。 近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 00:43:15 GMT)
    • 近年、Few-shot学習用のベンチマークが発表されているが、すべてのタスクに人間の評価値があるものは珍しい気がする。
    • リポジトリはhttps://github.com/microsoft/CLUES

商用AIを作る際のライセンス問題

  • Can I use this publicly available dataset to build commercial AI software? Most likely not [8.9]
    商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。 その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
    論文  参考訳(メタデータ)   (Wed, 3 Nov 2021 17:44:06 GMT)
    • CIFAR-10、ImageNet、Cityscapes、MS COCO、FFHQ、VGGFace2の商用利用が可能か調べたもの。5つはリスクがあり、(守るべき規定はあるが)利用可能そうなのはCC BYなMS COCOのみとのこと。
    • 商用利用に限らずライセンス確認は必須だが、特に研究用のデータセットはその辺りが不明瞭なものも多い。Creative Commonsのような明確な規定のデータが増えてほしい。

Klarna Product Page Dataset:現実に近いWEBページのデータセット

  • The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning [60.5]
    本稿では,DOM木要素表現学習の未探索問題に対処する。 一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。 ウェブページの大規模かつ現実的なデータセットを提示する。
    論文  参考訳(メタデータ)   (Wed, 3 Nov 2021 12:13:52 GMT)
    • 製品紹介のWEBページに対してアノテーションを行ったデータセット。8言語、8Kサイト、51Kページと規模が大きい。複数アルゴリズムでの評価結果も参考になる。
    • リポジトリはhttps://github.com/klarna/product-page-dataset、データのライセンスはCreative Commons BY-NC-SA licenseとのこと。

人間の注意を併用する学習

  • Human Attention in Fine-grained Classification [38.7]
    我々は,人間の注意が分類などの意思決定プロセスに有用な情報を含んでいることを検証した。まずデータセットCUBに対して人間の視線データを収集し,CUB-GHA(Gaze-based Human Attention)を構築する。次に人間の視線を分類モデルに統合するために、GAT(Gaze Augmentation Training)とKFN(Knowledge Fusion Network)を提案する。
    論文  参考訳(メタデータ)   (Tue, 2 Nov 2021 14:41:11 GMT)

数学的推論用データセットGSM8Kと検証モデルの有効性

  • Training Verifiers to Solve Math Word Problems [12.3]
    GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。 最大のモデルでさえ高いテスト性能を達成できないことがわかった。 性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
    論文  参考訳(メタデータ)   (Wed, 27 Oct 2021 04:49:45 GMT)
    • 自然言語処理ではまだ解くことが難しい、マルチホップな数学的推論が必要なデータセットの提案。巨大モデルでも解くのが難しいが、検証(Verification)を行うモデルを用いることで性能が向上(30倍のサイズのモデルに匹敵)したとのこと。
      • 分野の得意不得意と解釈してよいのか、言語理解の有無と解釈してよいのか、いろいろと考えさせられる結果。
    • リポジトリはhttps://github.com/openai/grade-school-math

IconQA: Icon Question Answering データセット

  • IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning [132.5]
    IconQA(Icon Question Answering)の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。 さらに、377クラスに645,687個のアイコンを含むアイコンデータセットIcon645をリリースしました。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 18:52:26 GMT)
    • 抽象的な図(アイコン画像)を対象としてVisual Question Answeringタスクとデータセットの提案。QAに解くのに必要なスキルが紐づいていたり、人間のパフォーマンスが計測されているなど非常に有能なデータセットとの印象。ライセンスは CC BY-NC-SA
    • リポジトリはhttps://iconqa.github.io/

フェルミ推定問題を解く自然言語処理

  • How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New Reasoning Challenge for AI [32.5]
    我々は新たな推論問題、すなわちフェルミ問題(Fermi Problems, FPs)を提案する。 FPは、その正確な計算が非現実的であるか不可能なものに対して答えをおよそ見積もる質問である。 1)クイズ及びオリンピアードから得られた1k個の現実世界FPの収集、 2) より複雑な10kの合成FPはより難しい現実的課題のサンドボックスとして機能する。 質問応答ペアに加えて、データセットには実行可能プログラムの形式で詳細なソリューションが含まれている
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 27 Oct 2021 06:39:33 GMT)
    • フェルミ推定用データセットとそのタスクの提案。「問題を創造的に解決可能なチャンクに分解し、常識推論の能力をテスト」を目標にしているのこと。答えに至るまでの過程として、答えをサポートするファクトやその説明がデータに含まれているのが特徴的。T5を使用しかなりFine-tuningしても性能は低く、難しいタスクとのこと。

ConditionalQA: 条件に応じた回答を含むQAデータセット

  • ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers [93.6]
    条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。 このデータセットを ConditionalQA と呼びます。 本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
    論文  参考訳(メタデータ)   (Wed, 13 Oct 2021 17:16:46 GMT)
    • 質問に対して「〇〇の場合はyes」「△△の場合はno」のように、回答に条件があるタイプのQAデータセット。機械的に解くことは簡単ではなく人間とのスコア差が大きいとのこと。この手の質問回答は現実社会で普通に見られるため重要なタスクであるとの印象。
    • リポジトリはhttps://github.com/haitian-sun/ConditionalQA、リーダーボードも存在。

ドキュメントの単純化タスク

  • Document-Level Text Simplification: Dataset, Criteria and Baseline [75.6]
    文書レベルのテキスト単純化の新しいタスクを定義し,検討する。 Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。 本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Oct 2021 08:15:31 GMT)