StoryDB: 多言語なストーリーのデータセットとタスク

  • StoryDB: Broad Multi-language Narrative Dataset [0.3]
    StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。 すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
    論文  参考訳(メタデータ)   (Wed, 29 Sep 2021 12:59:38 GMT)
    • 42言語の物語のストーリー(概略)のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの(マルチラベルな)タグ分類」「Task B: クロスリンガルな設定のTask A(ある言語で学習した結果のゼロショット)」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
    • https://wandb.ai/altsoph/projects が検証結果のよう

RAFT(Realworld Annotated Few-shot Tasks): Few-shotなテキスト分類ベンチマーク

  • RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
    RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 22:35:31 GMT)
    • 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
      • ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
      • Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
      • NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
      • OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
      • Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
      • Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
      • Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
      • TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
      • Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
      • TweetEval Hate (TEH): ヘイトスピーチの検出タスク
      • Twitter complaints (TC): tweetに苦情を含むかを判別
    • プロジェクトサイトはhttps://raft.elicit.org/

OpenViDial 2.0: 大規模なマルチモーダル対話データセット

  • OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
    より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 28 Sep 2021 15:15:57 GMT)

PASS(Pictures without humAns for Self-Supervision) : 著作権や個人情報に配慮したデータセット

  • PASS: An ImageNet replacement for self-supervised pretraining without humans [152.3]
    本稿ではPASS(Pictures without humAns for Self-Supervision)を提案する。 PASSは、CC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。 PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。 PASSは、例えばベンチマークに不十分なため、既存のデータセットを陳腐化しない。しかしながら、より安全なデータを使用して、モデル事前トレーニングがしばしば可能であることを示し、事前トレーニングメソッドをより堅牢に評価する基盤を提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 27 Sep 2021 17:59:39 GMT)
    • 著作権/ライセンスに問題がなく(Creative Commonsの CC BY)、人物画像を含まないデータセットの提案。ラベルが無いという制約はあるものの、このようなデータセットは実務上ありがたい。
    • プロジェクトサイトはhttps://www.robots.ox.ac.uk/~vgg/research/pass/

FewNLU: Few-Shotな自然言語理解タスクの評価フレームワーク

  • FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.9]
    本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。 評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
    論文  参考訳(メタデータ)   (Mon, 27 Sep 2021 00:57:30 GMT)
    • Few-shot性能を評価するためのフレームワークを提案。データ分割戦略、ハイパーパラメータの扱い(promptの扱い)など様々な側面で検討を行っている。
      • (k-fold CVよりMulti Splitの方が良いのはやや意外)
    • リポジトリはhttps://github.com/THUDM/FewNLU、プロジェクトサイトはhttps://fewnlu.github.io/でリーダーボードも存在。

NOAHQA(Numerical reasOning with interpretAble grapH QA dataset): 数値推論を必要とするバイリンガルQAデータセット

  • NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset [26.8]
    数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。 我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5のEMスコアしか達成できないことを示す。 また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 22 Sep 2021 09:17:09 GMT)
    • 算数の文章題のような数値推論を必要とするQAを含むバイリンガル(英語、中国語)のデータセットを提案。データ数は約20K。先端的な構造を使っても人間とのパフォーマンス差が大きいと報告。

CodeQA: プログラムコードに対するQuestion Answering

  • CodeQA: A Question Answering Dataset for Source Code Comprehension [82.6]
    コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。 CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
    論文  参考訳(メタデータ)   (Fri, 17 Sep 2021 06:06:38 GMT)
    • ソースコードに対するQuestion Answeringを行うためのデータセット。コメント文などから生成しているそうだが、他にあまり見ない問題設定のよう思う。
    • リポジトリはhttps://github.com/jadecxliu/CodeQA

GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA

  • Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.0]
    視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするためにGeo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。 その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 14 Sep 2021 17:52:55 GMT)
    • 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT(VCRでトレーニング済み)がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
      • 直感的にはそうなりそうだが確認されると興味深い結果。論文中の分析で地域特性(結婚式、宗教、祭りなど)を含むシナリオのギャップが大きいというのも納得感がある。顧客が登場するシナリオでも差が大きいとのことでこれは地元の商店で買い物をするか、スーパーマーケットで買い物をするかの差ではないかとのこと。この考察も面白い。

xGQA: 7言語の Visual Question Answering

  • xGQA: Cross-Lingual Visual Question Answering [100.4]
    xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。 確立された英語GQAデータセットを7言語に拡張する。 本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
    論文  参考訳(メタデータ)   (Mon, 13 Sep 2021 15:58:21 GMT)
    •  7言語に対応するvisual question answeringデータセット。GQAデータセットを7言語に拡張。ゼロショットでの回答は難しく、few-shotのセッティングだと精度が改善するが依然として簡単ではないタスクであるよう。
    • リポジトリはhttps://github.com/Adapter-Hub/xGQA

SituatedQA:回答のために言語外の文脈が必要なQAデータセット

  • SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.5]
    SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。 質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。 我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 13 Sep 2021 17:53:21 GMT)
    • 回答のために言語外の文脈が必要なQAデータセットの提案。時間的or地理的を表すContext Typeとそれに対応したContext Valueによって答えが変化する。直感的にも予想できる通り、Leaderboardからは人間とモデルの差が大きい解くのが難しい問題のように見える。
    • プロジェクトサイトはhttps://situatedqa.github.io/