SustainBench: SDGsに関連するベンチマーク

  1. SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning [63.2]
    国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。 近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。 本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
    論文  参考訳(メタデータ)   (Mon, 8 Nov 2021 18:59:04 GMT)
    • SDGsに関連するタスクを集めたデータセット・ベンチマーク。Leaderboardもあり、非常に面白い取り組みだと思う。
      1. Poverty prediction over space
      2. Poverty prediction over time
      3. Weakly supervised cropland classification
      4. Crop type classification
      5. Crop type mapping
      6. Crop yield prediction
      7. Field delineation
      8. Child mortality rate
      9. Women BMI
      10. Women educational attainment
      11. Water quality index
      12. Sanitation index
      13. Brick kiln detection
      14. Representation learning for land cover
      15. Out-of-domain land cover classification

BOBSL(BC-Oxford British Sign Language) Dataset: 大規模手話データセット

  • BBC-Oxford British Sign Language Dataset [64.3]
    我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。 データセットのモチベーションと統計、利用可能なアノテーションについて説明する。 我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
    論文  参考訳(メタデータ)   (Fri, 5 Nov 2021 17:35:58 GMT)
    • 2Kエピソード、1.5K時間、1.2Mセンテンスと大規模な手話データセット
    • 大規模で有用なデータであると同時に、データの分析がしっかり行われているのもさすがだと思う。

AutoML用ベンチマークデータセット

  • Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
    テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。 このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 09:29:16 GMT)
    • AutoML用ベンチマークデータセット。ベンチマークデータセットを通して得られた分析結果も興味深い。ただ、「Given the success of pretrained Transformers across NLP, we are surprised to find both N-Grams and word2vec here provide superior text featurization than Pre-Embedding.」は驚きではないのでは?という印象。
    • リポジトリはhttps://github.com/sxjscience/automl_multimodal_benchmark、データセットのライセンスは CC BY-NC-SA とのこと。

Adversarial GLUE: NLPの頑健性(攻撃耐性)を評価するベンチマーク

  • Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.0]
    AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。 テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 4 Nov 2021 12:59:55 GMT)
    • 敵対的攻撃環境下で動作させることを目的としたベンチマーク、データセットの提案。「攻撃アルゴリズムの多くが無効または曖昧な例を生成する → 慎重なフィルタリング処理を実施」「言語モデルとトレーニングメソッドはAdvGLUEではパフォーマンスが悪く、スコアは大きく劣化」という攻撃する側、される側ともに課題がありそうなのが興味深い。
    • プロジェクトサイトはhttps://adversarialglue.github.io/

CLUES(Constrained Language Understanding Evaluation Standard): Few-shot Leafningのベンチマーク

  • CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.6]
    我々は,NLUモデルのFewショット学習能力を評価するためのベンチマークであるCLUESを紹介する。 近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 00:43:15 GMT)
    • 近年、Few-shot学習用のベンチマークが発表されているが、すべてのタスクに人間の評価値があるものは珍しい気がする。
    • リポジトリはhttps://github.com/microsoft/CLUES

商用AIを作る際のライセンス問題

  • Can I use this publicly available dataset to build commercial AI software? Most likely not [8.9]
    商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。 その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
    論文  参考訳(メタデータ)   (Wed, 3 Nov 2021 17:44:06 GMT)
    • CIFAR-10、ImageNet、Cityscapes、MS COCO、FFHQ、VGGFace2の商用利用が可能か調べたもの。5つはリスクがあり、(守るべき規定はあるが)利用可能そうなのはCC BYなMS COCOのみとのこと。
    • 商用利用に限らずライセンス確認は必須だが、特に研究用のデータセットはその辺りが不明瞭なものも多い。Creative Commonsのような明確な規定のデータが増えてほしい。

Klarna Product Page Dataset:現実に近いWEBページのデータセット

  • The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning [60.5]
    本稿では,DOM木要素表現学習の未探索問題に対処する。 一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。 ウェブページの大規模かつ現実的なデータセットを提示する。
    論文  参考訳(メタデータ)   (Wed, 3 Nov 2021 12:13:52 GMT)
    • 製品紹介のWEBページに対してアノテーションを行ったデータセット。8言語、8Kサイト、51Kページと規模が大きい。複数アルゴリズムでの評価結果も参考になる。
    • リポジトリはhttps://github.com/klarna/product-page-dataset、データのライセンスはCreative Commons BY-NC-SA licenseとのこと。

人間の注意を併用する学習

  • Human Attention in Fine-grained Classification [38.7]
    我々は,人間の注意が分類などの意思決定プロセスに有用な情報を含んでいることを検証した。まずデータセットCUBに対して人間の視線データを収集し,CUB-GHA(Gaze-based Human Attention)を構築する。次に人間の視線を分類モデルに統合するために、GAT(Gaze Augmentation Training)とKFN(Knowledge Fusion Network)を提案する。
    論文  参考訳(メタデータ)   (Tue, 2 Nov 2021 14:41:11 GMT)

数学的推論用データセットGSM8Kと検証モデルの有効性

  • Training Verifiers to Solve Math Word Problems [12.3]
    GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。 最大のモデルでさえ高いテスト性能を達成できないことがわかった。 性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
    論文  参考訳(メタデータ)   (Wed, 27 Oct 2021 04:49:45 GMT)
    • 自然言語処理ではまだ解くことが難しい、マルチホップな数学的推論が必要なデータセットの提案。巨大モデルでも解くのが難しいが、検証(Verification)を行うモデルを用いることで性能が向上(30倍のサイズのモデルに匹敵)したとのこと。
      • 分野の得意不得意と解釈してよいのか、言語理解の有無と解釈してよいのか、いろいろと考えさせられる結果。
    • リポジトリはhttps://github.com/openai/grade-school-math

IconQA: Icon Question Answering データセット

  • IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning [132.5]
    IconQA(Icon Question Answering)の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。 さらに、377クラスに645,687個のアイコンを含むアイコンデータセットIcon645をリリースしました。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 18:52:26 GMT)
    • 抽象的な図(アイコン画像)を対象としてVisual Question Answeringタスクとデータセットの提案。QAに解くのに必要なスキルが紐づいていたり、人間のパフォーマンスが計測されているなど非常に有能なデータセットとの印象。ライセンスは CC BY-NC-SA
    • リポジトリはhttps://iconqa.github.io/