Graph Robustness Benchmark: グラフ構造を用いた機械学習の頑健性ベンチマーク

  • Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning [24.5]
    グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。 グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
    論文  参考訳(メタデータ)   (Mon, 8 Nov 2021 07:55:13 GMT)
    • 頑健性(敵対攻撃への耐性)に重きを置いたベンチマークの提案。攻撃側、防御側がコンペのように競いあう方式になっているようで興味深い。

SustainBench: SDGsに関連するベンチマーク

  1. SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning [63.2]
    国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。 近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。 本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
    論文  参考訳(メタデータ)   (Mon, 8 Nov 2021 18:59:04 GMT)
    • SDGsに関連するタスクを集めたデータセット・ベンチマーク。Leaderboardもあり、非常に面白い取り組みだと思う。
      1. Poverty prediction over space
      2. Poverty prediction over time
      3. Weakly supervised cropland classification
      4. Crop type classification
      5. Crop type mapping
      6. Crop yield prediction
      7. Field delineation
      8. Child mortality rate
      9. Women BMI
      10. Women educational attainment
      11. Water quality index
      12. Sanitation index
      13. Brick kiln detection
      14. Representation learning for land cover
      15. Out-of-domain land cover classification

BOBSL(BC-Oxford British Sign Language) Dataset: 大規模手話データセット

  • BBC-Oxford British Sign Language Dataset [64.3]
    我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。 データセットのモチベーションと統計、利用可能なアノテーションについて説明する。 我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
    論文  参考訳(メタデータ)   (Fri, 5 Nov 2021 17:35:58 GMT)
    • 2Kエピソード、1.5K時間、1.2Mセンテンスと大規模な手話データセット
    • 大規模で有用なデータであると同時に、データの分析がしっかり行われているのもさすがだと思う。

CLEVER(Curious Layperson-to-Expert Visual Entity Recognition): エキスパートのアノテーションを使わない画像認識

  • The Curious Layperson: Fine-Grained Image Recognition without Expert Labels [90.9]
    我々は、専門家のアノテーションを使わずに、画像認識する新しい問題を考える。 非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。 次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 5 Nov 2021 17:58:37 GMT)
    • 百科事典のようなデータがある状況下でその記載を読み解いて画像分類につなげる問題を扱った論文。専門家によるラベルは存在しない。普通の人がWikipediaを見ながら勉強するような状況を想定しているようで、面白い問題設定。

AutoML用ベンチマークデータセット

  • Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
    テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。 このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 09:29:16 GMT)
    • AutoML用ベンチマークデータセット。ベンチマークデータセットを通して得られた分析結果も興味深い。ただ、「Given the success of pretrained Transformers across NLP, we are surprised to find both N-Grams and word2vec here provide superior text featurization than Pre-Embedding.」は驚きではないのでは?という印象。
    • リポジトリはhttps://github.com/sxjscience/automl_multimodal_benchmark、データセットのライセンスは CC BY-NC-SA とのこと。

MIRACLE(Missing data Imputation Refinement And Causal LEarning): 因果関係の推論を含む欠損補間

  • MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.9]
    欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。 MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。 我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 4 Nov 2021 22:38:18 GMT)
    • 因果構造を利用して欠損補間を改善するフレームワークを提案。合成データ、実データともに改善を性能確認とのこと。
      • 欠損対応は状況によって悩ましい問題になることがあり、大きな改善をしているように見えるので再現実験をしてみたいなと思う。
    • リポジトリはhttps://github.com/vanderschaarlab/MIRACLE

Adversarial GLUE: NLPの頑健性(攻撃耐性)を評価するベンチマーク

  • Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.0]
    AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。 テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 4 Nov 2021 12:59:55 GMT)
    • 敵対的攻撃環境下で動作させることを目的としたベンチマーク、データセットの提案。「攻撃アルゴリズムの多くが無効または曖昧な例を生成する → 慎重なフィルタリング処理を実施」「言語モデルとトレーニングメソッドはAdvGLUEではパフォーマンスが悪く、スコアは大きく劣化」という攻撃する側、される側ともに課題がありそうなのが興味深い。
    • プロジェクトサイトはhttps://adversarialglue.github.io/

CLUES(Constrained Language Understanding Evaluation Standard): Few-shot Leafningのベンチマーク

  • CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.6]
    我々は,NLUモデルのFewショット学習能力を評価するためのベンチマークであるCLUESを紹介する。 近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 00:43:15 GMT)
    • 近年、Few-shot学習用のベンチマークが発表されているが、すべてのタスクに人間の評価値があるものは珍しい気がする。
    • リポジトリはhttps://github.com/microsoft/CLUES

OpenPrompt: Prompt-learning用のオープンソースフレームワーク

  • OpenPrompt: An Open-source Framework for Prompt-learning [59.2]
    PLM上でのプロンプト学習を行うための統一的な使いやすさツールキットであるOpenPromptを提案する。 OpenPromptは、効率性、モジュール性、拡張性を備えた、リサーチフレンドリーなフレームワークである。
    論文  参考訳(メタデータ)   (Wed, 3 Nov 2021 03:31:14 GMT)
    • プロンプト学習用のフレームワーク、ライセンスはApache-2.0 License、Huggingfaceのtransformersからモデルをロードできるとのことで使いやすそう。
    • リポジトリはhttps://github.com/thunlp/openprompt

商用AIを作る際のライセンス問題

  • Can I use this publicly available dataset to build commercial AI software? Most likely not [8.9]
    商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。 その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
    論文  参考訳(メタデータ)   (Wed, 3 Nov 2021 17:44:06 GMT)
    • CIFAR-10、ImageNet、Cityscapes、MS COCO、FFHQ、VGGFace2の商用利用が可能か調べたもの。5つはリスクがあり、(守るべき規定はあるが)利用可能そうなのはCC BYなMS COCOのみとのこと。
    • 商用利用に限らずライセンス確認は必須だが、特に研究用のデータセットはその辺りが不明瞭なものも多い。Creative Commonsのような明確な規定のデータが増えてほしい。