TASKOGRAPHY, SCRUB, SEEK

BackdoorBench

  • BackdoorBench: A Comprehensive Benchmark of Backdoor Learning [57.9]
    バックドア学習は、ディープニューラルネットワーク(DNN)の脆弱性を研究する上で、新しく重要なトピックである 多くの先駆的なバックドア攻撃と防衛手法が、素早い武器競争の状況において、連続的または同時に提案されている。 BackdoorBenchというバックドア学習の総合的なベンチマークを構築しています。
    論文  参考訳(メタデータ)   (Sat, 25 Jun 2022 13:48:04 GMT)
    • バックドア攻撃と防御のためのベンチマーク。攻撃手法、防御手法の組み合わせで表現されたリーダーボードが面白い。
    • プロジェクトサイトはBackdoorBench

Benchopt: 最適化ベンチマーク

  • Benchopt: Reproducible, efficient and collaborative optimization benchmarks [66.3]
    Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
    論文  参考訳(メタデータ)   (Mon, 27 Jun 2022 16:19:24 GMT)

GEMv2: Multilingual NLG Benchmarking

  • GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.2]
    Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 23 Jun 2022 14:38:38 GMT)
    • モジュール式で拡張可能な自然言語生成系タスクの評価インフラストラクチャの提案。論文公開時点では日本語を含むタスクは3つのよう。
    • プロジェクトサイトはGEM (gem-benchmark.com)GEM (GEM benchmark) (huggingface.co)だと思うのだが、全データが公開されているわけではない(?)

TwiBot-22: Twitterボット検出用ベンチマーク

  • TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.4]
    TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。 35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。 さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
    論文  参考訳(メタデータ)   (Sun, 12 Jun 2022 09:05:30 GMT)

Imagen: Googleの画像生成AI

  • Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
    Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。 テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
    論文  参考訳(メタデータ)   (Mon, 23 May 2022 17:42:53 GMT)
    • DALL-E 2よりも高性能と主張するGoogleの画像生成モデル。テキストエンコーダとしてT5-XXLを用いテキストをエンコード、Diffusion Modelで画像生成を行い、super resolutionをしていくというパイプライン。
    • プロジェクトサイトはImagen: Text-to-Image Diffusion Models (gweb-research-imagen.appspot.com) (論文ではhttps://imagen.research.google/)

Are All the Datasets in Benchmark Necessary?

  • Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification [39.0]
    本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 4 May 2022 15:33:00 GMT)
    • データセットによってモデルの識別能力に差があり、いくつかのデータセットは能力の高いモデル識別に寄与していないとの報告。
    • 感覚的には自明であり「難しいデータセット」と呼んでいたものはあったが、改めて整理される重要な特性であることが分かる。

GRIT(General Robust Image Task): 頑健性を考慮した画像処理ベンチマーク

  • GRIT: General Robust Image Task Benchmark [32.6]
    本稿では,GRIT(General Robust Image Task)ベンチマークを紹介する。 GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。 ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一プラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。
    論文  参考訳(メタデータ)   (Thu, 28 Apr 2022 17:13:23 GMT)

WebFace260MとWebFace42M:顔認識データセット

  • WebFace260M: A Benchmark for Million-Scale Deep Face Recognition [89.4]
    我々は、未修正4MのID/260Mの顔(WebFace260M)とクリーン2MのID/42Mの顔(WebFace42M)を含む新しい100万スケールの認識ベンチマークに貢献する。 分散フレームワークは、性能を損なうことなく、顔認識モデルを効率的に訓練するために開発された。 提案したベンチマークは、標準、マスク付き、偏見のない顔認識シナリオにおいて大きな可能性を示している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 21 Apr 2022 14:56:53 GMT)
    • 非常に大規模な顔画像データセット。WebFace42Mの方は自動的なクリーニング済み。
    • プロジェクトサイトはWebFace260M (face-benchmark.org)、商業利用は不可で研究目的のデータ。

Natural Instructions v2: 自然言語で説明されたタスク

  • Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.1]
    Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。 ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。 このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sat, 16 Apr 2022 03:12:30 GMT)
    • 自然言語で説明が付与されたタスク・データセット。
      • 自然言語で命令すればタスクをこなしてくれるモデルの実現が近づいている印象があり、重要なデータセットだと思う。
    • Learning From Instructions (allenai.org)