ベンチマーク – ページ 19 – arXiv最新論文の紹介

BackdoorBench

BackdoorBench: A Comprehensive Benchmark of Backdoor Learning [57.9]
バックドア学習は、ディープニューラルネットワーク(DNN)の脆弱性を研究する上で、新しく重要なトピックである多くの先駆的なバックドア攻撃と防衛手法が、素早い武器競争の状況において、連続的または同時に提案されている。 BackdoorBenchというバックドア学習の総合的なベンチマークを構築しています。
論文参考訳（メタデータ） (Sat, 25 Jun 2022 13:48:04 GMT)
- バックドア攻撃と防御のためのベンチマーク。攻撃手法、防御手法の組み合わせで表現されたリーダーボードが面白い。
- プロジェクトサイトはBackdoorBench

Benchopt: 最適化ベンチマーク

Benchopt: Reproducible, efficient and collaborative optimization benchmarks [66.3]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文参考訳（メタデータ） (Mon, 27 Jun 2022 16:19:24 GMT)
- 最適化のベンチマーク、x軸は時間で（よく使う例でも）結構な差がついているのが興味深い。
- GitHub – benchopt/benchopt: Making your benchmark of optimization algorithms simple and open

GEMv2: Multilingual NLG Benchmarking

GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.2]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文参考訳（メタデータ）参考訳（全文） (Thu, 23 Jun 2022 14:38:38 GMT)
- モジュール式で拡張可能な自然言語生成系タスクの評価インフラストラクチャの提案。論文公開時点では日本語を含むタスクは3つのよう。
- プロジェクトサイトはGEM (gem-benchmark.com)、GEM (GEM benchmark) (huggingface.co)だと思うのだが、全データが公開されているわけではない（？）

TwiBot-22: Twitterボット検出用ベンチマーク

TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.4]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。 35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 09:05:30 GMT)
- 大規模なTwitterボット検出用データセット・ベンチマーク。マルチモーダルの利用も可能とのこと。
- リポジトリはTwiBot-22: Towards Graph-Based Twitter Bot Detection (twibot22.github.io)

Imagen: Googleの画像生成AI

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (Mon, 23 May 2022 17:42:53 GMT)
- DALL-E 2よりも高性能と主張するGoogleの画像生成モデル。テキストエンコーダとしてT5-XXLを用いテキストをエンコード、Diffusion Modelで画像生成を行い、super resolutionをしていくというパイプライン。
- プロジェクトサイトはImagen: Text-to-Image Diffusion Models (gweb-research-imagen.appspot.com)　（論文ではhttps://imagen.research.google/）

Are All the Datasets in Benchmark Necessary?

Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification [39.0]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文参考訳（メタデータ）参考訳（全文） (Wed, 4 May 2022 15:33:00 GMT)
- データセットによってモデルの識別能力に差があり、いくつかのデータセットは能力の高いモデル識別に寄与していないとの報告。
- 感覚的には自明であり「難しいデータセット」と呼んでいたものはあったが、改めて整理される重要な特性であることが分かる。

GRIT(General Robust Image Task): 頑健性を考慮した画像処理ベンチマーク

GRIT: General Robust Image Task Benchmark [32.6]
本稿では,GRIT(General Robust Image Task)ベンチマークを紹介する。 GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一プラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。
論文参考訳（メタデータ） (Thu, 28 Apr 2022 17:13:23 GMT)
- 画像自体の摂動や予測対象の分布が変化した状況下などでモデルが動作するかを検証可能なベンチマーク。 Categorization, Localization, VQA, Referring Expression Segmentation, Pose Keypoint, Surface Normalsの7タスクが対象。
- リポジトリはGitHub – allenai/grit_official: Official repository for the General Robust Image Task (GRIT) Benchmark、Submissions — GRIT Ablation Restricted Leaderboard. – Leaderboards by Allen AIにリーダーボードが存在。

WebFace260MとWebFace42M：顔認識データセット

WebFace260M: A Benchmark for Million-Scale Deep Face Recognition [89.4]
我々は、未修正4MのID/260Mの顔(WebFace260M)とクリーン2MのID/42Mの顔(WebFace42M)を含む新しい100万スケールの認識ベンチマークに貢献する。分散フレームワークは、性能を損なうことなく、顔認識モデルを効率的に訓練するために開発された。提案したベンチマークは、標準、マスク付き、偏見のない顔認識シナリオにおいて大きな可能性を示している。
論文参考訳（メタデータ）参考訳（全文） (Thu, 21 Apr 2022 14:56:53 GMT)
- 非常に大規模な顔画像データセット。WebFace42Mの方は自動的なクリーニング済み。
- プロジェクトサイトはWebFace260M (face-benchmark.org)、商業利用は不可で研究目的のデータ。

Natural Instructions v2: 自然言語で説明されたタスク

Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.1]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文参考訳（メタデータ）参考訳（全文） (Sat, 16 Apr 2022 03:12:30 GMT)
- 自然言語で説明が付与されたタスク・データセット。
  - 自然言語で命令すればタスクをこなしてくれるモデルの実現が近づいている印象があり、重要なデータセットだと思う。
- Learning From Instructions (allenai.org)

NumGLUE: 数学的推論のデータセット

NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.7]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文参考訳（メタデータ） (Tue, 12 Apr 2022 09:36:10 GMT)
- 以下8タスクからなる数学的推論タスクのデータセット。ベースラインも用意されているがかなり困難なタスクに見える。
  - TASK 1 Commonsense + Arithmetic
  - TASK 2 Domain specific + Arithmetic
  - TASK 3 Commonsense + Quantitative
  - TASK 4 Fill-in-the-blanks
  - TASK 5 RC + Explicit Numerical Reasoning
  - TASK 6 RC + Implicit Numerical Reasoning
  - TASK 7 Quantitative NLI
  - TASK 8 Arithmetic word problems
プロジェクトサイトはNumGLUE Dataset — Allen Institute for AI (allenai.org)

2025年6月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30