コンテンツへスキップ
- TASKOGRAPHY: Evaluating robot task planning over large 3D scene graphs [33.3]
TASKOGRAPHYは、3DSGを使った最初の大規模ロボットタスク計画ベンチマークである。 タスク条件付き3DSGスカラー化手法であるSCRUBを提案する。 また,学習ベースプランナが3DSG構造を活用できる手法であるSEEKを提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 11 Jul 2022 16:51:44 GMT)
- BackdoorBench: A Comprehensive Benchmark of Backdoor Learning [57.9]
バックドア学習は、ディープニューラルネットワーク(DNN)の脆弱性を研究する上で、新しく重要なトピックである 多くの先駆的なバックドア攻撃と防衛手法が、素早い武器競争の状況において、連続的または同時に提案されている。 BackdoorBenchというバックドア学習の総合的なベンチマークを構築しています。
論文 参考訳(メタデータ) (Sat, 25 Jun 2022 13:48:04 GMT)- バックドア攻撃と防御のためのベンチマーク。攻撃手法、防御手法の組み合わせで表現されたリーダーボードが面白い。
- プロジェクトサイトはBackdoorBench
- Benchopt: Reproducible, efficient and collaborative optimization benchmarks [66.3]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (Mon, 27 Jun 2022 16:19:24 GMT)
- GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.2]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 23 Jun 2022 14:38:38 GMT)
- TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.4]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。 35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。 さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 09:05:30 GMT)
- Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。 テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (Mon, 23 May 2022 17:42:53 GMT)
- Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification [39.0]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 4 May 2022 15:33:00 GMT)- データセットによってモデルの識別能力に差があり、いくつかのデータセットは能力の高いモデル識別に寄与していないとの報告。
- 感覚的には自明であり「難しいデータセット」と呼んでいたものはあったが、改めて整理される重要な特性であることが分かる。
- GRIT: General Robust Image Task Benchmark [32.6]
本稿では,GRIT(General Robust Image Task)ベンチマークを紹介する。 GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。 ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一プラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。
論文 参考訳(メタデータ) (Thu, 28 Apr 2022 17:13:23 GMT)
- WebFace260M: A Benchmark for Million-Scale Deep Face Recognition [89.4]
我々は、未修正4MのID/260Mの顔(WebFace260M)とクリーン2MのID/42Mの顔(WebFace42M)を含む新しい100万スケールの認識ベンチマークに貢献する。 分散フレームワークは、性能を損なうことなく、顔認識モデルを効率的に訓練するために開発された。 提案したベンチマークは、標準、マスク付き、偏見のない顔認識シナリオにおいて大きな可能性を示している。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 21 Apr 2022 14:56:53 GMT)
- Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.1]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。 ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。 このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) 参考訳(全文) (Sat, 16 Apr 2022 03:12:30 GMT)