ベンチマーク – ページ 16 – arXiv最新論文の紹介

LILA(Lilavatiより？)

Lila: A Unified Benchmark for Mathematical Reasoning [60.0]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (Mon, 31 Oct 2022 17:41:26 GMT)
- 数学的な推論のためのデータセット。23タスク44データセットと大規模。GPT-Neo-2.7Bをfinetuneしたモデル、GPT-3/Codexのfew shotで検証されておりCodexが比較的高性能。ただ、スコアは高くない。
- プロジェクトサイトはallenai/Lila: A unified benchmark for math reasoning (github.com)。モデルはallenai/bhaskara · Hugging Face
- 名称はバースカラ2世 – Wikipediaの著書からのよう。

Multilingual Grade School Math (MGSM) ベンチマーク

Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 17:03:34 GMT)
- GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
- EN-COT > Native-COTである点は興味深い（そして翻訳を介するのがもっとの性能が高いのも…）
- リポジトリはgoogle-research/url-nlp (github.com)

MEDFAIR: 医療画像処理の公平性ベンチマーク

MEDFAIR: Benchmarking Fairness for Medical Imaging [44.7]
MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
論文参考訳（メタデータ） (Tue, 4 Oct 2022 16:30:47 GMT)
- 医療画像解析における公平性ベンチマーク。特定グループで性能差がないなどのベンチマークが可能。
- リポジトリはys-zong/MEDFAIR: MEDFAIR: Benchmarking Fairness for Medical Imaging (github.com)

TempoWiC

TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social Media [17.8]
我々は、ソーシャルメディアベースの意味変化の研究を加速するための新しいベンチマークであるTempoWiCを紹介する。この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。
論文参考訳（メタデータ） (Fri, 16 Sep 2022 16:54:46 GMT)
- SNSにおける意味の変化も考慮したベンチマークの提案。super GLUEに取り入れられているWiC同様、単語の意味が同じかに注目したものになっている。
- リポジトリはcardiffnlp/TempoWiC (github.com)

SQA(Science Question Answering)、SCIENCEQAベンチマーク

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.2]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (Tue, 20 Sep 2022 07:04:24 GMT)
- 21kからなるマルチモーダル、マルチホップを含むQAデータセット。注釈等も付与されている。GPT-3 ＆ chain-of-thought (CoT)で正解率75.17%とのこと。
  - 既に低くないのでは？と思わなくもない。
- プロジェクトサイトはScienceQA

FETA(Foundation Model for Expert Task Applications)ベンチマークとデータセット

FETA: Towards Specializing Foundation Models for Expert Task Applications [49.6]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文参考訳（メタデータ） (Thu, 8 Sep 2022 08:47:57 GMT)
- Text-to-Image (T21) と Image-to-Text (I2T) の検索を対象に、専門家のタスクとして多様な自動車サービスマニュアルと販売(IKEA年次カタログ)にフォーカスしたベンチマークの提案。CLIPやFLAVAなどの既存モデルでは難しい問題になっているとのこと。
- 論文中にデータのダウンロードリンクがある。

ALBench: Active Learningのベンチマーク

ALBench: A Framework for Evaluating Active Learning in Object Detection [102.8]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文参考訳（メタデータ） (Wed, 27 Jul 2022 07:46:23 GMT)
- あまり見ないアクティブラーニングのベンチマークフレームワーク
- リポジトリはGitHub – IndustryEssentials/ymir: YMIR, a streamlined model development product.

TASKOGRAPHY, SCRUB, SEEK

TASKOGRAPHY: Evaluating robot task planning over large 3D scene graphs [33.3]
TASKOGRAPHYは、3DSGを使った最初の大規模ロボットタスク計画ベンチマークである。タスク条件付き3DSGスカラー化手法であるSCRUBを提案する。また,学習ベースプランナが3DSG構造を活用できる手法であるSEEKを提案する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Jul 2022 16:51:44 GMT)
- ロボットタスク計画ベンチマーク。対象はRearrangement(k)、Courier(n, k)、Lifted Rearrangement(k)/Courier(n, k)
- プロジェクトサイトはTaskography – Evaluating robot task planning over large 3D scene graphs | Taskography

BackdoorBench

BackdoorBench: A Comprehensive Benchmark of Backdoor Learning [57.9]
バックドア学習は、ディープニューラルネットワーク(DNN)の脆弱性を研究する上で、新しく重要なトピックである多くの先駆的なバックドア攻撃と防衛手法が、素早い武器競争の状況において、連続的または同時に提案されている。 BackdoorBenchというバックドア学習の総合的なベンチマークを構築しています。
論文参考訳（メタデータ） (Sat, 25 Jun 2022 13:48:04 GMT)
- バックドア攻撃と防御のためのベンチマーク。攻撃手法、防御手法の組み合わせで表現されたリーダーボードが面白い。
- プロジェクトサイトはBackdoorBench

Benchopt: 最適化ベンチマーク

Benchopt: Reproducible, efficient and collaborative optimization benchmarks [66.3]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文参考訳（メタデータ） (Mon, 27 Jun 2022 16:19:24 GMT)
- 最適化のベンチマーク、x軸は時間で（よく使う例でも）結構な差がついているのが興味深い。
- GitHub – benchopt/benchopt: Making your benchmark of optimization algorithms simple and open

2025年3月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31