ベンチマーク – ページ 18 – arXiv最新論文の紹介

Never-Ending VIsual-classiﬁcation Stream (Nevis’22)

NEVIS’22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research [96.5]
我々は100以上の視覚的分類タスクのストリームからなるベンチマークであるNever Ending VIsual-classification Stream (NEVIS’22)を紹介する。分類に制限されているにもかかわらず,OCRからテクスチャ分析,群集数,シーン認識など,様々なタスクが生み出されている。 NEVIS’22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文参考訳（メタデータ） (Tue, 15 Nov 2022 18:57:46 GMT)
画像系ベンチマークを収集したもので106タスクからなるとのこと。AutoMLのターゲットになるのかなーと思う。
リポジトリはdeepmind/dm_nevis: NEVIS’22: Benchmarking the next generation of never-ending learners (github.com)、Benchmarking the next generation of never-ending learners (deepmind.com)にBlogの記事がある。

Causal Bench

CausalBench: A Large-scale Benchmark for Network Inference from Single-cell Perturbation Data [61.1]
CausalBenchは、大規模摂動単細胞遺伝子発現データに基づくネットワーク推定手法を評価するための総合ベンチマークスイートである。 CaulBenchは、摂動下で生成された単一セルデータから遺伝子制御ネットワークの推論方法を評価するために、2つの大きく、キュレートされ、公開されているベンチマークデータセットを運用している。
論文参考訳（メタデータ） (Mon, 31 Oct 2022 13:04:07 GMT)
大規模な（摂動下の）遺伝子発現のベンチマーク
- プロジェクトサイトはcausalbench/causalbench (github.com)

LILA(Lilavatiより？)

Lila: A Unified Benchmark for Mathematical Reasoning [60.0]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (Mon, 31 Oct 2022 17:41:26 GMT)
- 数学的な推論のためのデータセット。23タスク44データセットと大規模。GPT-Neo-2.7Bをfinetuneしたモデル、GPT-3/Codexのfew shotで検証されておりCodexが比較的高性能。ただ、スコアは高くない。
- プロジェクトサイトはallenai/Lila: A unified benchmark for math reasoning (github.com)。モデルはallenai/bhaskara · Hugging Face
- 名称はバースカラ2世 – Wikipediaの著書からのよう。

Multilingual Grade School Math (MGSM) ベンチマーク

Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 17:03:34 GMT)
- GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
- EN-COT > Native-COTである点は興味深い（そして翻訳を介するのがもっとの性能が高いのも…）
- リポジトリはgoogle-research/url-nlp (github.com)

MEDFAIR: 医療画像処理の公平性ベンチマーク

MEDFAIR: Benchmarking Fairness for Medical Imaging [44.7]
MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
論文参考訳（メタデータ） (Tue, 4 Oct 2022 16:30:47 GMT)
- 医療画像解析における公平性ベンチマーク。特定グループで性能差がないなどのベンチマークが可能。
- リポジトリはys-zong/MEDFAIR: MEDFAIR: Benchmarking Fairness for Medical Imaging (github.com)

TempoWiC

TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social Media [17.8]
我々は、ソーシャルメディアベースの意味変化の研究を加速するための新しいベンチマークであるTempoWiCを紹介する。この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。
論文参考訳（メタデータ） (Fri, 16 Sep 2022 16:54:46 GMT)
- SNSにおける意味の変化も考慮したベンチマークの提案。super GLUEに取り入れられているWiC同様、単語の意味が同じかに注目したものになっている。
- リポジトリはcardiffnlp/TempoWiC (github.com)

SQA(Science Question Answering)、SCIENCEQAベンチマーク

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.2]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (Tue, 20 Sep 2022 07:04:24 GMT)
- 21kからなるマルチモーダル、マルチホップを含むQAデータセット。注釈等も付与されている。GPT-3 ＆ chain-of-thought (CoT)で正解率75.17%とのこと。
  - 既に低くないのでは？と思わなくもない。
- プロジェクトサイトはScienceQA

FETA(Foundation Model for Expert Task Applications)ベンチマークとデータセット

FETA: Towards Specializing Foundation Models for Expert Task Applications [49.6]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文参考訳（メタデータ） (Thu, 8 Sep 2022 08:47:57 GMT)
- Text-to-Image (T21) と Image-to-Text (I2T) の検索を対象に、専門家のタスクとして多様な自動車サービスマニュアルと販売(IKEA年次カタログ)にフォーカスしたベンチマークの提案。CLIPやFLAVAなどの既存モデルでは難しい問題になっているとのこと。
- 論文中にデータのダウンロードリンクがある。

ALBench: Active Learningのベンチマーク

ALBench: A Framework for Evaluating Active Learning in Object Detection [102.8]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文参考訳（メタデータ） (Wed, 27 Jul 2022 07:46:23 GMT)
- あまり見ないアクティブラーニングのベンチマークフレームワーク
- リポジトリはGitHub – IndustryEssentials/ymir: YMIR, a streamlined model development product.

TASKOGRAPHY, SCRUB, SEEK

TASKOGRAPHY: Evaluating robot task planning over large 3D scene graphs [33.3]
TASKOGRAPHYは、3DSGを使った最初の大規模ロボットタスク計画ベンチマークである。タスク条件付き3DSGスカラー化手法であるSCRUBを提案する。また,学習ベースプランナが3DSG構造を活用できる手法であるSEEKを提案する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Jul 2022 16:51:44 GMT)
- ロボットタスク計画ベンチマーク。対象はRearrangement(k)、Courier(n, k)、Lifted Rearrangement(k)/Courier(n, k)
- プロジェクトサイトはTaskography – Evaluating robot task planning over large 3D scene graphs | Taskography

2025年6月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30