Causal Bench

  • CausalBench: A Large-scale Benchmark for Network Inference from Single-cell Perturbation Data [61.1]
    CausalBenchは、大規模摂動単細胞遺伝子発現データに基づくネットワーク推定手法を評価するための総合ベンチマークスイートである。 CaulBenchは、摂動下で生成された単一セルデータから遺伝子制御ネットワークの推論方法を評価するために、2つの大きく、キュレートされ、公開されているベンチマークデータセットを運用している。
    論文  参考訳(メタデータ)   (Mon, 31 Oct 2022 13:04:07 GMT)
  • 大規模な(摂動下の)遺伝子発現のベンチマーク

LILA(Lilavatiより?)

  • Lila: A Unified Benchmark for Mathematical Reasoning [60.0]
    LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。 我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
    論文  参考訳(メタデータ)   (Mon, 31 Oct 2022 17:41:26 GMT)
    • 数学的な推論のためのデータセット。23タスク44データセットと大規模。GPT-Neo-2.7Bをfinetuneしたモデル、GPT-3/Codexのfew shotで検証されておりCodexが比較的高性能。ただ、スコアは高くない。

Multilingual Grade School Math (MGSM) ベンチマーク

  • Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
    本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。 言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 17:03:34 GMT)
    • GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
    • EN-COT > Native-COTである点は興味深い(そして翻訳を介するのがもっとの性能が高いのも…)
    • リポジトリはgoogle-research/url-nlp (github.com)

MEDFAIR: 医療画像処理の公平性ベンチマーク

  • MEDFAIR: Benchmarking Fairness for Medical Imaging [44.7]
    MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。 モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。 異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
    論文  参考訳(メタデータ)   (Tue, 4 Oct 2022 16:30:47 GMT)

TempoWiC

  • TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social Media [17.8]
    我々は、ソーシャルメディアベースの意味変化の研究を加速するための新しいベンチマークであるTempoWiCを紹介する。 この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。
    論文  参考訳(メタデータ)   (Fri, 16 Sep 2022 16:54:46 GMT)
    • SNSにおける意味の変化も考慮したベンチマークの提案。super GLUEに取り入れられているWiC同様、単語の意味が同じかに注目したものになっている。
    • リポジトリはcardiffnlp/TempoWiC (github.com)

SQA(Science Question Answering)、SCIENCEQAベンチマーク

  • Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.2]
    本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。 また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。 我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
    論文  参考訳(メタデータ)   (Tue, 20 Sep 2022 07:04:24 GMT)
    • 21kからなるマルチモーダル、マルチホップを含むQAデータセット。注釈等も付与されている。GPT-3 & chain-of-thought (CoT)で正解率75.17%とのこと。
      • 既に低くないのでは?と思わなくもない。
    • プロジェクトサイトはScienceQA

FETA(Foundation Model for Expert Task Applications)ベンチマークとデータセット

  • FETA: Towards Specializing Foundation Models for Expert Task Applications [49.6]
    ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。 この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。 本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
    論文  参考訳(メタデータ)   (Thu, 8 Sep 2022 08:47:57 GMT)
    • Text-to-Image (T21) と Image-to-Text (I2T) の検索を対象に、専門家のタスクとして多様な自動車サービスマニュアルと販売(IKEA年次カタログ)にフォーカスしたベンチマークの提案。CLIPやFLAVAなどの既存モデルでは難しい問題になっているとのこと。
    • 論文中にデータのダウンロードリンクがある。

ALBench: Active Learningのベンチマーク

  • ALBench: A Framework for Evaluating Active Learning in Object Detection [102.8]
    本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。 自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
    論文  参考訳(メタデータ)   (Wed, 27 Jul 2022 07:46:23 GMT)

TASKOGRAPHY, SCRUB, SEEK

BackdoorBench

  • BackdoorBench: A Comprehensive Benchmark of Backdoor Learning [57.9]
    バックドア学習は、ディープニューラルネットワーク(DNN)の脆弱性を研究する上で、新しく重要なトピックである 多くの先駆的なバックドア攻撃と防衛手法が、素早い武器競争の状況において、連続的または同時に提案されている。 BackdoorBenchというバックドア学習の総合的なベンチマークを構築しています。
    論文  参考訳(メタデータ)   (Sat, 25 Jun 2022 13:48:04 GMT)
    • バックドア攻撃と防御のためのベンチマーク。攻撃手法、防御手法の組み合わせで表現されたリーダーボードが面白い。
    • プロジェクトサイトはBackdoorBench