コンテンツへスキップ
- Lila: A Unified Benchmark for Mathematical Reasoning [60.0]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。 我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (Mon, 31 Oct 2022 17:41:26 GMT)
- 数学的な推論のためのデータセット。23タスク44データセットと大規模。GPT-Neo-2.7Bをfinetuneしたモデル、GPT-3/Codexのfew shotで検証されておりCodexが比較的高性能。ただ、スコアは高くない。
- Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。 言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (Thu, 6 Oct 2022 17:03:34 GMT)- GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
- EN-COT > Native-COTである点は興味深い(そして翻訳を介するのがもっとの性能が高いのも…)
- リポジトリはgoogle-research/url-nlp (github.com)
- MEDFAIR: Benchmarking Fairness for Medical Imaging [44.7]
MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。 モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。 異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
論文 参考訳(メタデータ) (Tue, 4 Oct 2022 16:30:47 GMT)
- TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social Media [17.8]
我々は、ソーシャルメディアベースの意味変化の研究を加速するための新しいベンチマークであるTempoWiCを紹介する。 この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。
論文 参考訳(メタデータ) (Fri, 16 Sep 2022 16:54:46 GMT)
- Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.2]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。 また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。 我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (Tue, 20 Sep 2022 07:04:24 GMT)- 21kからなるマルチモーダル、マルチホップを含むQAデータセット。注釈等も付与されている。GPT-3 & chain-of-thought (CoT)で正解率75.17%とのこと。
- プロジェクトサイトはScienceQA
- FETA: Towards Specializing Foundation Models for Expert Task Applications [49.6]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。 この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。 本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文 参考訳(メタデータ) (Thu, 8 Sep 2022 08:47:57 GMT)- Text-to-Image (T21) と Image-to-Text (I2T) の検索を対象に、専門家のタスクとして多様な自動車サービスマニュアルと販売(IKEA年次カタログ)にフォーカスしたベンチマークの提案。CLIPやFLAVAなどの既存モデルでは難しい問題になっているとのこと。
- 論文中にデータのダウンロードリンクがある。
- ALBench: A Framework for Evaluating Active Learning in Object Detection [102.8]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。 自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (Wed, 27 Jul 2022 07:46:23 GMT)
- TASKOGRAPHY: Evaluating robot task planning over large 3D scene graphs [33.3]
TASKOGRAPHYは、3DSGを使った最初の大規模ロボットタスク計画ベンチマークである。 タスク条件付き3DSGスカラー化手法であるSCRUBを提案する。 また,学習ベースプランナが3DSG構造を活用できる手法であるSEEKを提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 11 Jul 2022 16:51:44 GMT)
- BackdoorBench: A Comprehensive Benchmark of Backdoor Learning [57.9]
バックドア学習は、ディープニューラルネットワーク(DNN)の脆弱性を研究する上で、新しく重要なトピックである 多くの先駆的なバックドア攻撃と防衛手法が、素早い武器競争の状況において、連続的または同時に提案されている。 BackdoorBenchというバックドア学習の総合的なベンチマークを構築しています。
論文 参考訳(メタデータ) (Sat, 25 Jun 2022 13:48:04 GMT)- バックドア攻撃と防御のためのベンチマーク。攻撃手法、防御手法の組み合わせで表現されたリーダーボードが面白い。
- プロジェクトサイトはBackdoorBench
- Benchopt: Reproducible, efficient and collaborative optimization benchmarks [66.3]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (Mon, 27 Jun 2022 16:19:24 GMT)