コンテンツへスキップ
- DataCLUE: A Benchmark Suite for Data-centric NLP [11.0]
データ中心のAIは、モデルパフォーマンスを改善するためにデータセットの品質を改善することを強調する。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。 我々は,人間のアノテーションを用いた総合的な実験を行い,DataCLUEの難しさを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 17 Nov 2021 16:24:55 GMT) - ニューラル機械翻訳モデルと対訳データの品質 | ぷるーふおぶこんせぷと (staka.jp) でも記載した通り、ニューラル機械翻訳モデル構築においては対訳データの品質が非常に重要。FuguMTのデータを用いてデータ中心(データの品質向上技術を競う)ベンチマークを作りたいなと思わなくもない。
- Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning [24.5]
グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。 グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
論文 参考訳(メタデータ) (Mon, 8 Nov 2021 07:55:13 GMT)- 頑健性(敵対攻撃への耐性)に重きを置いたベンチマークの提案。攻撃側、防御側がコンペのように競いあう方式になっているようで興味深い。
- SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning [63.2]
国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。 近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。 本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
論文 参考訳(メタデータ) (Mon, 8 Nov 2021 18:59:04 GMT)- SDGsに関連するタスクを集めたデータセット・ベンチマーク。Leaderboardもあり、非常に面白い取り組みだと思う。
- Poverty prediction over space
- Poverty prediction over time
- Weakly supervised cropland classification
- Crop type classification
- Crop type mapping
- Crop yield prediction
- Field delineation
- Child mortality rate
- Women BMI
- Women educational attainment
- Water quality index
- Sanitation index
- Brick kiln detection
- Representation learning for land cover
- Out-of-domain land cover classification
- Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。 このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (Thu, 4 Nov 2021 09:29:16 GMT)
- Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.0]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。 テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 4 Nov 2021 12:59:55 GMT)- 敵対的攻撃環境下で動作させることを目的としたベンチマーク、データセットの提案。「攻撃アルゴリズムの多くが無効または曖昧な例を生成する → 慎重なフィルタリング処理を実施」「言語モデルとトレーニングメソッドはAdvGLUEではパフォーマンスが悪く、スコアは大きく劣化」という攻撃する側、される側ともに課題がありそうなのが興味深い。
- プロジェクトサイトはhttps://adversarialglue.github.io/
- CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.6]
我々は,NLUモデルのFewショット学習能力を評価するためのベンチマークであるCLUESを紹介する。 近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文 参考訳(メタデータ) (Thu, 4 Nov 2021 00:43:15 GMT)
- Training Verifiers to Solve Math Word Problems [12.3]
GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。 最大のモデルでさえ高いテスト性能を達成できないことがわかった。 性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
論文 参考訳(メタデータ) (Wed, 27 Oct 2021 04:49:45 GMT)- 自然言語処理ではまだ解くことが難しい、マルチホップな数学的推論が必要なデータセットの提案。巨大モデルでも解くのが難しいが、検証(Verification)を行うモデルを用いることで性能が向上(30倍のサイズのモデルに匹敵)したとのこと。
- 分野の得意不得意と解釈してよいのか、言語理解の有無と解釈してよいのか、いろいろと考えさせられる結果。
- リポジトリはhttps://github.com/openai/grade-school-math
- IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning [132.5]
IconQA(Icon Question Answering)の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。 さらに、377クラスに645,687個のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 25 Oct 2021 18:52:26 GMT)
- How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New Reasoning Challenge for AI [32.5]
我々は新たな推論問題、すなわちフェルミ問題(Fermi Problems, FPs)を提案する。 FPは、その正確な計算が非現実的であるか不可能なものに対して答えをおよそ見積もる質問である。 1)クイズ及びオリンピアードから得られた1k個の現実世界FPの収集、 2) より複雑な10kの合成FPはより難しい現実的課題のサンドボックスとして機能する。 質問応答ペアに加えて、データセットには実行可能プログラムの形式で詳細なソリューションが含まれている
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 27 Oct 2021 06:39:33 GMT)- フェルミ推定用データセットとそのタスクの提案。「問題を創造的に解決可能なチャンクに分解し、常識推論の能力をテスト」を目標にしているのこと。答えに至るまでの過程として、答えをサポートするファクトやその説明がデータに含まれているのが特徴的。T5を使用しかなりFine-tuningしても性能は低く、難しいタスクとのこと。
- Adversarial Attacks on ML Defense Models Competition [82.4]
清華大学のTSAILグループとAlibaba Securityグループがこの競争を組織した。 この競争の目的は、敵の堅牢性を評価するために、新しい攻撃アルゴリズムを動機付けることである。
論文 参考訳(メタデータ) (Fri, 15 Oct 2021 12:12:41 GMT)