コンテンツへスキップ
- Extending the WILDS Benchmark for Unsupervised Adaptation [186.9]
機械学習システムはしばしば異なるターゲットディストリビューションにデプロイされる。 WILDSの分散シフトベンチマークの10データセットのうち8データセットを拡張して,デプロイ時に現実的に取得可能な未ラベルデータを含むようにする。 一貫性を維持するため、ラベル付きトレーニング、検証、テストセット、評価メトリクスは、オリジナルのWILDSベンチマークとまったく同じである。これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
論文 参考訳(メタデータ) (Thu, 9 Dec 2021 18:32:38 GMT)
- Many Heads but One Brain: an Overview of Fusion Brain Challenge on AI Journey 2021 [46.6]
Fusion Brain Challengeは、ユニバーサルアーキテクチャプロセスを異なるモダリティにすることを目的としている。 参加者の提出したタスクをテストするために、各タスクのためのデータセットを作成しました。 データセットには世界最大のロシア語手書きデータセットを含む。
論文 参考訳(メタデータ) (Mon, 22 Nov 2021 03:46:52 GMT)- C2C(Code2code Translation)、HTR(Handwritten Text Recognition), zsOD(Zero-shot Object Detection) , VQA(Visual Question Answering)に対して有効なマルチモーダルなアーキテクチャを作れるか?のコンペティション。データセットが複数用意されており、そのデータも重要。
- TWEETSUMM — A Dialog Summarization Dataset for Customer Service [13.7]
6500人近い注釈付き要約を含む,最初の大規模,高品質,顧客ケアダイアログ要約データセットを紹介した。 データは現実世界のカスタマーサポートダイアログに基づいており、抽出と抽象の両方の要約を含んでいる。 また,ダイアログに特有な非教師付き抽出要約手法も導入した。
論文 参考訳(メタデータ) (Tue, 23 Nov 2021 14:13:51 GMT)
- SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。 本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。 本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (Fri, 19 Nov 2021 18:59:23 GMT)
- DataCLUE: A Benchmark Suite for Data-centric NLP [11.0]
データ中心のAIは、モデルパフォーマンスを改善するためにデータセットの品質を改善することを強調する。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。 我々は,人間のアノテーションを用いた総合的な実験を行い,DataCLUEの難しさを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 17 Nov 2021 16:24:55 GMT) - ニューラル機械翻訳モデルと対訳データの品質 | ぷるーふおぶこんせぷと (staka.jp) でも記載した通り、ニューラル機械翻訳モデル構築においては対訳データの品質が非常に重要。FuguMTのデータを用いてデータ中心(データの品質向上技術を競う)ベンチマークを作りたいなと思わなくもない。
- AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization [73.9]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。 回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。 本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (Thu, 11 Nov 2021 21:48:02 GMT)
- Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning [24.5]
グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。 グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
論文 参考訳(メタデータ) (Mon, 8 Nov 2021 07:55:13 GMT)- 頑健性(敵対攻撃への耐性)に重きを置いたベンチマークの提案。攻撃側、防御側がコンペのように競いあう方式になっているようで興味深い。
- SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning [63.2]
国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。 近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。 本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
論文 参考訳(メタデータ) (Mon, 8 Nov 2021 18:59:04 GMT)- SDGsに関連するタスクを集めたデータセット・ベンチマーク。Leaderboardもあり、非常に面白い取り組みだと思う。
- Poverty prediction over space
- Poverty prediction over time
- Weakly supervised cropland classification
- Crop type classification
- Crop type mapping
- Crop yield prediction
- Field delineation
- Child mortality rate
- Women BMI
- Women educational attainment
- Water quality index
- Sanitation index
- Brick kiln detection
- Representation learning for land cover
- Out-of-domain land cover classification
- BBC-Oxford British Sign Language Dataset [64.3]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。 データセットのモチベーションと統計、利用可能なアノテーションについて説明する。 我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (Fri, 5 Nov 2021 17:35:58 GMT)- 2Kエピソード、1.5K時間、1.2Mセンテンスと大規模な手話データセット
- 大規模で有用なデータであると同時に、データの分析がしっかり行われているのもさすがだと思う。
- Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。 このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (Thu, 4 Nov 2021 09:29:16 GMT)