コンテンツへスキップ
- AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization [73.9]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。 回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。 本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (Thu, 11 Nov 2021 21:48:02 GMT)
- Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning [24.5]
グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。 グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
論文 参考訳(メタデータ) (Mon, 8 Nov 2021 07:55:13 GMT)- 頑健性(敵対攻撃への耐性)に重きを置いたベンチマークの提案。攻撃側、防御側がコンペのように競いあう方式になっているようで興味深い。
- SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning [63.2]
国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。 近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。 本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
論文 参考訳(メタデータ) (Mon, 8 Nov 2021 18:59:04 GMT)- SDGsに関連するタスクを集めたデータセット・ベンチマーク。Leaderboardもあり、非常に面白い取り組みだと思う。
- Poverty prediction over space
- Poverty prediction over time
- Weakly supervised cropland classification
- Crop type classification
- Crop type mapping
- Crop yield prediction
- Field delineation
- Child mortality rate
- Women BMI
- Women educational attainment
- Water quality index
- Sanitation index
- Brick kiln detection
- Representation learning for land cover
- Out-of-domain land cover classification
- BBC-Oxford British Sign Language Dataset [64.3]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。 データセットのモチベーションと統計、利用可能なアノテーションについて説明する。 我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (Fri, 5 Nov 2021 17:35:58 GMT)- 2Kエピソード、1.5K時間、1.2Mセンテンスと大規模な手話データセット
- 大規模で有用なデータであると同時に、データの分析がしっかり行われているのもさすがだと思う。
- Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。 このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (Thu, 4 Nov 2021 09:29:16 GMT)
- Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.0]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。 テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 4 Nov 2021 12:59:55 GMT)- 敵対的攻撃環境下で動作させることを目的としたベンチマーク、データセットの提案。「攻撃アルゴリズムの多くが無効または曖昧な例を生成する → 慎重なフィルタリング処理を実施」「言語モデルとトレーニングメソッドはAdvGLUEではパフォーマンスが悪く、スコアは大きく劣化」という攻撃する側、される側ともに課題がありそうなのが興味深い。
- プロジェクトサイトはhttps://adversarialglue.github.io/
- CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.6]
我々は,NLUモデルのFewショット学習能力を評価するためのベンチマークであるCLUESを紹介する。 近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文 参考訳(メタデータ) (Thu, 4 Nov 2021 00:43:15 GMT)
- Can I use this publicly available dataset to build commercial AI software? Most likely not [8.9]
商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。 その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
論文 参考訳(メタデータ) (Wed, 3 Nov 2021 17:44:06 GMT)- CIFAR-10、ImageNet、Cityscapes、MS COCO、FFHQ、VGGFace2の商用利用が可能か調べたもの。5つはリスクがあり、(守るべき規定はあるが)利用可能そうなのはCC BYなMS COCOのみとのこと。
- 商用利用に限らずライセンス確認は必須だが、特に研究用のデータセットはその辺りが不明瞭なものも多い。Creative Commonsのような明確な規定のデータが増えてほしい。
- The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning [60.5]
本稿では,DOM木要素表現学習の未探索問題に対処する。 一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。 ウェブページの大規模かつ現実的なデータセットを提示する。
論文 参考訳(メタデータ) (Wed, 3 Nov 2021 12:13:52 GMT)
- Human Attention in Fine-grained Classification [38.7]
我々は,人間の注意が分類などの意思決定プロセスに有用な情報を含んでいることを検証した。まずデータセットCUBに対して人間の視線データを収集し,CUB-GHA(Gaze-based Human Attention)を構築する。次に人間の視線を分類モデルに統合するために、GAT(Gaze Augmentation Training)とKFN(Knowledge Fusion Network)を提案する。
論文 参考訳(メタデータ) (Tue, 2 Nov 2021 14:41:11 GMT)