データセット – ページ 23 – arXiv最新論文の紹介

AnswerSumm: 回答を要約するデータセット

AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization [73.9]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文参考訳（メタデータ） (Thu, 11 Nov 2021 21:48:02 GMT)
- Community Question Answeringの回答を要約したデータセット。回答を文単位でラベリング、文をクラスタリング、クラスタ内を要約、クラスタ内の要約を統合というパイプラインを経ておりサイズは4.6K。人がアノテーションしたデータとして大規模とのこと。
- リポジトリはhttps://github.com/alex-fabbri/answersumm、データセットもダウンロード可能

Graph Robustness Benchmark: グラフ構造を用いた機械学習の頑健性ベンチマーク

Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning [24.5]
グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
論文参考訳（メタデータ） (Mon, 8 Nov 2021 07:55:13 GMT)
- 頑健性（敵対攻撃への耐性）に重きを置いたベンチマークの提案。攻撃側、防御側がコンペのように競いあう方式になっているようで興味深い。
- プロジェクトサイトはhttps://cogdl.ai/grb/home

SustainBench: SDGsに関連するベンチマーク

SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning [63.2]
国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
論文参考訳（メタデータ） (Mon, 8 Nov 2021 18:59:04 GMT)
- SDGsに関連するタスクを集めたデータセット・ベンチマーク。Leaderboardもあり、非常に面白い取り組みだと思う。
  1. Poverty prediction over space
  2. Poverty prediction over time
  3. Weakly supervised cropland classification
  4. Crop type classification
  5. Crop type mapping
  6. Crop yield prediction
  7. Field delineation
  8. Child mortality rate
  9. Women BMI
  10. Women educational attainment
  11. Water quality index
  12. Sanitation index
  13. Brick kiln detection
  14. Representation learning for land cover
  15. Out-of-domain land cover classification

プロジェクトサイトはhttps://sustainlab-group.github.io/sustainbench/

BOBSL(BC-Oxford British Sign Language) Dataset: 大規模手話データセット

BBC-Oxford British Sign Language Dataset [64.3]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。データセットのモチベーションと統計、利用可能なアノテーションについて説明する。我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文参考訳（メタデータ） (Fri, 5 Nov 2021 17:35:58 GMT)
- 2Kエピソード、1.5K時間、1.2Mセンテンスと大規模な手話データセット
- 大規模で有用なデータであると同時に、データの分析がしっかり行われているのもさすがだと思う。

AutoML用ベンチマークデータセット

Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文参考訳（メタデータ） (Thu, 4 Nov 2021 09:29:16 GMT)
- AutoML用ベンチマークデータセット。ベンチマークデータセットを通して得られた分析結果も興味深い。ただ、「Given the success of pretrained Transformers across NLP, we are surprised to ﬁnd both N-Grams and word2vec here provide superior text featurization than Pre-Embedding.」は驚きではないのでは？という印象。
- リポジトリはhttps://github.com/sxjscience/automl_multimodal_benchmark、データセットのライセンスは CC BY-NC-SA とのこと。

Adversarial GLUE: NLPの頑健性（攻撃耐性）を評価するベンチマーク

Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.0]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ）参考訳（全文） (Thu, 4 Nov 2021 12:59:55 GMT)
- 敵対的攻撃環境下で動作させることを目的としたベンチマーク、データセットの提案。「攻撃アルゴリズムの多くが無効または曖昧な例を生成する　→　慎重なフィルタリング処理を実施」「言語モデルとトレーニングメソッドはAdvGLUEではパフォーマンスが悪く、スコアは大きく劣化」という攻撃する側、される側ともに課題がありそうなのが興味深い。
- プロジェクトサイトはhttps://adversarialglue.github.io/

CLUES(Constrained Language Understanding Evaluation Standard): Few-shot Leafningのベンチマーク

CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.6]
我々は,NLUモデルのFewショット学習能力を評価するためのベンチマークであるCLUESを紹介する。近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文参考訳（メタデータ） (Thu, 4 Nov 2021 00:43:15 GMT)
- 近年、Few-shot学習用のベンチマークが発表されているが、すべてのタスクに人間の評価値があるものは珍しい気がする。
- リポジトリはhttps://github.com/microsoft/CLUES

商用AIを作る際のライセンス問題

Can I use this publicly available dataset to build commercial AI software? Most likely not [8.9]
商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
論文参考訳（メタデータ） (Wed, 3 Nov 2021 17:44:06 GMT)
- CIFAR-10、ImageNet、Cityscapes、MS COCO、FFHQ、VGGFace2の商用利用が可能か調べたもの。5つはリスクがあり、（守るべき規定はあるが）利用可能そうなのはCC BYなMS COCOのみとのこと。
- 商用利用に限らずライセンス確認は必須だが、特に研究用のデータセットはその辺りが不明瞭なものも多い。Creative Commonsのような明確な規定のデータが増えてほしい。

Klarna Product Page Dataset：現実に近いWEBページのデータセット

The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning [60.5]
本稿では,DOM木要素表現学習の未探索問題に対処する。一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。ウェブページの大規模かつ現実的なデータセットを提示する。
論文参考訳（メタデータ） (Wed, 3 Nov 2021 12:13:52 GMT)
- 製品紹介のWEBページに対してアノテーションを行ったデータセット。8言語、8Kサイト、51Kページと規模が大きい。複数アルゴリズムでの評価結果も参考になる。
- リポジトリはhttps://github.com/klarna/product-page-dataset、データのライセンスはCreative Commons BY-NC-SA licenseとのこと。

人間の注意を併用する学習

Human Attention in Fine-grained Classification [38.7]
我々は,人間の注意が分類などの意思決定プロセスに有用な情報を含んでいることを検証した。まずデータセットCUBに対して人間の視線データを収集し,CUB-GHA(Gaze-based Human Attention)を構築する。次に人間の視線を分類モデルに統合するために、GAT(Gaze Augmentation Training)とKFN(Knowledge Fusion Network)を提案する。
論文参考訳（メタデータ） (Tue, 2 Nov 2021 14:41:11 GMT)
- 人間の視線を用いることで分類性能を上げることができたとの報告。
- リポジトリはhttps://github.com/yaorong0921/CUB-GHA
- 脳からの知識蒸留で可能性を感じていた視線情報の併用と発想が似ていて面白かった。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31