データセット – ページ 26 – arXiv最新論文の紹介

RAFT(Realworld Annotated Few-shot Tasks): Few-shotなテキスト分類ベンチマーク

RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
論文参考訳（メタデータ） (Tue, 28 Sep 2021 22:35:31 GMT)
- 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間（クラウドソーシング）のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
  - ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
  - Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
  - NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
  - OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
  - Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
  - Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
  - Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
  - TAI safety research (TAI): 論文がtransformative artiﬁcial intelligenceの安全性研究に該当するか否か
  - Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
  - TweetEval Hate (TEH): ヘイトスピーチの検出タスク
  - Twitter complaints (TC): tweetに苦情を含むかを判別
- プロジェクトサイトはhttps://raft.elicit.org/

OpenViDial 2.0: 大規模なマルチモーダル対話データセット

OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
論文参考訳（メタデータ）参考訳（全文） (Tue, 28 Sep 2021 15:15:57 GMT)
- OpenViDialの5倍以上、5.6M対話と大きな画像付き対話データセット。データソースは映画やTVとのこと。
- リポジトリはhttps://github.com/ShannonAI/OpenViDial

PASS(Pictures without humAns for Self-Supervision) : 著作権や個人情報に配慮したデータセット

PASS: An ImageNet replacement for self-supervised pretraining without humans [152.3]
本稿ではPASS(Pictures without humAns for Self-Supervision)を提案する。 PASSは、CC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。 PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。 PASSは、例えばベンチマークに不十分なため、既存のデータセットを陳腐化しない。しかしながら、より安全なデータを使用して、モデル事前トレーニングがしばしば可能であることを示し、事前トレーニングメソッドをより堅牢に評価する基盤を提供する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 27 Sep 2021 17:59:39 GMT)
- 著作権/ライセンスに問題がなく（Creative Commonsの CC BY）、人物画像を含まないデータセットの提案。ラベルが無いという制約はあるものの、このようなデータセットは実務上ありがたい。
- プロジェクトサイトはhttps://www.robots.ox.ac.uk/~vgg/research/pass/

FewNLU: Few-Shotな自然言語理解タスクの評価フレームワーク

FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.9]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文参考訳（メタデータ） (Mon, 27 Sep 2021 00:57:30 GMT)
- Few-shot性能を評価するためのフレームワークを提案。データ分割戦略、ハイパーパラメータの扱い（promptの扱い）など様々な側面で検討を行っている。
  - （k-fold CVよりMulti Splitの方が良いのはやや意外）
- リポジトリはhttps://github.com/THUDM/FewNLU、プロジェクトサイトはhttps://fewnlu.github.io/でリーダーボードも存在。

NOAHQA(Numerical reasOning with interpretAble grapH QA dataset): 数値推論を必要とするバイリンガルQAデータセット

NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset [26.8]
数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5のEMスコアしか達成できないことを示す。また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 22 Sep 2021 09:17:09 GMT)
- 算数の文章題のような数値推論を必要とするQAを含むバイリンガル（英語、中国語）のデータセットを提案。データ数は約20K。先端的な構造を使っても人間とのパフォーマンス差が大きいと報告。
- リポジトリはhttps://github.com/Don-Joey/NoahQA

CodeQA: プログラムコードに対するQuestion Answering

CodeQA: A Question Answering Dataset for Source Code Comprehension [82.6]
コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。 CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
論文参考訳（メタデータ） (Fri, 17 Sep 2021 06:06:38 GMT)
- ソースコードに対するQuestion Answeringを行うためのデータセット。コメント文などから生成しているそうだが、他にあまり見ない問題設定のよう思う。
- リポジトリはhttps://github.com/jadecxliu/CodeQA

GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA

Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.0]
視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするためにGeo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文参考訳（メタデータ）参考訳（全文） (Tue, 14 Sep 2021 17:52:55 GMT)
- 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT（VCRでトレーニング済み）がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
  - 直感的にはそうなりそうだが確認されると興味深い結果。論文中の分析で地域特性(結婚式、宗教、祭りなど)を含むシナリオのギャップが大きいというのも納得感がある。顧客が登場するシナリオでも差が大きいとのことでこれは地元の商店で買い物をするか、スーパーマーケットで買い物をするかの差ではないかとのこと。この考察も面白い。
- リポジトリはhttps://github.com/WadeYin9712/GD-VCR

xGQA: 7言語の Visual Question Answering

xGQA: Cross-Lingual Visual Question Answering [100.4]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。確立された英語GQAデータセットを7言語に拡張する。本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文参考訳（メタデータ） (Mon, 13 Sep 2021 15:58:21 GMT)
- 7言語に対応するvisual question answeringデータセット。GQAデータセットを7言語に拡張。ゼロショットでの回答は難しく、few-shotのセッティングだと精度が改善するが依然として簡単ではないタスクであるよう。
- リポジトリはhttps://github.com/Adapter-Hub/xGQA

SituatedQA:回答のために言語外の文脈が必要なQAデータセット

SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.5]
SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
論文参考訳（メタデータ）参考訳（全文） (Mon, 13 Sep 2021 17:53:21 GMT)
- 回答のために言語外の文脈が必要なQAデータセットの提案。時間的or地理的を表すContext Typeとそれに対応したContext Valueによって答えが変化する。直感的にも予想できる通り、Leaderboardからは人間とモデルの差が大きい解くのが難しい問題のように見える。
- プロジェクトサイトはhttps://situatedqa.github.io/

M5Product: 600万以上のマルチモーダルデータセット

M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks [94.8]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Sep 2021 13:50:22 GMT)
- e-コマースの画像、テキスト、テーブル、ビデオ、オーディオを含む6M件と大規模なマルチモーダルデータセット。このデータをもとにした検索・分類・クラスタリングなどのタスクで優れた性能を出すM5-MMTをベースラインとして提案。
- プロジェクトサイトはhttps://xiaodongsuper.github.io/M5Product_dataset/

最近公開化された画像-テキスト 4億ペアからなるLAION-400M などマルチモーダルな大規模データセットが公開されるのは非常にありがたい。

2026年8月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31