データセット – ページ 18 – arXiv最新論文の紹介

Beyond the Imitation Game benchmark (BIG-bench)

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [645.0]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。ビッグベンチは204のタスクで構成され、132の機関で442人の著者が貢献している。我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文参考訳（メタデータ） (Thu, 9 Jun 2022 17:05:34 GMT)
- 204タスクからなる大規模ベンチマークと大規模言語モデルを用いた評価の報告。
  - 著者が極めて多く、スコア=645はfugumt.com内で最高。
- 大規模言語モデルを用いたAIでも総合的には人間は及ばない、開発者（OpenAI or Google）が異なっていてもAIは似た挙動を示すなど非常に興味深い。
  - 最近の「パラメータ数の増加（大規模化）によりAIの性能は人間に並べる」という雰囲気との整合性は謎で、5ページのPaLMの結果によって解釈が変わるレベルの影響がありそう。PaLMが無ければ総合的に人間のレベルに到達する道のりは長そうだが、PaLMの結果があると行けそうに思える。
  - 「During the writing of this work, results for the Pathways Language Model (PaLM) on BIG-bench were published (Chowdhery et al., 2022) and we included them in Figure 1. Most of the analysis in the paper is focused on results from models we evaluated BIG-bench on.」とのことで、この分野は進展が速すぎるという印象
- リポジトリはGitHub – google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models

映画での対話のバイアスデータセット

Hollywood Identity Bias Dataset: A Context Oriented Bias Analysis of Movie Dialogues [20.2]
映画に登場する社会的偏見やステレオタイプは、リーチによって大きなダメージを与える可能性がある。同一性バイアスに注釈を付けた映画脚本のデータセットを新たに導入する。データセットには、(i) バイアスラベルに、性別、人種/民族、宗教、年齢、職業、LGBTQ、その他の7つのカテゴリのダイアログがアノテートされている。
論文参考訳（メタデータ） (Wed, 1 Jun 2022 05:43:53 GMT)
- 映画内の対話における偏見などバイアスをアノテーションしたデータセットの提案。35の映画における対話をアノテーションし、49117文のうちバイアスは1181文に存在したとのこと。
- リポジトリはGitHub – sahoonihar/HIBD_LREC_2022

MentSum: Mental Health Summarization dataset

MentSum: A Resource for Exploring Summarization of Mental Health Online Posts [19.2]
メンタルヘルスは、世界中の公衆衛生にとって重要な課題である。オンラインプラットフォームの人気が高まるにつれて、多くの人々がプラットフォームを使ってメンタルヘルス状態を共有し、感情を表現し、コミュニティやカウンセラーからの助けを求めている。 Reachoutのようなプラットフォームの中には、ユーザーが助けを求めるために登録する専用のフォーラムもある。 Redditなど他のサービスでは、ユーザーが公開でも匿名でメンタルヘルスの苦痛を投稿するサブレディットを提供している。ポストの長さは様々であるが、カウンセラーによる高速な処理のために短いが情報的な要約を提供することは有益である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Jun 2022 03:08:34 GMT)
- オンラインのメンタルヘルス議論プラットフォームから作られたデータセット。
- データの取得にはir@Georgetown – Resourcesからリクエストが必要なよう。

Multilingual Keyphrase生成データセット: EcommerceMKPとAcademicMKP

Retrieval-Augmented Multilingual Keyphrase Generation with Retriever-Generator Iterative Training [66.6]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。我々は多言語キーフレーズ生成という新しい設定に注意を払っている。非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文参考訳（メタデータ） (Sat, 21 May 2022 00:45:21 GMT)
- マルチリンガルなキーフレーズ作成データセット。言語はe-コマースがドイツ語、フランス語、スペイン語、イタリア語、アカデミックが中国語と韓国語。
- 言語資源が豊富な英語のデータを利用するRetrieval-Augmented Multilingual Keyphrase Generation (RAMKG) というフレームワークでmBERTのベースラインをoutperfomとのこと。
- リポジトリはYifan-Gao/multilingual_keyphrase_generation · GitHubとのことだが、現状ではデータ等アップロードされていない。

DisinfoMeme: 偽情報ミームのマルチモーダルデータセット

DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation [72.2]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。このデータセットには、covid-19パンデミック、black lives matter運動、veganism/vegetarianismの3つのトピックをカバーするredditのミームが含まれている。
論文参考訳（メタデータ） (Wed, 25 May 2022 09:54:59 GMT)
- redditからとられたマルチモーダルな偽情報ミーム検出用データセット。ユニモーダルなモデルとマルチモーダルなモデルを比較しているがマルチモーダルの効果がそれほど出ていないよう。
- データは公開予定とのこと。

StreamingQA:

StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in Question Answering Models [31.4]
提案する大規模データセットであるStreamingQAを構築した。プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
論文参考訳（メタデータ）参考訳（全文） (Mon, 23 May 2022 15:33:41 GMT)
- 14年分のニュース記事に関する大規模QAデータセット、QAモデルの時系列変化による影響を考慮することが可能。
- リポジトリはGitHub – deepmind/streamingqa

SQuALITY: Summarization-format QUestion Answering with Long Input Texts, Yes!

SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.8]
高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
論文参考訳（メタデータ）参考訳（全文） (Mon, 23 May 2022 17:02:07 GMT)
- 100のストーリー、500の質問、2000の要約からなるデータセット。ドキュメントの長さが平均5000wordsと長い。クラウドソーシングによる構築だが品質保持のための工夫がされているとのこと。
- リポジトリはGitHub – nyu-mll/SQuALITY: Query-focused summarization data

CoCoA-MT: フォーマルさを考慮した機械翻訳データセット

CoCoA-MT: A Dataset and Benchmark for Contrastive Controlled MT with Application to Formality [22.4]
敬語を扱う際には、特定の問題が生じる。間違った音や不整合音を使用するのは不適切とみなされることがある。ラベル付きコントラストデータを微調整することで,フォーマルさを制御するモデルが訓練できることを示す。
論文参考訳（メタデータ） (Mon, 9 May 2022 04:05:36 GMT)
- フォーマルさをコントロールする機械翻訳用データセット。日本が含まれている点が興味深い。
  - とても大事なタスクであると思う一方でそもそも違和感のある日本語文が存在する・・・本当に人間が訳したんやろうか・・・
- リポジトリはGitHub – amazon-research/contrastive-controlled-mt: Code and data for the IWSLT 2022 shared task on Formality Control for SLT

CiteSum: 論文のTLDR要約

CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation [41.5]
我々は、人間のアノテーションを使わずに新しいベンチマークCiteSumを作成し、これは前回の人間計算データセットSciTLDRの約30倍の大きさである。科学的極端の要約では、CITESは微調整なしでSciTLDR上で完全に制御された手法よりも優れている。ニュースの極端な要約では、CITESはベースモデルよりもXSumに大きな利益を得ている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 12 May 2022 16:44:19 GMT)
- 論文のTLDR要約のデータセットとモデルの提案。引用として記載された文が引用元論文の高品質な要約となっていることに着目して作成されたデータセットととのこと。このデータで事前学習したモデルはニュースなど他ドメインへの転送においても有効とのこと。
- リポジトリはGitHub – morningmoni/CiteSum: Dataset and Code for paper “CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation”

Are All the Datasets in Benchmark Necessary?

Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification [39.0]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文参考訳（メタデータ）参考訳（全文） (Wed, 4 May 2022 15:33:00 GMT)
- データセットによってモデルの識別能力に差があり、いくつかのデータセットは能力の高いモデル識別に寄与していないとの報告。
- 感覚的には自明であり「難しいデータセット」と呼んでいたものはあったが、改めて整理される重要な特性であることが分かる。

2026年8月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31