データセット – ページ 16 – arXiv最新論文の紹介

TASKOGRAPHY, SCRUB, SEEK

TASKOGRAPHY: Evaluating robot task planning over large 3D scene graphs [33.3]
TASKOGRAPHYは、3DSGを使った最初の大規模ロボットタスク計画ベンチマークである。タスク条件付き3DSGスカラー化手法であるSCRUBを提案する。また,学習ベースプランナが3DSG構造を活用できる手法であるSEEKを提案する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Jul 2022 16:51:44 GMT)
- ロボットタスク計画ベンチマーク。対象はRearrangement(k)、Courier(n, k)、Lifted Rearrangement(k)/Courier(n, k)
- プロジェクトサイトはTaskography – Evaluating robot task planning over large 3D scene graphs | Taskography

オノマトペデータセットと検出・認識・リンク

COO: Comic Onomatopoeia Dataset for Recognizing Arbitrary or Truncated Texts [47.5]
日本語漫画におけるオノマトペのテキストからなる新しい漫画オノマトペデータセット(COO)を提供する。 COOは、非常に湾曲した、部分的に縮小したテキスト、任意に配置されたテキストなど、多くの任意のテキストを持っている。我々は,オノマトペ領域を検出し,その意図した意味を捉えるために,テキスト検出,テキスト認識,リンク予測という3つのタスクを実行する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Jul 2022 07:39:35 GMT)
- 漫画によくある「ゴォォォォ」のようなオノマトペを集め、画像（漫画）中にアノテーションしたデータセットの提案。オノマトペ検出のためにtext detection、 text recognition、 link predictionタスクを提案、ベースラインを提供している。
- リポジトリはCOO-Comic-Onomatopoeia/COO-data at main · ku21fan/COO-Comic-Onomatopoeia · GitHub

BigBIO

BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing [13.3]
バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。 BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
論文参考訳（メタデータ） (Thu, 30 Jun 2022 07:15:45 GMT)
- バイオ・医療分野のデータセット。126のデータセットがありタスクカテゴリは以下の12とのこと。
  - Knowledge Base (KB)
    - Named entity recognition (NER)
    - Named entity disambiguation/normalization/linking (NED)
    - Event extraction (EE)
    - Relation extraction (RE)
    - Coreference resolution (COREF)
  - Question Answering (QA)
    - Question answering (QA)
  - Textual Entailment (TE)
    - Textual entailment (TE)
  - Text Pairs (PAIRS)
    - Semantic Similarity (STS)
  - Text to Text (T2T)
    - Paraphasing (PARA)
    - Translation (TRANSL)
    - Summarization (SUM)
  - Text (TEXT)
    - Text classification (TXTCLASS)

リポジトリはGitHub – bigscience-workshop/biomedical: Tools for curating biomedical training data for large-scale language modeling

GEMv2: Multilingual NLG Benchmarking

GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.2]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文参考訳（メタデータ）参考訳（全文） (Thu, 23 Jun 2022 14:38:38 GMT)
- モジュール式で拡張可能な自然言語生成系タスクの評価インフラストラクチャの提案。論文公開時点では日本語を含むタスクは3つのよう。
- プロジェクトサイトはGEM (gem-benchmark.com)、GEM (GEM benchmark) (huggingface.co)だと思うのだが、全データが公開されているわけではない（？）

TwiBot-22: Twitterボット検出用ベンチマーク

TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.4]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。 35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 09:05:30 GMT)
- 大規模なTwitterボット検出用データセット・ベンチマーク。マルチモーダルの利用も可能とのこと。
- リポジトリはTwiBot-22: Towards Graph-Based Twitter Bot Detection (twibot22.github.io)

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation [152.6]
ShiFTは、自動運転のための最大規模のマルチタスク合成データセットである。曇り、雨と霧の強さ、昼の時間、車と歩行者の密度を個別に連続的に変化させる。私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shift.comで公開されています。
論文参考訳（メタデータ） (Thu, 16 Jun 2022 17:59:52 GMT)
- 自動運転のための大規模合成データセット。気象条件、時刻、車両・歩行者の密度、カメラの向きといった変化に対応できるか検証可能な構成となっている。合成データではあるが、ドメイン間の性能差異は実環境のデータセットと同様であるとのこと。
- プロジェクトサイトはSHIFT Dataset (vis.xyz)、ライセンスは CC BY-SA 4.0

APT-36K: 動物のポーズ推定・追跡データセット

APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.9]
APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 07:18:36 GMT)
- 動物のポーズ推定だけでなく追跡にも焦点を当てたデータセット。
- リポジトリはhttps://github.com/pandorgan/APT-36Kとのことだが、現時点では404

Beyond the Imitation Game benchmark (BIG-bench)

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [645.0]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。ビッグベンチは204のタスクで構成され、132の機関で442人の著者が貢献している。我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文参考訳（メタデータ） (Thu, 9 Jun 2022 17:05:34 GMT)
- 204タスクからなる大規模ベンチマークと大規模言語モデルを用いた評価の報告。
  - 著者が極めて多く、スコア=645はfugumt.com内で最高。
- 大規模言語モデルを用いたAIでも総合的には人間は及ばない、開発者（OpenAI or Google）が異なっていてもAIは似た挙動を示すなど非常に興味深い。
  - 最近の「パラメータ数の増加（大規模化）によりAIの性能は人間に並べる」という雰囲気との整合性は謎で、5ページのPaLMの結果によって解釈が変わるレベルの影響がありそう。PaLMが無ければ総合的に人間のレベルに到達する道のりは長そうだが、PaLMの結果があると行けそうに思える。
  - 「During the writing of this work, results for the Pathways Language Model (PaLM) on BIG-bench were published (Chowdhery et al., 2022) and we included them in Figure 1. Most of the analysis in the paper is focused on results from models we evaluated BIG-bench on.」とのことで、この分野は進展が速すぎるという印象
- リポジトリはGitHub – google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models

映画での対話のバイアスデータセット

Hollywood Identity Bias Dataset: A Context Oriented Bias Analysis of Movie Dialogues [20.2]
映画に登場する社会的偏見やステレオタイプは、リーチによって大きなダメージを与える可能性がある。同一性バイアスに注釈を付けた映画脚本のデータセットを新たに導入する。データセットには、(i) バイアスラベルに、性別、人種/民族、宗教、年齢、職業、LGBTQ、その他の7つのカテゴリのダイアログがアノテートされている。
論文参考訳（メタデータ） (Wed, 1 Jun 2022 05:43:53 GMT)
- 映画内の対話における偏見などバイアスをアノテーションしたデータセットの提案。35の映画における対話をアノテーションし、49117文のうちバイアスは1181文に存在したとのこと。
- リポジトリはGitHub – sahoonihar/HIBD_LREC_2022

MentSum: Mental Health Summarization dataset

MentSum: A Resource for Exploring Summarization of Mental Health Online Posts [19.2]
メンタルヘルスは、世界中の公衆衛生にとって重要な課題である。オンラインプラットフォームの人気が高まるにつれて、多くの人々がプラットフォームを使ってメンタルヘルス状態を共有し、感情を表現し、コミュニティやカウンセラーからの助けを求めている。 Reachoutのようなプラットフォームの中には、ユーザーが助けを求めるために登録する専用のフォーラムもある。 Redditなど他のサービスでは、ユーザーが公開でも匿名でメンタルヘルスの苦痛を投稿するサブレディットを提供している。ポストの長さは様々であるが、カウンセラーによる高速な処理のために短いが情報的な要約を提供することは有益である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Jun 2022 03:08:34 GMT)
- オンラインのメンタルヘルス議論プラットフォームから作られたデータセット。
- データの取得にはir@Georgetown – Resourcesからリクエストが必要なよう。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31