データセット – ページ 15 – arXiv最新論文の紹介

Fraud Dataset Benchmark

FDB: Fraud Dataset Benchmark [17.5]
フラッドデータセットベンチマーク(Fraud dataset benchmark、FDB)は、不正検出に特化した公開データセットの集大成である。 FDBは、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションへのローンのリスクの予測など、さまざまな不正関連タスクで構成されている。 FDBのPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫性のあるAPIを提供する。
論文参考訳（メタデータ） (Wed, 31 Aug 2022 22:20:42 GMT)
- 不正検出用のデータセット。AutoML（AutoGluon、H20、Auto-sklearn、Amazon Fraud Detector(AFD)）で評価した結果がついていること、フレームワークの違い（特にIPアドレスのような汎用的とは言い難い型に対応しているかなど）が分かるのが面白い。
- プロジェクトサイトはamazon-research/fraud-dataset-benchmark: Repository for Fraud Dataset Benchmark (github.com)

ImageNet-1kの問題

Bugs in the Data: How ImageNet Misrepresents Biodiversity [99.0]
ImageNet-1k検証セットで野生動物を表す269のクラスから13450の画像を解析した。多くのクラスが未定義あるいは重複しており、画像の12%が誤ってラベル付けされていることがわかった。また,ImageNet-1kに含まれる野生生物関連ラベルと画像の両方が,地理的,文化的に有意な偏見を呈していることがわかった。
論文参考訳（メタデータ） (Wed, 24 Aug 2022 17:55:48 GMT)
- 非常に良く用いられているImageNet-1kに問題のあるクラス付けがあるという指摘。12%はモデル品質に影響を与えるレベルに思う。このような検証はとても大事。

法的議論と自然言語処理

Mining Legal Arguments in Court Decisions [43.1]
我々は,欧州人権裁判所の手続において,法的議論のための新たな注釈体系を開発する。まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。
論文参考訳（メタデータ） (Fri, 12 Aug 2022 08:59:55 GMT)
- 法的な議論のための大規模コーパス作成と分類モデルの構築。
  - ドメイン特化な研究は面白いが法律系での実際の使われ方がよくわかっていないので、評価関連がこれでよいのかが謎。Leak系の問題への対応はどうやっているのだろう。
- trusthlt/mining-legal-arguments: Mining Legal Arguments in Court Decisions – Data and software (github.com)

LAM Dataset

The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text Recognition [40.2]
手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。歴史的写本を扱う際の主な課題は、紙の支持の保存、筆跡の多様性、また、同じ著者の幅広い期間にわたる変動、そして古代の表現が不十分な言語からのデータ不足などである。本稿では,本研究の推進を目的として,60年以上にわたって1人の著者によって編集されたイタリア古写本の行単位のhtrデータセットである ludovico antonio muratori (lam) データセットを提案する。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 11:44:16 GMT)
- （人間でも読解困難と思われる）歴史的写本の文字認識データセット。
- プロジェクトサイトはAImageLab – – (unimore.it)

マルチモーダルなプレゼンテーションデータセット

Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文参考訳（メタデータ） (Wed, 17 Aug 2022 05:30:18 GMT)
- 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-ﬁgure（音声の説明から図を検索）、ﬁgure-to-text（図から音声の説明を検索）の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
- リポジトリはdondongwon/MLPDataset (github.com)

OmniCity: Omnipotent City マルチレベル・マルチビューデータセット

OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images [72.4]
オムニシティ(OmniCity)は、マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットである。データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。
論文参考訳（メタデータ） (Mon, 1 Aug 2022 15:19:25 GMT)
- 都市理解のためのデータセット。衛星画像だけでなくアノテーション付きのストリートパノラマ画像を含む。
- プロジェクトサイトはOmniCity (city-super.github.io)

MAFW: Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild

MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild [54.6]
大規模複合感情データベースMAFWを提案する。各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
論文参考訳（メタデータ） (Mon, 1 Aug 2022 13:34:33 GMT)
- 10,045本のビデオオーディオクリップを収録した大規模マルチモーダル複合感情データベースの提案。非営利な研究目的にのみ使用可能とのことだが、大規模で有用なデータセットだと思う。
- プロジェクトサイトはMAFW | A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild. (mafw-database.github.io)

CelebV-HQ

CelebV-HQ: A Large-Scale Video Facial Attributes Dataset [94.3]
CelebV-HQには35,666本のビデオクリップがあり、解像度は少なくとも512×512で、15,653個のIDが含まれている。年齢、民族性、明るさ安定性、動きのスムーズさ、頭部の多様性、データ品質の観点から包括的な分析を行う。その汎用性とポテンシャルは、2つの代表的タスク、すなわち無条件映像生成とビデオ顔属性編集において検証される。
論文参考訳（メタデータ） (Mon, 25 Jul 2022 17:57:07 GMT)
- 大規模なビデオデータセット、20秒以下の動画、35666個で構成されマニュアルでラベル付けされているのが凄い。
- プロジェクトサイトはCelebV-HQ: A Large-scale Video Facial Attributes Dataset

Multifaceデータセット

Multiface: A Dataset for Neural Face Rendering [108.4]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。 Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文参考訳（メタデータ） (Fri, 22 Jul 2022 17:55:39 GMT)
- 高解像度な大規模顔画像データセット。13人と人数は少ないが、データ量は65TBと大きい。
  - 論文中にキャプチャシステムのMugsy の画像があってとても未来を感じる
- プロジェクトサイトはGitHub – facebookresearch/multiface: Hosts the Multiface dataset, which is a multi-view dataset of multiple identities performing a sequence of facial expressions.

NewsStories

NewsStories: Illustrating articles with visual summaries [49.9]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文参考訳（メタデータ） (Tue, 26 Jul 2022 17:34:11 GMT)
- 記事と画像、ビデオの大規模データセット。ニュースを要約適切な画像を付与するというタスクを狙っているよう。
- リポジトリはGitHub – NewsStoriesData/newsstories.github.io

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31