LAM Dataset

  • The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text Recognition [40.2]
    手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。  歴史的写本を扱う際の主な課題は、紙の支持の保存、筆跡の多様性、また、同じ著者の幅広い期間にわたる変動、そして古代の表現が不十分な言語からのデータ不足などである。 本稿では,本研究の推進を目的として,60年以上にわたって1人の著者によって編集されたイタリア古写本の行単位のhtrデータセットである ludovico antonio muratori (lam) データセットを提案する。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 11:44:16 GMT)
    • (人間でも読解困難と思われる)歴史的写本の文字認識データセット。
    • プロジェクトサイトはAImageLab – – (unimore.it)

マルチモーダルなプレゼンテーションデータセット

  • Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
    学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。 このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。 マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
    論文  参考訳(メタデータ)   (Wed, 17 Aug 2022 05:30:18 GMT)
    • 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-figure(音声の説明から図を検索)、figure-to-text(図から音声の説明を検索)の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
    • リポジトリはdondongwon/MLPDataset (github.com)

OmniCity: Omnipotent City マルチレベル・マルチビューデータセット

  • OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images [72.4]
    オムニシティ(OmniCity)は、マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットである。 データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。 新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 15:19:25 GMT)
    • 都市理解のためのデータセット。衛星画像だけでなくアノテーション付きのストリートパノラマ画像を含む。
    • プロジェクトサイトはOmniCity (city-super.github.io)

MAFW: Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild

  • MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild [54.6]
    大規模複合感情データベースMAFWを提案する。 各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。 複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 13:34:33 GMT)

CelebV-HQ

  • CelebV-HQ: A Large-Scale Video Facial Attributes Dataset [94.3]
    CelebV-HQには35,666本のビデオクリップがあり、解像度は少なくとも512×512で、15,653個のIDが含まれている。 年齢、民族性、明るさ安定性、動きのスムーズさ、頭部の多様性、データ品質の観点から包括的な分析を行う。 その汎用性とポテンシャルは、2つの代表的タスク、すなわち無条件映像生成とビデオ顔属性編集において検証される。
    論文  参考訳(メタデータ)   (Mon, 25 Jul 2022 17:57:07 GMT)

Multifaceデータセット

  • Multiface: A Dataset for Neural Face Rendering [108.4]
    本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。 顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。 Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
    論文  参考訳(メタデータ)   (Fri, 22 Jul 2022 17:55:39 GMT)

NewsStories

  • NewsStories: Illustrating articles with visual summaries [49.9]
    我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。 現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。 本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
    論文  参考訳(メタデータ)   (Tue, 26 Jul 2022 17:34:11 GMT)

TASKOGRAPHY, SCRUB, SEEK

オノマトペデータセットと検出・認識・リンク

  • COO: Comic Onomatopoeia Dataset for Recognizing Arbitrary or Truncated Texts [47.5]
    日本語漫画におけるオノマトペのテキストからなる新しい漫画オノマトペデータセット(COO)を提供する。 COOは、非常に湾曲した、部分的に縮小したテキスト、任意に配置されたテキストなど、多くの任意のテキストを持っている。 我々は,オノマトペ領域を検出し,その意図した意味を捉えるために,テキスト検出,テキスト認識,リンク予測という3つのタスクを実行する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Jul 2022 07:39:35 GMT)

BigBIO

  • BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing [13.3]
    バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。 BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。 本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
    論文  参考訳(メタデータ)   (Thu, 30 Jun 2022 07:15:45 GMT)
    • バイオ・医療分野のデータセット。126のデータセットがありタスクカテゴリは以下の12とのこと。
      • Knowledge Base (KB)
        • Named entity recognition (NER)
        • Named entity disambiguation/normalization/linking (NED)
        • Event extraction (EE)
        • Relation extraction (RE)
        • Coreference resolution (COREF)
      • Question Answering (QA)
        • Question answering (QA)
      • Textual Entailment (TE)
        • Textual entailment (TE)
      • Text Pairs (PAIRS)
        • Semantic Similarity (STS)
      • Text to Text (T2T)
        • Paraphasing (PARA)
        • Translation (TRANSL)
        • Summarization (SUM)
      • Text (TEXT)
        • Text classification (TXTCLASS)