WildQA

  • WildQA: In-the-Wild Video Question Answering [22.1]
    本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。 また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 13:54:07 GMT)
    • 屋外で記録された映像を用いたVQAデータセット。規模は369本、916QA。ドメインが「Agriculture」「Human survival」「Natural disaster」「Geography」「Military」とかなり特殊。
    • プロジェクトサイトはWildQA: In-the-Wild Video Question Answering (umich.edu)

SPACE-3: タスク指向の会話理解と生成

  • SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation [123.4]
    SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。 幅広いダウンストリームダイアログタスクを効果的に微調整できる。 その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 14:17:57 GMT)

Fraud Dataset Benchmark

  • FDB: Fraud Dataset Benchmark [17.5]
    フラッドデータセットベンチマーク(Fraud dataset benchmark、FDB)は、不正検出に特化した公開データセットの集大成である。 FDBは、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションへのローンのリスクの予測など、さまざまな不正関連タスクで構成されている。 FDBのPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫性のあるAPIを提供する。
    論文  参考訳(メタデータ)   (Wed, 31 Aug 2022 22:20:42 GMT)

ImageNet-1kの問題

  • Bugs in the Data: How ImageNet Misrepresents Biodiversity [99.0]
    ImageNet-1k検証セットで野生動物を表す269のクラスから13450の画像を解析した。 多くのクラスが未定義あるいは重複しており、画像の12%が誤ってラベル付けされていることがわかった。 また,ImageNet-1kに含まれる野生生物関連ラベルと画像の両方が,地理的,文化的に有意な偏見を呈していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 24 Aug 2022 17:55:48 GMT)
    • 非常に良く用いられているImageNet-1kに問題のあるクラス付けがあるという指摘。12%はモデル品質に影響を与えるレベルに思う。このような検証はとても大事。

法的議論と自然言語処理

  • Mining Legal Arguments in Court Decisions [43.1]
    我々は,欧州人権裁判所の手続において,法的議論のための新たな注釈体系を開発する。 まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。 第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。 最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。
    論文  参考訳(メタデータ)   (Fri, 12 Aug 2022 08:59:55 GMT)

LAM Dataset

  • The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text Recognition [40.2]
    手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。  歴史的写本を扱う際の主な課題は、紙の支持の保存、筆跡の多様性、また、同じ著者の幅広い期間にわたる変動、そして古代の表現が不十分な言語からのデータ不足などである。 本稿では,本研究の推進を目的として,60年以上にわたって1人の著者によって編集されたイタリア古写本の行単位のhtrデータセットである ludovico antonio muratori (lam) データセットを提案する。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 11:44:16 GMT)
    • (人間でも読解困難と思われる)歴史的写本の文字認識データセット。
    • プロジェクトサイトはAImageLab – – (unimore.it)

マルチモーダルなプレゼンテーションデータセット

  • Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
    学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。 このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。 マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
    論文  参考訳(メタデータ)   (Wed, 17 Aug 2022 05:30:18 GMT)
    • 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-figure(音声の説明から図を検索)、figure-to-text(図から音声の説明を検索)の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
    • リポジトリはdondongwon/MLPDataset (github.com)

OmniCity: Omnipotent City マルチレベル・マルチビューデータセット

  • OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images [72.4]
    オムニシティ(OmniCity)は、マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットである。 データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。 新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 15:19:25 GMT)
    • 都市理解のためのデータセット。衛星画像だけでなくアノテーション付きのストリートパノラマ画像を含む。
    • プロジェクトサイトはOmniCity (city-super.github.io)

MAFW: Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild

  • MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild [54.6]
    大規模複合感情データベースMAFWを提案する。 各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。 複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 13:34:33 GMT)

CelebV-HQ

  • CelebV-HQ: A Large-Scale Video Facial Attributes Dataset [94.3]
    CelebV-HQには35,666本のビデオクリップがあり、解像度は少なくとも512×512で、15,653個のIDが含まれている。 年齢、民族性、明るさ安定性、動きのスムーズさ、頭部の多様性、データ品質の観点から包括的な分析を行う。 その汎用性とポテンシャルは、2つの代表的タスク、すなわち無条件映像生成とビデオ顔属性編集において検証される。
    論文  参考訳(メタデータ)   (Mon, 25 Jul 2022 17:57:07 GMT)