JaQuAD: 日本語のSQuADデータ

DALL-Eval: 画像生成モデルを評価するデータセットと評価ツールキットPAINTSKILLS

  • DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers [83.1]
    マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。 興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。 本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。 近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
    論文  参考訳(メタデータ)   (Tue, 8 Feb 2022 18:36:52 GMT)

Met Dataset: メトロポリタン美術館のデータセット

  • The Met Dataset: Instance-level Recognition for Artworks [19.4]
    この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。 私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
    論文  参考訳(メタデータ)   (Thu, 3 Feb 2022 18:13:30 GMT)

Ad-datasets: 自動運転のデータセットまとめ

  • Ad-datasets: a meta-collection of data sets for autonomous driving [5.3]
    ad-datasetsは150以上のデータセットの概要を提供するオンラインツールである。 ユーザーは16のカテゴリでデータセットをソートしてフィルタリングできる。
    論文  参考訳(メタデータ)   (Thu, 3 Feb 2022 23:45:48 GMT)
    • 自動運転に関連するデータセットを整理したサイト。ライセンス等の記載があるのもうれしいが、後半のデータについて概要等が欠けている気がする。。
    • プロジェクトサイトはad Datasets (ad-datasets.com)

医療向けビデオ理解用のデータセットMedVidQA と MedVidCL

IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

  • IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
    画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。 評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 18:53:22 GMT)
    • 画像+言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
    • 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念(翻訳モデル開発者としてはうれしいが、未来感がない)

DrugOOD: AI支援創薬のためのベンチマーク

  • DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery — A Focus on Affinity Prediction Problems with Noise Annotations [90.3]
    我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるDrugOOD を提案する。 DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。 我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
    論文  参考訳(メタデータ)   (Mon, 24 Jan 2022 12:32:48 GMT)

WebUAV-3M: 大規模UAV追跡ベンチマーク

  • WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale Deep UAV Tracking [40.8]
    WebUAV-3Mは100万スケールの無人航空機(UAV)追跡ベンチマークである。 われわれは、インターネットから3Mフレーム以上の4,485本のビデオを集めている。 WebUAV-3Mは、公的なUAV追跡ベンチマークとしては最大である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 19 Jan 2022 05:39:42 GMT)
    • 大規模なUAV Tracking(無人航空機から撮影された映像を使って物体を追跡するタスク)データセット・ベンチマーク。

Incidents1M: 自然災害の画像データセット

  • Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents [28.2]
    洪水、竜巻、山火事などの自然災害は、地球が温暖化するにつれてますます広まりつつある。 事故の発生時期や発生時期を予測することは困難であり、破壊的な出来事によって危険にさらされている人々の命を救うために、時折緊急対応が重要となる。 ソーシャルメディア投稿は、災害の進行と余波を理解するために低レイテンシデータソースとして使用できるが、このデータを解析するのは、自動化された方法なしでは面倒である。 本研究では,43のインシデントと49のカテゴリを含む977,088の画像を含む大規模マルチラベルデータセットであるインシデント1Mデータセットを提案する。
    論文  参考訳(メタデータ)   (Tue, 11 Jan 2022 23:03:57 GMT)
    • ソーシャルメディアで使われるような画像を対象とし、災害情報をラベリングしたデータセット。
    • プロジェクトサイトはIncidents (mit.edu)、デモなども存在する。

CommonsenseQA 2.0: ゲーミフィケーションにより収集されたQAデータセット

  • CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.9]
    現代自然言語理解モデルの能力をテストするベンチマークを構築した。 本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
    論文  参考訳(メタデータ)   (Fri, 14 Jan 2022 06:49:15 GMT)
    • 高品質なデータを収集するため「AIを打ち負かす」ゲーミフィケーションを用いてベンチマークを構築。最善のモデル(11BパラメータのUNICORN)でも人間に比べて大幅にスコアが低い難しいデータセットとのこと。
    • プロジェクトサイトはExposing the limits of AI through Gamification | CommonsenseQA 2.0 (allenai.github.io)、データのライセンスはCC-BYとのこと。