DrugOOD: AI支援創薬のためのベンチマーク

  • DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery — A Focus on Affinity Prediction Problems with Noise Annotations [90.3]
    我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるDrugOOD を提案する。 DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。 我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
    論文  参考訳(メタデータ)   (Mon, 24 Jan 2022 12:32:48 GMT)

WebUAV-3M: 大規模UAV追跡ベンチマーク

  • WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale Deep UAV Tracking [40.8]
    WebUAV-3Mは100万スケールの無人航空機(UAV)追跡ベンチマークである。 われわれは、インターネットから3Mフレーム以上の4,485本のビデオを集めている。 WebUAV-3Mは、公的なUAV追跡ベンチマークとしては最大である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 19 Jan 2022 05:39:42 GMT)
    • 大規模なUAV Tracking(無人航空機から撮影された映像を使って物体を追跡するタスク)データセット・ベンチマーク。

Incidents1M: 自然災害の画像データセット

  • Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents [28.2]
    洪水、竜巻、山火事などの自然災害は、地球が温暖化するにつれてますます広まりつつある。 事故の発生時期や発生時期を予測することは困難であり、破壊的な出来事によって危険にさらされている人々の命を救うために、時折緊急対応が重要となる。 ソーシャルメディア投稿は、災害の進行と余波を理解するために低レイテンシデータソースとして使用できるが、このデータを解析するのは、自動化された方法なしでは面倒である。 本研究では,43のインシデントと49のカテゴリを含む977,088の画像を含む大規模マルチラベルデータセットであるインシデント1Mデータセットを提案する。
    論文  参考訳(メタデータ)   (Tue, 11 Jan 2022 23:03:57 GMT)
    • ソーシャルメディアで使われるような画像を対象とし、災害情報をラベリングしたデータセット。
    • プロジェクトサイトはIncidents (mit.edu)、デモなども存在する。

CommonsenseQA 2.0: ゲーミフィケーションにより収集されたQAデータセット

  • CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.9]
    現代自然言語理解モデルの能力をテストするベンチマークを構築した。 本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
    論文  参考訳(メタデータ)   (Fri, 14 Jan 2022 06:49:15 GMT)
    • 高品質なデータを収集するため「AIを打ち負かす」ゲーミフィケーションを用いてベンチマークを構築。最善のモデル(11BパラメータのUNICORN)でも人間に比べて大幅にスコアが低い難しいデータセットとのこと。
    • プロジェクトサイトはExposing the limits of AI through Gamification | CommonsenseQA 2.0 (allenai.github.io)、データのライセンスはCC-BYとのこと。

SCROLLS(Standardized CompaRison Over Long Language Sequences): 長いシーケンスに対する自然言語処理

  • SCROLLS: Standardized CompaRison Over Long Language Sequences [62.6]
    SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。 SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。 すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
    論文  参考訳(メタデータ)   (Mon, 10 Jan 2022 18:47:15 GMT)

FS2K: 顔のスケッチ合成(FSS)問題のデータセットとベースライン

  • Deep Facial Synthesis: A New Challenge [76.0]
    まず,FS2Kという,2,104のイメージスケッチペアからなる高品質なFSSデータセットを提案する。 第2に, 古典的手法139点を調査し, 最大規模のFSSについて検討した。 第3に、FSGANという単純なFSSのベースラインを提示する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 31 Dec 2021 13:19:21 GMT)
    • 2100以上のデータからなる顔のスケッチデータセット(性別等の属性付き)の紹介と広範囲な調査、ベースラインの提示。顔合成に関するサーベイとしても興味深い内容。

RLD Dataset: 会話応答(表情)のビデオデータセット

  • Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.2]
    本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。 音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
    論文  参考訳(メタデータ)   (Mon, 27 Dec 2021 07:18:50 GMT)
    • 67人の講演者、76人の聴取者が3つの異なる態度で集結した会話ビデオコーパス「Responsive Listener Dataset(RLD)」に関する論文。表情を含め合成するのは面白く(難しいと思われる)タスク。
    • プロジェクトサイトはRLD Dataset (mhzhou.com)

英語以外のQuestion Answeringデータセット

  • A Survey on non-English Question Answering Dataset [0.0]
    この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。 本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
    論文  参考訳(メタデータ)   (Mon, 27 Dec 2021 12:45:06 GMT)
    • 英語以外のQAデータセットのサーベイ。日本語で挙げられていたJP-Newsは公開されているんだろうか・・・?

CUGE(Chinese Language Understanding and Generation): 中国語の言語理解、生成ベンチマーク

  • CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark [144.1]
    汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。 汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。 以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
    論文  参考訳(メタデータ)   (Mon, 27 Dec 2021 11:08:58 GMT)
    • 自然言語タスクが幅広く扱われたベンチマークで、階層別に整理されておりリーダーボードが存在。
      • 日本語版が欲しい・・・動きはあるようなので、このような統一的なものが作られることを期待
    • プロジェクトサイトは智源指数 (baai.ac.cn)

MuMuQA(Multimedia Multi-Hop news Question Answering)

  • MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
    我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。 具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。 本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 20 Dec 2021 18:23:30 GMT)
    • クロスメディア(画像、キャプション、ニュース本文)、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用(Silver Training Set)のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
    • リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon