コンテンツへスキップ
- A Dataset for Medical Instructional Video Classification and Question Answering [16.7]
本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。 医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。 我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Sun, 30 Jan 2022 18:06:31 GMT)
- IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。 評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
論文 参考訳(メタデータ) (Thu, 27 Jan 2022 18:53:22 GMT)- 画像+言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
- 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念(翻訳モデル開発者としてはうれしいが、未来感がない)
- DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery — A Focus on Affinity Prediction Problems with Noise Annotations [90.3]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるDrugOOD を提案する。 DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。 我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (Mon, 24 Jan 2022 12:32:48 GMT)
- WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale Deep UAV Tracking [40.8]
WebUAV-3Mは100万スケールの無人航空機(UAV)追跡ベンチマークである。 われわれは、インターネットから3Mフレーム以上の4,485本のビデオを集めている。 WebUAV-3Mは、公的なUAV追跡ベンチマークとしては最大である。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 19 Jan 2022 05:39:42 GMT)- 大規模なUAV Tracking(無人航空機から撮影された映像を使って物体を追跡するタスク)データセット・ベンチマーク。
- Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents [28.2]
洪水、竜巻、山火事などの自然災害は、地球が温暖化するにつれてますます広まりつつある。 事故の発生時期や発生時期を予測することは困難であり、破壊的な出来事によって危険にさらされている人々の命を救うために、時折緊急対応が重要となる。 ソーシャルメディア投稿は、災害の進行と余波を理解するために低レイテンシデータソースとして使用できるが、このデータを解析するのは、自動化された方法なしでは面倒である。 本研究では,43のインシデントと49のカテゴリを含む977,088の画像を含む大規模マルチラベルデータセットであるインシデント1Mデータセットを提案する。
論文 参考訳(メタデータ) (Tue, 11 Jan 2022 23:03:57 GMT)
- CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.9]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。 本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (Fri, 14 Jan 2022 06:49:15 GMT)
- SCROLLS: Standardized CompaRison Over Long Language Sequences [62.6]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。 SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。 すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (Mon, 10 Jan 2022 18:47:15 GMT)
- Deep Facial Synthesis: A New Challenge [76.0]
まず,FS2Kという,2,104のイメージスケッチペアからなる高品質なFSSデータセットを提案する。 第2に, 古典的手法139点を調査し, 最大規模のFSSについて検討した。 第3に、FSGANという単純なFSSのベースラインを提示する。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 31 Dec 2021 13:19:21 GMT)- 2100以上のデータからなる顔のスケッチデータセット(性別等の属性付き)の紹介と広範囲な調査、ベースラインの提示。顔合成に関するサーベイとしても興味深い内容。
- Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.2]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。 音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (Mon, 27 Dec 2021 07:18:50 GMT)- 67人の講演者、76人の聴取者が3つの異なる態度で集結した会話ビデオコーパス「Responsive Listener Dataset(RLD)」に関する論文。表情を含め合成するのは面白く(難しいと思われる)タスク。
- プロジェクトサイトはRLD Dataset (mhzhou.com)
- A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。 本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文 参考訳(メタデータ) (Mon, 27 Dec 2021 12:45:06 GMT)- 英語以外のQAデータセットのサーベイ。日本語で挙げられていたJP-Newsは公開されているんだろうか・・・?